Что я использую для загрузки всех PDF-файлов с веб-сайта?

Question

Что я использую для загрузки всех PDF-файлов с веб-сайта?

Мне нужно скачать все PDF-файлы на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) просканировать сайт и загрузить файлы или, по крайней мере, получить список файлов. Я попытался WinHTTrack, но я не мог заставить его работать. DownThemAll для Firefox не сканировать несколько страниц или целых сайтов. Я знаю, что есть решение, так как я не мог быть первым человеком, которому будет представлена эта проблема. Что вы бы порекомендовали?

16

задан miku

29.03.2023 20:10

4 ответа

100	60	30	70	5	8	10	6	4	20

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Email

Похожие вопросы про тегам:

pdf

web-crawler

score 10 · Answer 1

С http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files:

wget -r -A pdf http://www.site.com

score 3 · Answer 2

Google имеет возможность возвращать только файлы определенного типа. Объедините это с опцией "сайт", и у вас есть"искатель".

пример: http://www.google.com/search?q=site:soliddocuments.com+тип файла:PDF файл

score 1 · Answer 3

используйте некоторую библиотеку webcrawling, например. в Ruby http://www.example-code.com/ruby/spider_begin.asp

score 0 · Answer 4

Если нет ссылок на PDF-файлы, поисковый робот не поможет, и у вас есть только два варианта:

получить список откуда-то еще (спросите веб-мастера сайта для списка)
получить список с сайта каталога. Хотя, если они отключили эту опцию на своем веб-сервере, вы не сможете использовать его.

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%