Что я использую для загрузки всех PDF-файлов с веб-сайта?

Мне нужно скачать все PDF-файлы на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) просканировать сайт и загрузить файлы или, по крайней мере, получить список файлов. Я попытался WinHTTrack, но я не мог заставить его работать. DownThemAll для Firefox не сканировать несколько страниц или целых сайтов. Я знаю, что есть решение, так как я не мог быть первым человеком, которому будет представлена эта проблема. Что вы бы порекомендовали?

16
задан miku
29.03.2023 20:10 Количество просмотров материала 3672
Распечатать страницу

4 ответа

10
отвечен miku 2023-03-31 03:58

Google имеет возможность возвращать только файлы определенного типа. Объедините это с опцией "сайт", и у вас есть"искатель".

пример: http://www.google.com/search?q=site:soliddocuments.com+тип файла:PDF файл

3
отвечен Michael 2023-03-31 06:15

используйте некоторую библиотеку webcrawling, например. в Ruby http://www.example-code.com/ruby/spider_begin.asp

1
отвечен Alistra 2023-03-31 08:32

Если нет ссылок на PDF-файлы, поисковый робот не поможет, и у вас есть только два варианта:

  1. получить список откуда-то еще (спросите веб-мастера сайта для списка)
  2. получить список с сайта каталога. Хотя, если они отключили эту опцию на своем веб-сервере, вы не сможете использовать его.
0
отвечен Pablo Santa Cruz 2023-03-31 10:49

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх