Мне нужно скачать все PDF-файлы на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) просканировать сайт и загрузить файлы или, по крайней мере, получить список файлов. Я попытался WinHTTrack, но я не мог заставить его работать. DownThemAll для Firefox не сканировать несколько страниц или целых сайтов. Я знаю, что есть решение, так как я не мог быть первым человеком, которому будет представлена эта проблема. Что вы бы порекомендовали?
Что я использую для загрузки всех PDF-файлов с веб-сайта?
16
4 ответа
С http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files:
wget -r -A pdf http://www.site.com
10
отвечен miku 2023-03-31 03:58
Google имеет возможность возвращать только файлы определенного типа. Объедините это с опцией "сайт", и у вас есть"искатель".
пример: http://www.google.com/search?q=site:soliddocuments.com+тип файла:PDF файл
3
отвечен Michael 2023-03-31 06:15
используйте некоторую библиотеку webcrawling, например. в Ruby http://www.example-code.com/ruby/spider_begin.asp
1
отвечен Alistra 2023-03-31 08:32
Если нет ссылок на PDF-файлы, поисковый робот не поможет, и у вас есть только два варианта:
- получить список откуда-то еще (спросите веб-мастера сайта для списка)
- получить список с сайта каталога. Хотя, если они отключили эту опцию на своем веб-сервере, вы не сможете использовать его.
0
отвечен Pablo Santa Cruz 2023-03-31 10:49
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]