Загрузка веб-страниц через список URL-адресов?

Я сейчас использую sitesucker для извлечения всех файлов для веб-сайта клиента. Это дает мне большую часть страниц, но проблема в том, что некоторые из страниц, которые у нас есть, на самом деле не доступны по ссылке, а по почтовому коду. Есть ли способ использовать этот инструмент или другой инструмент, даже чтобы дать ему список URL-адресов, и он загружает файлы для меня по мере необходимости, сохраняя структуру папок так же, как site sucker.

мои извинения, если это плохое место для задать этот вопрос :).

23
задан agmcleod
12.04.2023 3:56 Количество просмотров материала 3688
Распечатать страницу

3 ответа

Вы можете использовать wget: создайте простой файл со списком url, который необходимо загрузить (пример pippo.txt):

Пиппо.txt:

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

затем используйте wget для загрузки списка url:

cd /some/folder/
wget -i /path/to/pippo.txt

сделал

wget для для Linux-это базовый инструмент https://www.gnu.org/software/wget/ для Windows существует Бен порт: http://users.ugent.be/~bpuype/с wget/

5
отвечен Koma 2023-04-13 11:44

Если у вас есть доступ к Linux машине (возможно, практически по строки), и в зависимости от того, что вы пытаетесь сделать, вы можете взглянуть на wget.

С помощью -r опция вы можете делать такие вещи, как рекурсивные получает веб-сайта.

вы могли бы сделать:

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

легко scriptable / Excelable.

1
отвечен digitalhen 2023-04-13 14:01

Я написал расширение браузера Chrome, чтобы сделать это с помощью Google Chrome скачать API, который будет работать на всех платформах (операционных системах), то есть Windows/Mac/Linux :-)

Это называется TabSave, и первоначально это было для этого, я добавляю возможность делать некоторые вещи, которые исследователи могут захотеть сделать с предоставлением названий PDF-файлов прямо из браузера, но это очень легко и может захватить из открытых вкладок, если это удобно.

вы можете получить расширение вот и весь код является открытым исходным кодом на GitHub здесь.

Не стесняйтесь раскошелиться, если вы хотите пойти в другом направлении с ним :-)

1
отвечен Louis Maddox 2023-04-13 16:18

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх