Rip веб-сайт через HTTP для загрузки изображений, HTML и CSS

Мне нужно скопировать сайт через HTTP. Мне нужно загрузить изображения, HTML, CSS и JavaScript, а также организовать его в файловой системе.

кто-нибудь знает, как это сделать?

26
задан slhck
28.01.2023 7:31 Количество просмотров материала 2367
Распечатать страницу

11 ответов

wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

это выполняется в консоли.

это будет захватить сайт, подождите 3 секунды между запросами, ограничить, как быстро он загружает, так что не убивает сайт, и маскировать себя таким образом, что делает его просто быть браузер, так что сайт не отрезать вас с помощью механизма анти-пиявки.

Примечание -A параметр, указывающий список типов файлов, которые вы хотите загрузить.

вы также можете использовать другой тег -D domain1.com,domain2.com указать серию домены, которые вы хотите скачать, если у них есть другой сервер или что-то для размещения различных типов файлов. Нет безопасного способа автоматизировать это для всех случаев, если вы не получите файлы.

wget обычно предустановлен на Linux, но может быть тривиально скомпилирован для других систем Unix или легко загружен для Windows: GNUwin32 WGET

используйте это для добра, а не для зла.

40
отвечен DevelopersDevelopersDevelopers 2023-01-29 15:19

Хорошее, Бесплатное Решение:HTTrack

HTTrack это бесплатная (GPL, libre/free software) и простая в использовании утилита для автономного браузера.

Это позволяет загружать веб-сайт из интернета в локальный каталог, рекурсивно строить все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер. HTTrack организует относительную структуру ссылок исходного сайта. Просто откройте страницу "зеркального" сайта в Ваш браузер и вы можете просматривать сайт от ссылки к ссылке, как будто вы читаете его в интернете. HTTrack может также обновить существующий зеркальный сайт, и возобновлять прерванные загрузки. HTTrack полностью настраивается и имеет интегрированную справочную систему.

16
отвечен slhck 2023-01-29 17:36

на системах Linux, 'wget' делает это, в значительной степени.

его также портировали на несколько других платформ, как упоминают некоторые другие ответы.

7
отвечен GWLlosa 2023-01-29 19:53

очевидно, что WGet упоминался несколько раз. Лучший пользовательский интерфейс я нашел для него

есть некоторые другие UIs для WGet вокруг, некоторые из которых являются кандидатами на худший пользовательский интерфейс вопрос

2
отвечен Chris S 2023-01-29 22:10

посмотрите на расширение Scrapbook для firefox. Это делает удивительную работу на этом, а также интегрировать с firebug и позволяет удалять элементы из DOM, прежде чем сохранить, если вы хотите.

1
отвечен GBa 2023-01-30 00:27

вы должны использовать wget - который доступен для большинства платформ. curl не будет рекурсивно запрашивать документы, что является одной из сильных сторон wget.

Линукс: (обычно включен в дистрибутив) http://www.gnu.org/software/wget/

Окна: http://gnuwin32.sourceforge.net/packages/wget.htm

Мак: http://www.geekology.co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/

пожалуйста, убедитесь, что вы не забивая веб-сайт-настроить подходящие задержки между запросами, и убедитесь, что это в рамках сайта условия предоставления услуг.

-Adam

1
отвечен Adam Davis 2023-01-30 02:44

на самом деле, следуя моему комментарию в посте GWLlosa, я только что вспомнил, что у меня установлен GnuWin32, и, конечно же, он содержит порт Windows wget.

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
1
отвечен JMD 2023-01-30 05:01

Я использовал это несколько лет назад и он работал хорошо. Только окна. Раньше рекламного ПО, но больше не, по-видимому:

http://www.webreaper.net/

1
отвечен Odilon Redo 2023-01-30 07:18

Я думаю IDM сайт граббер - это лучшее решение, там тоже Телепорт про

0
отвечен Marwan Aouida 2023-01-30 09:35

Скачать Бесплатно Manager смогите загрузить полные вебсайты также.

Windows, только я думаю.

0
отвечен jeroen 2023-01-30 11:52

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • -p: параметр указывает wget включать все файлы, включая изображения.
  • -e robots=off : игнорировать сайты роботы.правила тхт
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" : строку агента пользователя
  • --random-wait : во избежание попадания в черный список
  • --limit-rate=20k : ограничивает скорость загрузки файлов.
  • -b: продолжает wget после выхода из системы.
0
отвечен davidcondrey 2023-01-30 14:09

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх