Мне нужно скопировать сайт через HTTP. Мне нужно загрузить изображения, HTML, CSS и JavaScript, а также организовать его в файловой системе.
кто-нибудь знает, как это сделать?
Мне нужно скопировать сайт через HTTP. Мне нужно загрузить изображения, HTML, CSS и JavaScript, а также организовать его в файловой системе.
кто-нибудь знает, как это сделать?
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
это выполняется в консоли.
это будет захватить сайт, подождите 3 секунды между запросами, ограничить, как быстро он загружает, так что не убивает сайт, и маскировать себя таким образом, что делает его просто быть браузер, так что сайт не отрезать вас с помощью механизма анти-пиявки.
Примечание -A
параметр, указывающий список типов файлов, которые вы хотите загрузить.
вы также можете использовать другой тег -D domain1.com,domain2.com
указать серию домены, которые вы хотите скачать, если у них есть другой сервер или что-то для размещения различных типов файлов. Нет безопасного способа автоматизировать это для всех случаев, если вы не получите файлы.
wget
обычно предустановлен на Linux, но может быть тривиально скомпилирован для других систем Unix или легко загружен для Windows: GNUwin32 WGET
используйте это для добра, а не для зла.
Хорошее, Бесплатное Решение:HTTrack
HTTrack это бесплатная (GPL, libre/free software) и простая в использовании утилита для автономного браузера.
Это позволяет загружать веб-сайт из интернета в локальный каталог, рекурсивно строить все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер. HTTrack организует относительную структуру ссылок исходного сайта. Просто откройте страницу "зеркального" сайта в Ваш браузер и вы можете просматривать сайт от ссылки к ссылке, как будто вы читаете его в интернете. HTTrack может также обновить существующий зеркальный сайт, и возобновлять прерванные загрузки. HTTrack полностью настраивается и имеет интегрированную справочную систему.
на системах Linux, 'wget' делает это, в значительной степени.
его также портировали на несколько других платформ, как упоминают некоторые другие ответы.
очевидно, что WGet упоминался несколько раз. Лучший пользовательский интерфейс я нашел для него
есть некоторые другие UIs для WGet вокруг, некоторые из которых являются кандидатами на худший пользовательский интерфейс вопрос
посмотрите на расширение Scrapbook для firefox. Это делает удивительную работу на этом, а также интегрировать с firebug и позволяет удалять элементы из DOM, прежде чем сохранить, если вы хотите.
вы должны использовать wget - который доступен для большинства платформ. curl не будет рекурсивно запрашивать документы, что является одной из сильных сторон wget.
Линукс: (обычно включен в дистрибутив) http://www.gnu.org/software/wget/
Окна: http://gnuwin32.sourceforge.net/packages/wget.htm
Мак: http://www.geekology.co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
пожалуйста, убедитесь, что вы не забивая веб-сайт-настроить подходящие задержки между запросами, и убедитесь, что это в рамках сайта условия предоставления услуг.
-Adam
на самом деле, следуя моему комментарию в посте GWLlosa, я только что вспомнил, что у меня установлен GnuWin32, и, конечно же, он содержит порт Windows wget.
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
Я использовал это несколько лет назад и он работал хорошо. Только окна. Раньше рекламного ПО, но больше не, по-видимому:
Я думаю IDM сайт граббер - это лучшее решение, там тоже Телепорт про
Скачать Бесплатно Manager смогите загрузить полные вебсайты также.
Windows, только я думаю.
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: параметр указывает wget включать все файлы, включая изображения.-e robots=off
: игнорировать сайты роботы.правила тхт-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: строку агента пользователя--random-wait
: во избежание попадания в черный список--limit-rate=20k
: ограничивает скорость загрузки файлов.-b
: продолжает wget после выхода из системы.
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]