Как вы используете wget для загрузки всего сайта (домена A), когда его ресурсы находятся на другом домене (домене B)?
Я пробовал:wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA
Заставить wget загружать ресурсы страницы в другом домене
3 ответа
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
--span-hosts=domainA,domainB url-on-domainA
обновление: я помню, что команда выше работала для меня в прошлом (это был 2010, и я использовал инструменты GNU для Windows тогда); однако мне пришлось изменить его на следующее, Когда я хотел использовать его сегодня:
wget --recursive --level=inf --page-requisites --convert-links \
--adjust-extension --span-hosts --domains=domainA,domainB domainA
сокращение для этого было бы:wget -rEDpkH -l inf domainA,domainB domainA
-r
=--recursive
-l <depth>
=--level=<depth>
-E
=--adjust-extension
-p
=--page-requisites
-K
=--backup-converted
-k
=--convert-links
-D <domain-list>
=--domain-list=<domain-list>
-H
=--span-hosts
-np
=--no-parent
-U <agent-string>
=--user-agent=<agent-string>
руководство по GNU wget для: https://www.gnu.org/software/wget/manual/wget.html
команды wget --рекурсивный --уровень=РСМД-страница-реквизиты --преобразования-ссылки --HTML-растяжку -резус -DdomainA,доменв "домена"
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA
возможно, Вам придется игнорировать роботов.txt (обратите внимание, что это может быть нарушением некоторых условий предоставления услуг, и вы должны скачать минимально необходимый). Вижу https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]