Исключить список определенных файлов в wget

Я пытаюсь скачать много страниц с веб-сайта на dial-up, и это может быть жестоко медленно. У меня почти получилось идеальное wget команда, а потому, что я загружаю страницы с того же сайта wget тратит время на загрузку одних и тех же стандартных изображений для каждой страницы.

если я знаю имя изображений страницы по умолчанию, есть ли способ иметь wget игнорировать и, таким образом, не скачивая на каждой странице?

здесь пример одного из wget команды, которые мой сценарий оболочки генерирует в другой сценарий оболочки для загрузки всех страниц:

mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../

теперь я понимаю, что сценарий, скорее всего, не так подкован, как это могло бы быть, но он делает то, что мне нужно в данный момент, за исключением того, что вы можете видеть из rm команда, которую я хотел бы просто предотвратить wget С загрузкой файлов, в первую очередь, если это возможно.

Я чуть не забыл упомянуть, есть два wget команды и это потому, что первое один скачивает страницу как index.html и почему-то не открывается в моем браузере, но когда я открываю его и смотрю на него в vim все страницы есть, поэтому я не уверен, почему он не открывается. Но если я просто выдам второй wget команда, как это то, что страницы, же файл с другого имени, открывает нормально. Что-то, что, если бы я мог исправить, также помогло бы упростить процесс.

1
задан Indrek
09.01.2023 12:01 Количество просмотров материала 2811
Распечатать страницу

1 ответ

Wget имеет --reject rejlist опция, которую вы можете использовать. Список отклонения-это список шаблонов имен файлов.

Она также имеет -nc возможность избежать загрузки и перезаписи существующих файлов.

1
отвечен RedGrittyBrick 2023-01-10 19:49

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх