Я пытаюсь скачать много страниц с веб-сайта на dial-up, и это может быть жестоко медленно. У меня почти получилось идеальное wget
команда, а потому, что я загружаю страницы с того же сайта wget
тратит время на загрузку одних и тех же стандартных изображений для каждой страницы.
если я знаю имя изображений страницы по умолчанию, есть ли способ иметь wget
игнорировать и, таким образом, не скачивая на каждой странице?
здесь пример одного из wget команды, которые мой сценарий оболочки генерирует в другой сценарий оболочки для загрузки всех страниц:
mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../
теперь я понимаю, что сценарий, скорее всего, не так подкован, как это могло бы быть, но он делает то, что мне нужно в данный момент, за исключением того, что вы можете видеть из rm
команда, которую я хотел бы просто предотвратить wget
С загрузкой файлов, в первую очередь, если это возможно.
Я чуть не забыл упомянуть, есть два wget
команды и это потому, что первое один скачивает страницу как index.html
и почему-то не открывается в моем браузере, но когда я открываю его и смотрю на него в vim
все страницы есть, поэтому я не уверен, почему он не открывается. Но если я просто выдам второй wget
команда, как это то, что страницы, же файл с другого имени, открывает нормально. Что-то, что, если бы я мог исправить, также помогло бы упростить процесс.