Как скачать сайт из Машина Wayback archive.org ?

Я хочу получить все файлы для данного веб-сайта по адресу archive.org. Причины могут включать:

  • оригинальный автор не заархивировал свой сайт и теперь он оффлайн, хочу сделать из него публичный кэш
  • Я оригинальный автор какого-то сайта и потерял какой-то контент. Я хочу его восстановить
  • ...

Как это сделать ?

учитывая, что машина Wayback archive.org особенная: ссылки на веб-страницы указывают не на сам архив, а на веб-страницу, которой может больше не быть. JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не будет работать.

7
задан user36520
15.03.2023 7:54 Количество просмотров материала 2849
Распечатать страницу

3 ответа

Я пробовал разные способы скачать сайт и, наконец, я нашел wayback Machine downloader-который был упомянут Hartator раньше (так что все кредиты идут к нему, пожалуйста), но я просто не заметил его комментарий к вопросу. Чтобы сэкономить ваше время, я решил добавить драгоценный камень wayback_machine_downloader в качестве отдельного ответа здесь.

сайта http://www.archiveteam.org/index.php?title=Restoring списки этих способа скачать из archive.org:

  • Wayback Machine Downloader, небольшой инструмент в Ruby для загрузки любого веб-сайта с Wayback машины. Бесплатный и с открытым исходным кодом. Мой выбор!
  • Warrick - основной сайт не работает.
  • Wayback downloader , сервис, который скачает ваш сайт с Wayback машины и даже добавит плагин для Wordpress. Несвободный.
54
отвечен Comic Sans 2023-03-16 15:42

это можно сделать с помощью баш скрипт в сочетании с wget.

идея состоит в том, чтобы использовать некоторые из URL-адрес функции из wayback машины:

  • http://web.archive.org/web/*/http://domain/* появится список всех сохраненных страниц с http://domain/ рекурсивно. Он может быть использован для построения индекса страниц для загрузки и избежать эвристики для обнаружения ссылок на веб-страницах. Для каждой ссылки также указана дата первой и последней версии версия.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page будет список всех версий http://domain/page за год гггг. На этой странице можно найти конкретные ссылки на версии (с точной меткой времени)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page вернет неизмененную страницу http://domain/page на данной временной метке. Обратите внимание на id_ маркер.

это основы для создания скрипта для загрузки всего из данного домена.

9
отвечен user36520 2023-03-16 17:59

есть инструмент, специально разработанный для этой цели, Уоррик: https://code.google.com/p/warrick/

Он основан на протоколе Memento.

3
отвечен Nemo 2023-03-16 20:16

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх