Извлечение файлов из веб-архива (.warc)

У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить многие из связанных файлов там, в частности, несколько PDF-файлов.

У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошее решение для извлечения файлов из этих .warc файлы.

у кого-нибудь есть опыт с этим, или есть предпочтительный способ получить эти файлы?

4
задан wxs
21.12.2022 17:05 Количество просмотров материала 2993
Распечатать страницу

3 ответа

вы можете просматривать WARC с Веб-Архив-Плеер и сохраните нужные файлы в браузере. Кроме того, загрузить ВАКР в webrecorder.Ио и просмотреть/скачать здесь.

4
отвечен Dragan Espenschied 2022-12-23 00:53

предлагаю попробовать warctools https://github.com/internetarchive/warctools это Python lib, который очень прост в использовании.

1
отвечен Ivan Begtin 2022-12-23 03:10

Я использовал 7-Zip раньше для извлечения отдельных файлов или целых архивов из файлов формата веб-архива.

Это доступно с их сайта здесь.

0
отвечен Martin Parkin 2022-12-23 05:27

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх