Извлечение файлов из веб-архива (.warc)

У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить многие из связанных файлов там, в частности, несколько PDF-файлов.

У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошее решение для извлечения файлов из этих .warc файлы.

у кого-нибудь есть опыт с этим, или есть предпочтительный способ получить эти файлы?

задан wxs

21.12.2022 17:05

3 ответа

вы можете просматривать WARC с Веб-Архив-Плеер и сохраните нужные файлы в браузере. Кроме того, загрузить ВАКР в webrecorder.Ио и просмотреть/скачать здесь.

отвечен Dragan Espenschied 2022-12-23 00:53

предлагаю попробовать warctools https://github.com/internetarchive/warctools это Python lib, который очень прост в использовании.

отвечен Ivan Begtin 2022-12-23 03:10

Я использовал 7-Zip раньше для извлечения отдельных файлов или целых архивов из файлов формата веб-архива.

Это доступно с их сайта здесь.

отвечен Martin Parkin 2022-12-23 05:27

95	57	29	67	5	8	10	6	4	19

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%

Извлечение файлов из веб-архива (.warc)

3 ответа

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Похожие вопросы про тегам: