У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить многие из связанных файлов там, в частности, несколько PDF-файлов.
У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошее решение для извлечения файлов из этих .warc
файлы.
у кого-нибудь есть опыт с этим, или есть предпочтительный способ получить эти файлы?