как скачать полный мокрый архив из Common Crawl?

меня интересует WET архивы за последний апреле 2018 года обхода (http://commoncrawl.org/2018/05/april-2018-crawl-archive-now-available/)

можно ли скачать полный WET архив сразу? Я вижу, что отдельные пути доступны на веб-сайте, но я хотел бы избежать необходимости перебирать каждый отдельный файл. Такое возможно? Должен ли я повторять каждый отдельный файл?

отказ от ответственности: я noob С командная строка. Любая подробная помощь приветствуется!

спасибо!

13
задан ℕʘʘḆḽḘ
10.05.2023 15:42 Количество просмотров материала 2807
Распечатать страницу

1 ответ

можно ли сразу скачать полный мокрый архив?

если они не предлагают его в формате, отличном от серии gzip файлы, это маловероятно.

Несколько Архивов

в качестве побочного комментария, когда вы загружаете большой набор данных, разделение вещей на более мелкие архивы крайне желательно. По сути, это позволяет прервать соединение с минимальным количеством суеты (вы потеряли только один маленький файл). Аналогичным образом, предполагая, что один или несколько файлов повреждены во время передачи, вам нужно только повторно загрузить эти файлы-и они, вероятно, будут намного меньше хлопот, чем повторная загрузка частично загруженного, поврежденного, массивного одиночного архива.

1
отвечен Anaksunaman 2023-05-11 23:30

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх