Как я могу эффективно просматривать/проверять / удалять файлы 1M+ из восстановления данных?

я восстановил несколько ТБ данных, получив более миллиона файлов. Многое из того, что было найдено-это мусор, но небольшой процент очень ценные файлы, которые похоронены в беспорядке. вопрос: Как я могу отбраковывать результаты восстановления до управляемого отношения "сигнал-шум", чтобы облегчить оценку отдельных файлов?

фон

Я, прежде всего, Testdisk, ДД, и Photorec, чтобы восстановить данные. Передовые и как тянуть резервного копирования данных по типу файлов. В итоге вы получаете миллионы файлов, отсортированных по типу в подкаталоге. Например, я открываю один каталог, и я столкнулся с 250 000 jpeg.

чтобы усложнить ситуацию, эти программы ошибаются. Например, я установил распознавание CSS-файлов, ища фрагменты кода #* {,.* {,#*{ и .*{, но для такого простого фильтра неизбежно будут ложные срабатывания.

логический (методический) подход к взгляду при этом по типу файла. Например, я должен оценить каждый файл, идентифицированный как "css", чтобы увидеть, является ли он даже CSS; 99,9% нет.

Я пытаюсь сделать задачу более управляемой путем отбраковки файлов, которые могут быть идентифицированы как удаляемые (т. е. бесполезные, поврежденные, непригодные для использования/невосстановимые),
идеально автоматизированными серединами или хотя бы в большом части.

Характеристики Файла

вот примерное количество файлов:

type,   sizeG,   approx % corrupt,   approx % I may end up needing  
jpg     10G        ~25% corrupt        ~0.0025% keep
js      13G        ~0% corrupt         ~0.025% keep
less     1G        ~0% corrupt         ~0.001% keep
mov     21G        ~0% corrupt         ~50% keep
mp3     13G       ~50% corrupt          ~2% keep 
mp4    1.5G       ~50% corrupt         ~25% keep 
pdf     11G       ~20% corrupt         ~0.125 keep 
    (The PDF files are picture albums; each one is a collection of dozens of
    important pics. Examining them is hard and time-consuming to do manually.)
wma    2.7G       ~90% corrupt         ~0.01% keep
zip     2G

вот некоторые из процедур, которые я использую сейчас

JPG

С помощью Windows, я могу открыть папку, просматривать эскизы, и те, которые не видны не будет загружаться.1 я могу щелкнуть их и удалить. К сожалению, это 35g каталог 320 000 .jpg файлы, без организации.


__________

1 было бы точнее сказать, что существует высокая корреляция между неповрежденными файлами и теми, которые будут отображение узнаваемого эскиза.

PDF

используете Windows, я правой кнопкой мышки около 1000 файлов, а затем нажмите Открыть, подождать 5 минут, а затем делать некоторые операции на первой, чтобы объединить все файлы в один файл, что занимает около 10 минут, затем Навальный закройте 1000 файлов. Затем откройте этот супер-большой файл и прокрутите его в поисках реальных изображений. Я выделяю ~100 за раз индивидуально, затем извлекаю их в новый файл для архивирования и, наконец,, удалить этот большой файл.

mp3, mp4, wma

использование Windows, я не могу использовать Winamp для этого, потому что один поврежденный файл убивает Winamp каждый раз. Поэтому я использую VLC, помещаю их в длинный плейлист и слушаю. Плохие файлы пропускаются немедленно, но это занимает очень много времени.

zip

используя Windows, я думаю, что у меня есть zip вниз. Я выбираю все zip-файлы, щелкаю Правой Кнопкой Мыши, извлекаю WinRAR или извлекаю каждый как отдельный архив. Но щелкать в каждый каталог потом большая работа.

js, css, меньше

использование Windows, они довольно легко просматривать быстро. Я открываю папку в Проводнике, очередь на просмотр Файл, выберите первый пункт, затем используйте стрелку, удалить, и ввод на клавиатуре. Тем не менее, есть 20 000 файлов.

цель

Я хотел бы знать, какие методы могут быть использованы более эффективно, чем это сортировка / фильтрация последствий моего восстановления данных, чтобы я мог ускорить это. Предложения с Linux ОЧЕНЬ ПРИВЕТСТВУЕТСЯ. Даже в качестве первого шага было бы полезно, если бы я мог идентифицировать поврежденные файлы во всем архиве и сначала удалить их, а затем файлы 0 байт.

15
задан Scott
09.04.2023 23:57 Количество просмотров материала 2791
Распечатать страницу

2 ответа

Я не буду перефразировать то, что Скотт покрыл, и его обсуждение о потенциальном восстановлении поврежденных файлов (или их частей) - это область для изучения. Один момент, который я добавлю: некоторые форматы документов будут выглядеть в основном мусором, если вы изучите файл raw. Однако текстовое содержимое часто состоит из больших узнаваемых фрагментов. Даже если файл поврежден или его части отсутствуют, можно вручную извлечь большую часть текста. Но, как отмечает Скотт в комментарии, это было бы для спасение определенного контента, который вы определили как ценный; это не будет частью автоматизированного процесса для работы с файлами навалом.

стратегия

задача этой области будет длиться вечно, и вы, вероятно, закончится пар, прежде чем вы закончите. Вы хотите, чтобы получить максимальную ценность, что вы можете для ваших усилий. Позвольте мне предложить подход. Но с оговоркой. Я не знаю ни одного готового автоматизированного решения. Вы можете быть в состоянии помочь здесь или там с такими вещами, как сценарии, но это будет в основном ручной процесс. Главное - сделать этот процесс максимально эффективным.

  • приоритеты. инвестируйте свое время, где вы, вероятно, получите максимальную выгоду. Это означает придерживаться хорошего процесса, а не делать что-то со случайными файлами. Это также означает, решив не делайте что-нибудь с файлами с низким потенциалом, по крайней мере, до тех пор, пока вы не закончите с высоким потенциалом архив.

  • сделать ваше время рассчитывать. существует старая концепция тайм-менеджмента: если вы что-то делаете, сделайте что-то с этим. Решите, сможете ли вы быстро его доработать. Если это так, сделайте это. Если нет, установите приоритет для последующего завершения или отбросьте его. Но не тратьте время на файл, а затем просто бросить его обратно в горшок.

  • создать организацию. часть процесса будет смотреть на файлы и помещать их в специальные каталоги для последующей обработки. Не бойтесь создавать много каталогов. Используйте их как способ сохранить информацию, которую вы узнали о файлах, сгруппировать их по потенциалу и т. д. Найдите способы быстрого определения пригодной для использования информации о файлах и переместите их в каталоги для последующей обработки. Это создаст пулы файлов для работы и оставит позади файлы, которые потребуют больше работы.

  • использовать организация. обрабатывать подобные файлы в пакетах, а не обрабатывать смесь различных видов файлов с различными потребностями. Повторение и сходство сделают вас более эффективными.

предлагаемый процесс (сортировка)

подумайте о трех категориях: легкие, высокопотенциальные файлы; удаляемые файлы; и файлы, которые потребуют больше работы. Обрабатывайте их в таком порядке. Когда вы попадете в третью категорию, повторите процесс.

  1. определить все распознаваемые, неповрежденные файлы и вытащить их в рабочий пул. Объедините их по типу файла. Эти первые работы. Я бы отсортировал их по размеру (см. обсуждение ниже). Начнем с самых больших файлов и работать ваш путь вниз. Пройдите через них с помощью обычного программного обеспечения приложений, чтобы увидеть, что они и что вы хотите сохранить. Или просто сохраните их все и переходите к следующему шагу.

    для изображения, используйте инструмент, как Irfanview. Он имеет такие функции, как просмотр миниатюр и пакетная обработка, которые могут действительно ускорить работу с файлами изображений в количестве. Я бы переместил несколько сотен файлов одновременно в каталог, чтобы работать с ними.

  2. из оставшихся файлов отбраковывайте самые маленькие, как описано ниже, чтобы сделать коллекцию более управляемой.

  3. Это оставляет файлы, которые потребуют больше работы. Ищите характеристики это позволит вам определить другую коллекцию файлов с потенциалом. Характерным я бы начал с размера. Самые большие файлы имеют наибольший потенциал, чтобы содержать полезное содержание, менее вероятно, чтобы быть файл восстановления flotsam, и менее вероятно, были созданы с помощью коррупции. Их количество также, вероятно, будет управляемым. Начните с них и работать вниз пул оставшихся файлов по размеру.

Используя Размер Файла-Small Файлы

Я был в подобных ситуациях (но, к счастью, никогда не количества Вы имеете дело с). Один способ я нашел, чтобы сделать быстрый прогресс является размер файла. Если восстановленные файлы содержат типичное сочетание материалов, распределение по размерам будет искажено, и будет большой хвост маленьких файлов, большая часть которых будет удалена.

  • многие типы файлов содержат много "накладных расходов", как заголовок. Такие вещи, как документы Word, а иногда PDF-файлы также могут содержать такие вещи, как встроенные шрифты. Поэтому даже для одного байта содержимого требуется файл определенного минимального размера. Этот минимальный размер можно определить, создав однобайтовый файл каждого типа.

  • для файлов изображения очень маленькие и увидеть, что они содержат. Используйте свой файловый менеджер для сортировки по размеру, а затем посмотрите на образцы файлов, как вы работаете свой путь в размере. Вы увидите, что" хорошие " изображения минимального размера содержат вещи, которые вам, вероятно, не нужны чтобы сохранить, как крошечные фрагменты художественных работ с веб-сайтов. Глядя на образцы даст вам хорошее представление о минимальном размере изображения, которое будет представлять интерес.

  • для документов, учитывайте значение и время восстановления. У вас могут быть ценные фрагменты текста, такие как идеи или ссылки, которые вы сохраняете. Если это так, это будет менее полезно. В противном случае вы, вероятно, найдете такие вещи, как части сохраненных черновиков или очень короткие сегменты текста. Они могут больше не быть необходимо, или может быть меньше работы, чтобы воссоздать, если вам когда-нибудь понадобится, чем исследовать тонны из них и очистить их на всякий случай. Таким образом, вы можете определить наименьший размер интереса.

после того, как вы выполнили это упражнение для типа файла, отсортируйте каталог по размеру и выберите все, что меньше вашего минимума. Вы можете перемещать/архивировать их в резервную копию перед удалением. Вы можете просмотреть их для содержимого (с низким приоритетом) перед удалением или сделать еще один снимок обзор и восстановление, если ваш выбор файла случайно получает перепутались.

Я часто находил, особенно в Windows, что файловый менеджер получил несварение, когда количество файлов прошло определенный порог. Вы можете найти это быстрее и надежнее, чтобы сделать разумное количество файлов (не более нескольких сотен), в то время.

идеи для идентификации типов файлов

когда Вы дойдете до того, что работаете с нераспознанными типами файлов, вы в основном на ручную территорию. Они далеко внизу на кривой убывающей отдачи. Тем не менее, вот некоторые идеи для определения типов файлов для нераспознанных файлов:

  • много файлов есть заголовок. Откройте файл в текстовом редакторе и посмотрите на первый "пункт" содержания.

  • Если у вас есть коллекция гигантских файлов неузнаваемого типа, размер, один может быть ключом. Гигантские файлы, вероятно, будут резервными копиями, архивы, фотоальбомы или видео.

  • после того, как вы агрегировали распознаваемые файлы по типу файла, посмотрите на диапазон размеров. Это будет ключ, который может быть полезен при агрегировании нераспознанных файлов.

2
отвечен fixer1234 2023-04-11 07:45
  1. найти файлы нулевой длины?  Все просто.  В Windows, типа size:0 в поле поиска Проводника Windows (и, когда вы найдете их, вы можете удалить их).  В Linux, вы можете сделать

    find . -type f -size 0 -exec rm {} +
    

    или, если у вас GNU find, вы можете сделать

    find . -type f -empty -delete
    
  2. Я не уверен, что понимаю все, что ты говоришь, особенно в отношении zip, но простые, повторяющиеся действия, такие как проверка и удаление каталогов обычно легко скрипт в Windows или *Никс.

  3. Я действительно ничего не знаю об инструментах, которые вы использовали (В первую очередь, Testdisk и Photorec), но вы говорите, что большинство файлов, которые вы получили мусор.  Рискуя существенно увеличить рабочую нагрузку, Повторю комментарий Джина: возможно, вы захотите рассмотреть возможность что некоторые файлы содержат ценную информацию, но повреждены достаточно плохо, что стандартные инструменты не могут их обрабатывать, но этого хватит хорошая структура что какой-то другой инструмент для восстановления данных может их исправить.

    • например, у меня когда-то были некоторые файлы изображений, которые были просто усечены (отрезать.)  Конечно, не было никакого способа восстановить пиксели, которых там не было, но я обнаружил, что стандартное программное обеспечение для просмотра изображений, которое я использовал останавливался на несколько тысяч байт меньше конца файла.  Я смог исправить файлы так, чтобы все пиксели, которые присутствовали, были отображены, в результате чего еще около десяти линии развертки становятся видимыми.  Это было давным-давно в далекой-далекой галактике, поэтому я не могу предоставить больше подробностей.
    • возможно, лучшим примером является стандартный инструмент просмотра/редактирования файлов вероятно, произойдет сбой, если в файле отсутствуют первые 512 байт, или если они присутствуют, но поврежден.  Возможно, удастся восстановить такие повреждения и восстановить недостающие данные.

    есть над чем подумать.

  4. вы можете рассматривать автоматизация сканирования графических файлов на наличие повреждений.  Обязательно проверьте ссылки под связан и по теме заголовки справа.
1
отвечен Scott 2023-04-11 10:02

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх