я восстановил несколько ТБ данных, получив более миллиона файлов. Многое из того, что было найдено-это мусор, но небольшой процент очень ценные файлы, которые похоронены в беспорядке. вопрос: Как я могу отбраковывать результаты восстановления до управляемого отношения "сигнал-шум", чтобы облегчить оценку отдельных файлов?
фон
Я, прежде всего, Testdisk, ДД, и Photorec, чтобы восстановить данные. Передовые и как тянуть резервного копирования данных по типу файлов. В итоге вы получаете миллионы файлов, отсортированных по типу в подкаталоге. Например, я открываю один каталог, и я столкнулся с 250 000 jpeg.
чтобы усложнить ситуацию, эти программы ошибаются. Например, я установил распознавание CSS-файлов, ища фрагменты кода #* {
,.* {
,#*{
и .*{
, но для такого простого фильтра неизбежно будут ложные срабатывания.
логический (методический) подход к взгляду при этом по типу файла. Например, я должен оценить каждый файл, идентифицированный как "css", чтобы увидеть, является ли он даже CSS; 99,9% нет.
Я пытаюсь сделать задачу более управляемой путем отбраковки файлов, которые могут быть идентифицированы как удаляемые (т. е. бесполезные, поврежденные, непригодные для использования/невосстановимые),
идеально автоматизированными серединами или хотя бы в большом части.
Характеристики Файла
вот примерное количество файлов:
type, sizeG, approx % corrupt, approx % I may end up needing
jpg 10G ~25% corrupt ~0.0025% keep
js 13G ~0% corrupt ~0.025% keep
less 1G ~0% corrupt ~0.001% keep
mov 21G ~0% corrupt ~50% keep
mp3 13G ~50% corrupt ~2% keep
mp4 1.5G ~50% corrupt ~25% keep
pdf 11G ~20% corrupt ~0.125 keep
(The PDF files are picture albums; each one is a collection of dozens of
important pics. Examining them is hard and time-consuming to do manually.)
wma 2.7G ~90% corrupt ~0.01% keep
zip 2G
вот некоторые из процедур, которые я использую сейчас
JPG
С помощью Windows, я могу открыть папку, просматривать эскизы, и те, которые не видны не будет загружаться.1 я могу щелкнуть их и удалить. К сожалению, это 35g каталог 320 000 .jpg
файлы, без организации.
__________
1 было бы точнее сказать, что существует высокая корреляция между неповрежденными файлами и теми, которые будут отображение узнаваемого эскиза.
используете Windows, я правой кнопкой мышки около 1000 файлов, а затем нажмите Открыть, подождать 5 минут, а затем делать некоторые операции на первой, чтобы объединить все файлы в один файл, что занимает около 10 минут, затем Навальный закройте 1000 файлов. Затем откройте этот супер-большой файл и прокрутите его в поисках реальных изображений. Я выделяю ~100 за раз индивидуально, затем извлекаю их в новый файл для архивирования и, наконец,, удалить этот большой файл.
mp3, mp4, wma
использование Windows, я не могу использовать Winamp для этого, потому что один поврежденный файл убивает Winamp каждый раз. Поэтому я использую VLC, помещаю их в длинный плейлист и слушаю. Плохие файлы пропускаются немедленно, но это занимает очень много времени.
zip
используя Windows, я думаю, что у меня есть zip вниз. Я выбираю все zip-файлы, щелкаю Правой Кнопкой Мыши, извлекаю WinRAR или извлекаю каждый как отдельный архив. Но щелкать в каждый каталог потом большая работа.
js, css, меньше
использование Windows, они довольно легко просматривать быстро. Я открываю папку в Проводнике, очередь на просмотр Файл, выберите первый пункт, затем используйте стрелку, удалить, и ввод на клавиатуре. Тем не менее, есть 20 000 файлов.
цель
Я хотел бы знать, какие методы могут быть использованы более эффективно, чем это сортировка / фильтрация последствий моего восстановления данных, чтобы я мог ускорить это. Предложения с Linux ОЧЕНЬ ПРИВЕТСТВУЕТСЯ. Даже в качестве первого шага было бы полезно, если бы я мог идентифицировать поврежденные файлы во всем архиве и сначала удалить их, а затем файлы 0 байт.