TIFF в текст или индекс TIFF файлов текстового контента

У меня есть пара тысяч файлов TIFF в один многостраничный текстовый документ. Я хотел бы иметь возможность искать содержимое этих файлов и организовывать/индексировать их на основе определенной информации, такой как имя, город, округ, штат, улица, почтовый индекс и т. д.
Цель состоит в том, чтобы найти соответствующие файлы на основе условий поиска. Например, если бы я искал " Doyle, Bob "и" Orange County", все файлы, содержащие эти термины, были бы извлечены.
У меня есть ПК с windows и linux, но это не так должны быть кроссплатформенными.

Что вы предлагаете?

4
задан callasabra
18.05.2023 9:02 Количество просмотров материала 3407
Распечатать страницу

1 ответ

Я хотел бы иметь возможность искать содержимое этих (tiff) файлов.

Ниже представлены два решения для Windows и Linux.


Решение Для Windows

Вы можете установить в формате TIFF ifilter в.

Windows ® TIFF IFilter позволяет искать документы TIFF на основе о текстовом содержании. При загрузке Windows TIFF IFilter выполняет оптическую распознавание символов (OCR) обработка TIFF изображения, и после этого оно предоставляет распознанный текст вызывающему объекту для построения индекса поиска.

Windows TIFF IFilter фокусируется на текстовых документах, что означает, что поиск будет более успешным для документов, которые содержат заведомо идентифицировать текст (например, черный текст на белом фоне), и менее успешно для документов со смешанным содержимым (например, художественный текст или текст внутри картинки). Кроме того, низкое качество изображения и смешанные языки могут негативно влиять на обработку OCR, и следовательно, снижается качество результатов поиска.

Windows TIFF IFilter поддерживает все документы TIFF, которые являются жалобой с Adobe TIFF версии 6.0 спецификации, и она включает в себя наиболее частые сжатия (например, LZW, JPG, CCITT v4, CCITT v6 и несжатый.)

ссылка на источник включает в себя подробную инструкцию по установке инструкции.

Примечание:

Source Windows TIFF IFilter руководство по установке и эксплуатации


Решение На Базе Linux

  1. преобразование файлов TIFF в текстовые файлы или PDF-файлы.

    • ссылка belows показывает, как конвертировать в PDF с промежуточным шагом OCR (который использует Тессеракт).

    • промежуточный шаг создает текстовый файл.

    • это означает, что PDF создается из текста, а не изображений.

  2. Поиск текстовых файлов или PDF-файлов, как вы хотите.

See сканирование и редактирование текста с помощью для одного подхода к преобразованию.

1
отвечен DavidPostill 2023-05-19 16:50

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх