Как заменить изображения текста в PDF-файлах форматированным текстом с помощью OCR

Я получаю много PDF-файлов от других людей, состоящая из отсканированных старых документов. К сожалению, иногда текст на сканированиях, хотя и разборчив, выглядит зернистым и трудно читаемым.

Что я смог сделать до сих пор, так это извлечь текст, используя OCR, в документ word. Тем не менее, поскольку эти старые документы часто имеют иллюстрации и сложное форматирование, то, что я действительно хотел бы сделать, это просто удалить старый зернистый текст и заменить его сгенерированным компьютером шрифты. Другими словами, Я хотел бы Сохранить PDF и форматирование его страниц в максимально возможной степени при "очистке" текста, заменив его, скажем, times new roman.

Я искал в интернете в течение нескольких дней на простой, автоматизируемых для выполнения такой очистки, и я не появился до сих пор. Определенно кажется, что должен быть способ сделать это, это не кажется сложным, но, возможно, я упускаю из виду некоторые аспекты этой проблемы, которые поместите его за пределами того, что в настоящее время можно сделать с помощью OCR.

какие предложения?

28
задан tel
27.11.2022 15:57 Количество просмотров материала 2373
Распечатать страницу

2 ответа

даже собственное программное обеспечение Adobe не очень хорошо делать это или сделать ясно как сделать это.

с помощью Adobe Acrobat X можно создать текстовый слой с помощью меню (Вид | сервис / Распознавание текста) или с помощью кнопки инструменты на панели инструментов, а затем распознавать текст на панели инструментов.

затем у вас есть варианты, чтобы выполнить OCR на документе или найти "подозреваемых". "Подозреваемые" - это возможные результаты OCR, которые выглядят неправильно (не проверка орфографии?). После того как вы ушли через подозреваемых, кажется, нет никакого способа получить доступ или отредактировать текстовый слой снова, не переделывая OCR.

вы можете выбрать диапазон страниц, чтобы ограничить OCR (например, если у вас есть многоязычный документ), но вы не можете ограничить его выбором.

учитывая, что это такая полезная функция, обидно, что Adobe не делает ее очень удобной для пользователя.

Edit: два других возможных решений.

Adobe Acrobat используя ClearScan

когда вы выполните OCR с Acrobat можно изменить стиль вывода PDF от формат по умолчанию для поиска изображения на ClearScan. Этот формат также изменит изображение, заменив символы контурами, полученными в результате распознавания. Это сделает ваш PDF более читабельным и добавит текстовый слой, но при этом изменит исходное изображение.

Infix PDF Editor

эта программа, кажется, быть в состоянии отображение текстового слоя, но все еще кажется сложным исправление мест, где OCR Adobe идет не так (например, одинокие слова в их собственном позиционированном параграфе).

к сожалению, ни один из этих вариантов находятся в свободном доступе.

2
отвечен Moilleadóir 2022-11-28 23:45

зависит от вашего точного обстоятельства (используемые шрифты, диаграммы, сколько очистки необходимо...), но у меня были хорошие результаты с FineReader Professional Edition...Сканирование наиболее распространенных форматов изображений (scan, TIFF, jpg и др..) и может конвертировать в html или word среди других...

Это не бесплатно, но вы не сказали, что вы искали. У меня была куча вещей OCR, которые я делал некоторое время назад, и он сделал впечатляющую работу OCR с низкая частота повторения ошибок. < < < - - - - Я не знаю о сегодня, но 5 лет назад, когда я впервые получил это, я попробовал несколько других пакетов OCR и точность распознавания текста в целом 'ужасно'...хотя рекламировали бы (правильно) 90-95-98%. Проблема в том, что даже на 99% вы смотрите на несколько слов для исправления / страницы текста. Это было слишком высоко для моего уровня допуска.

Я fetl сырой розничный курс был немного дорогим (но я обычно люблю бесплатно, купил SW лучше быть стоит; я свободно говорю "gninux-ese"), но у них есть предложения (или когда я купил), обновления от другого программного обеспечения примерно на 50% от их розничной цены, что также касается их цены обновления. Однако я купил его, когда он был примерно в версии 6 или 7, когда у меня были более новые проекты, которые требовали подобного-я купил обновление до текущей версии. Последний раз я покупал 9.0.

мой единственный [непонятных] говядина ж / это было не распознает Unicode и не производит файлы unicode. У них есть 186 (чтение с сайт) в настоящее время поддерживается (насколько мне известно, все языки входят в проф версии.), но он сохранял файлы в кодированных по регионам кодировках или "кодовых страницах" (ibm-cp850, ms-cp1250, iso-8859-1 и т. д...) вместо UTF-8 - что было моим предпочтением. Я сканировал файлы смешанного алфавита, которые я в конечном итоге редактировал в UTF-8.

их программное обеспечение делает большую работу, без подготовки. Его можно натренировать распознавать пользовательские письма, хотя я не нашел этот процесс как удобно, как мне бы хотелось (но это действительно не нужно для большинства то, что я сделал (или делаю).

с версией у меня (9), то имеет возможность читать вещи от захвата экрана, а также, что иногда удобно для программ, которые не позволяют копировать/вставить.

Они, кажется, есть попробовать, прежде чем вы покупаете вариант, сейчас, а также: сайт: finereader.abbyy.com (профессиональный прод @ http://finereader.abbyy.com/professional).

0
отвечен Astara 2022-11-29 02:02

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Похожие вопросы про тегам:

automation
documents
ocr
pdf
Вверх