Как сделать так, чтобы OCR лучше распознавал текст моих документов?

Я не могу получить некоторые из моих документов с изображениями для распознавания OCR. Они не особенно низкого разрешения-хотя некоторые искажены - но я не могу получить их через OCR даже с Omnipage. Я загрузил one в качестве примера (преобразовано из DOC в PDF для Omnipage), но у меня есть больше. Что я могу сделать, чтобы добиться успеха OCR?

4
задан Pops
09.01.2023 16:12 Количество просмотров материала 2518
Распечатать страницу

1 ответ

несмотря на то, как они выглядят на экране, текст картинки не очень высокого разрешения. Вы можете увидеть это, увеличив вид в средстве просмотра pdf. Изображения неровные и не все черно-белые.

я извлек изображений с pdfimages. Gocr работал над результатом .ppm изображения, но со многими ошибками. Я не мог заставить tesseract работать с изображениями, несмотря на преобразование в монохромный tiff.

1
отвечен W_Whalley 2023-01-11 00:00

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх