Я не могу получить некоторые из моих документов с изображениями для распознавания OCR. Они не особенно низкого разрешения-хотя некоторые искажены - но я не могу получить их через OCR даже с Omnipage. Я загрузил one в качестве примера (преобразовано из DOC в PDF для Omnipage), но у меня есть больше. Что я могу сделать, чтобы добиться успеха OCR?
Как сделать так, чтобы OCR лучше распознавал текст моих документов?
4


1 ответ
несмотря на то, как они выглядят на экране, текст картинки не очень высокого разрешения. Вы можете увидеть это, увеличив вид в средстве просмотра pdf. Изображения неровные и не все черно-белые.
я извлек изображений с pdfimages. Gocr работал над результатом .ppm изображения, но со многими ошибками. Я не мог заставить tesseract работать с изображениями, несмотря на преобразование в монохромный tiff.
1

отвечен W_Whalley 2023-01-11 00:00
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]