OCR и текст слоя в pdf

Я хочу OCR pdf, чтобы сделать его доступным для поиска.

Предположим, у вас есть PDF-документ, который был сделан с помощью сканера, или иным образом состоит из данных изображения, но не имеет текстовых данных. Такой PDF не могут быть найдены с помощью PDF читателей или настольных приложений поиска. pdfocr-это простая утилита, которую я сделал, которая берет PDF-файл, а затем генерирует новый, который имеет добавленный текстовый слой, поэтому он доступен для поиска в вашем PDF-ридере и может быть проиндексирован вашим настольным приложением поиска, но все еще идентичный напечатанный.

с Howto: сделать отсканированные PDF-файлы для поиска (OCR) с помощью pdfocr

Currenly, программное обеспечение windows, Как FreeOCR только делает файл TXT из pdf, но я хочу, что оригинальный pdf только то, что это поиска.

22
задан user1603548
21.11.2022 9:30 Количество просмотров материала 2971
Распечатать страницу

1 ответ

Adobe Acrobat имеет функции, на которые вы ссылаетесь. В Acrobat 10/11 функциональность находится в разделе" распознавать текст " инструментов (см. официальная документация). Та же функциональность была доступна в более старых версиях, но доступ к ней был несколько иным (см. блог Adobe).

вы можете выполнить OCR на любой или все индивидуально страниц и PDF-файл отличается после нанесения ОРЗ (но после поиска).

1
отвечен Gnosian 2022-11-22 17:18

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх