Я хочу OCR pdf, чтобы сделать его доступным для поиска.
Предположим, у вас есть PDF-документ, который был сделан с помощью сканера, или иным образом состоит из данных изображения, но не имеет текстовых данных. Такой PDF не могут быть найдены с помощью PDF читателей или настольных приложений поиска. pdfocr-это простая утилита, которую я сделал, которая берет PDF-файл, а затем генерирует новый, который имеет добавленный текстовый слой, поэтому он доступен для поиска в вашем PDF-ридере и может быть проиндексирован вашим настольным приложением поиска, но все еще идентичный напечатанный.
с Howto: сделать отсканированные PDF-файлы для поиска (OCR) с помощью pdfocr
Currenly, программное обеспечение windows, Как FreeOCR только делает файл TXT из pdf, но я хочу, что оригинальный pdf только то, что это поиска.