Как конвертировать отсканированные изображения в формат PDF в файл PDF с возможностью поиска? [закрытый]

У меня есть PDF отсканированной книги.

Я ищу свободное программное обеспечение, которое будет выполнять OCR, а затем предоставить возможность сохранить его в виде PDF или документа снова.

есть один?

8
задан slhck
05.01.2023 15:58 Количество просмотров материала 2742
Распечатать страницу

8 ответов

вы можете скачать 30-дневную пробную версию Adobe Acrobat Pro и использовать функцию распознавания текста OCR' ('документ > распознавание текста Распознавание текста > распознавать текст с помощью OCR...). В диалоговом окне настроек выберите "изображение для поиска" в качестве выходного стиля. Это позволит сохранить изображение страницы, но вставлять OCR - текст, чтобы документ был доступен для поиска и позволял выбирать, копировать и вставлять текст.

после запуска OCR вам нужно подтвердить или исправить слова, которые OCR не уверен в использовании функций "найти OCR подозреваемых".

5
отвечен pelms 2023-01-06 23:46

Если у вас есть учетная запись Google, то Google Docs теперь включает в себя функциональность, чтобы загрузить PDF-файл и выполнить OCR на нем.

Я пробовал сам, и это делает справедливый удар по признанию хорошо отформатированный PDF.

форматирование в значительной степени разрушено, но текст, кажется, выживает.

4
отвечен Richard Lucas 2023-01-07 02:03

следующие продукты были найдены в интернете, но я их не использовал.

онлайн-распознавания текста

OCR терминал

OCR терминал является онлайн-сервис OCR то выполняет оптически характер Распознавание (OCR) при сканировании изображения и pdf-файлы и их визуализация в редактируемый и текстовый поиск документы.

бесплатный OCR

Free-OCR.com является бесплатным онлайн OCR (Оптическое распознавание символов) инструмент. Вы можете использовать это для выполнения OCR на любом изображение питания.

Услуга бесплатная, без регистрации необходимый. Нам также не нужно ваше адрес электронной почты.

Просто загрузите файлы изображений. Free-OCR принимает JPG, GIF, TIFF BMP или PDF (только первая страница). Единственным ограничением является то, что изображения не должны быть больше чем 2Мб, нет шире или выше, чем 5000 пикселей и там ограничение в 10 фотографий в час.

Maestro Recognition Server является коммерческим, но имеет онлайн-демо-версию.

бесплатные программы

FreeOCR - для изображения только.

FreeOCR-это программа сканирования и распознавания в том числе Tesseract Free ocr движок также известен как Tesseract GUI. Она включает в себя установщик Windows, и это очень прост в использовании и поддерживает многостраничный tiff, документы факса как а также большинство типов изображений, включая сжатый Tiff, который Тессеракт двигатель сам по себе не может читать .Это сейчас и Twain сканирование.

pdfsandwich - PDF -> конвертер pdf.

pdfsandwich является инструментом командной строки для OCR отсканированных книг или журналов. Он способен распознавать макет страницы даже для многоколоночного текста.

по существу pdfsandwich-это скрипт-оболочка, который вызывает следующие файлы: преобразование, клинопись, gs и hocr2pdf. Он, как известно, работает на системах Unix и имеет протестирован на Linux и MacOS X. поддерживает параллельную обработку на многопроцессорных системах.

4
отвечен harrymc 2023-01-07 04:20

клинопись + hocr2pdf + Ghostscript: решение с открытым исходным кодом DIY.

Я разместил ответ изложение решения с участием версия теперь с открытым исходным кодом клинопись система OCR и hocr2pdf вместе с сервер для объединения страниц PDF.

Это было специально для Linux, но вы также можете получить клинопись и Ghostscript для Windows. Я не уверен однако hocr2pdf или эквивалент.

2
отвечен Jukka Matilainen 2023-01-07 06:37

здесь очень странный метод, который включает в себя позволяя индекс Google и OCR его для вас на веб-сайте, а затем получить его.

1
отвечен jtbandes 2023-01-07 08:54

установить утилиты. Откройте окно cmd или терминал:

convert myfile.pdf myfile-%02d.jpg

выход будет 1 файл jpg для каждой страницы в вашем pdf, myfile-00.jpg, myfile-01.jpg, etc.

передайте каждое изображение через программу распознавания. У меня нет большого опыта в этом,но, похоже, есть много вариантов.

конвертировать каждую страницу текста обратно в pdf. Вы могли бы сделать это снова с imagemagick, но есть и другие способы:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
0
отвечен DaveParillo 2023-01-07 11:11

ваш запрос кажется сложным решением проблемы, хотя я могу неправильно понять проблему. Во всяком случае:

Почему бы не получить PDF writer, который позволит вам вводить данные непосредственно на странице pdf?

0
отвечен Xavierjazz 2023-01-07 13:28

Try PDFCubed.com ничего установить, все это делается в интернете. Вы можете отправить документы на обработку через интернет, электронную почту или dropbox. Отсканированные PDF-файлы и tif-файлы преобразуются в текстовые pdf-файлы с возможностью поиска, а затем могут быть восстановлены через интернет, электронную почту или dropbox.

0
отвечен rlangner 2023-01-07 15:45

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх