У меня есть PDF отсканированной книги.
Я ищу свободное программное обеспечение, которое будет выполнять OCR, а затем предоставить возможность сохранить его в виде PDF или документа снова.
есть один?
У меня есть PDF отсканированной книги.
Я ищу свободное программное обеспечение, которое будет выполнять OCR, а затем предоставить возможность сохранить его в виде PDF или документа снова.
есть один?
вы можете скачать 30-дневную пробную версию Adobe Acrobat Pro и использовать функцию распознавания текста OCR' ('документ > распознавание текста Распознавание текста > распознавать текст с помощью OCR...). В диалоговом окне настроек выберите "изображение для поиска" в качестве выходного стиля. Это позволит сохранить изображение страницы, но вставлять OCR - текст, чтобы документ был доступен для поиска и позволял выбирать, копировать и вставлять текст.
после запуска OCR вам нужно подтвердить или исправить слова, которые OCR не уверен в использовании функций "найти OCR подозреваемых".
Если у вас есть учетная запись Google, то Google Docs теперь включает в себя функциональность, чтобы загрузить PDF-файл и выполнить OCR на нем.
Я пробовал сам, и это делает справедливый удар по признанию хорошо отформатированный PDF.
форматирование в значительной степени разрушено, но текст, кажется, выживает.
следующие продукты были найдены в интернете, но я их не использовал.
онлайн-распознавания текста
OCR терминал является онлайн-сервис OCR то выполняет оптически характер Распознавание (OCR) при сканировании изображения и pdf-файлы и их визуализация в редактируемый и текстовый поиск документы.
Free-OCR.com является бесплатным онлайн OCR (Оптическое распознавание символов) инструмент. Вы можете использовать это для выполнения OCR на любом изображение питания.
Услуга бесплатная, без регистрации необходимый. Нам также не нужно ваше адрес электронной почты.
Просто загрузите файлы изображений. Free-OCR принимает JPG, GIF, TIFF BMP или PDF (только первая страница). Единственным ограничением является то, что изображения не должны быть больше чем 2Мб, нет шире или выше, чем 5000 пикселей и там ограничение в 10 фотографий в час.
Maestro Recognition Server является коммерческим, но имеет онлайн-демо-версию.
бесплатные программы
FreeOCR - для изображения только.
FreeOCR-это программа сканирования и распознавания в том числе Tesseract Free ocr движок также известен как Tesseract GUI. Она включает в себя установщик Windows, и это очень прост в использовании и поддерживает многостраничный tiff, документы факса как а также большинство типов изображений, включая сжатый Tiff, который Тессеракт двигатель сам по себе не может читать .Это сейчас и Twain сканирование.
pdfsandwich - PDF -> конвертер pdf.
pdfsandwich является инструментом командной строки для OCR отсканированных книг или журналов. Он способен распознавать макет страницы даже для многоколоночного текста.
по существу pdfsandwich-это скрипт-оболочка, который вызывает следующие файлы: преобразование, клинопись, gs и hocr2pdf. Он, как известно, работает на системах Unix и имеет протестирован на Linux и MacOS X. поддерживает параллельную обработку на многопроцессорных системах.
клинопись + hocr2pdf + Ghostscript: решение с открытым исходным кодом DIY.
Я разместил ответ изложение решения с участием версия теперь с открытым исходным кодом клинопись система OCR и hocr2pdf вместе с сервер для объединения страниц PDF.
Это было специально для Linux, но вы также можете получить клинопись и Ghostscript для Windows. Я не уверен однако hocr2pdf или эквивалент.
здесь очень странный метод, который включает в себя позволяя индекс Google и OCR его для вас на веб-сайте, а затем получить его.
установить утилиты. Откройте окно cmd или терминал:
convert myfile.pdf myfile-%02d.jpg
выход будет 1 файл jpg для каждой страницы в вашем pdf, myfile-00.jpg, myfile-01.jpg, etc.
передайте каждое изображение через программу распознавания. У меня нет большого опыта в этом,но, похоже, есть много вариантов.
конвертировать каждую страницу текста обратно в pdf. Вы могли бы сделать это снова с imagemagick, но есть и другие способы:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
ваш запрос кажется сложным решением проблемы, хотя я могу неправильно понять проблему. Во всяком случае:
Почему бы не получить PDF writer, который позволит вам вводить данные непосредственно на странице pdf?
Try PDFCubed.com ничего установить, все это делается в интернете. Вы можете отправить документы на обработку через интернет, электронную почту или dropbox. Отсканированные PDF-файлы и tif-файлы преобразуются в текстовые pdf-файлы с возможностью поиска, а затем могут быть восстановлены через интернет, электронную почту или dropbox.
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]