но как это возможно?
в принципе, программа выполняет распознавание текста во входном файле, а затем помещает невидимый слой текста поверх изображения. Кроме того, он может также разместить видимый слой текста под картинка, дающая тот же эффект.
когда вы выбираете что-то, изображение не имеет значения, потому что текстовый слой выбирается.
как это может быть создал?
есть несколько способов. Учитывая, что Acrobat уже был предложен, я добавлю некоторые бесплатные опции (и, к счастью, вы не обязаны иметь окна, чтобы использовать их).
PDF-XChange Viewer
это родная программа Виндовс программным обеспечением Отслежывателя. Бесплатная версия отлично работает под Wine, если вы используете 32-разрядное издание в 32-разрядном префиксе, поэтому вы можете использовать его на Windows, macOS и Linux. в в последних двух случаях вам понадобится PlayOnMac или PlayOnLinux соответственно.
вот фотография из ответ я оставил на спросить Ubuntu:
OCRmyPDF
это мультиплатформенная программа, написанная на Python, на основе Ghostscript, Тессеракта и Unpaper. Из документации:
что делает OCRmyPDF
OCRmyPDF анализирует каждую страницу определить colorspace и
разрешение (DPI), необходимое для захвата всей информации на этой странице
без потери контента. Он использует Ghostscript для растеризации страницы, и
затем выполняет на OCR на растеризованном изображении, чтобы создать OCR "слой".
Затем слой снова прививается к исходному PDF-файлу.
его можно легко установить на производные Debian и Ubuntu:
apt-get install ocrmypdf
или на macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
на Windows, вам нужно будет использовать Образов Docker. Подробности см. В официальных документах.
использование очень просто, и я предлагаю вам использовать дополнительный -d
(deskew) и -c
(чистые) параметры для лучших результатов. Он выпрямит каждую страницу и очистит мелкие точки/дефекты перед запуском процесса распознавания.
вы можете (и должны) предоставить язык с -l
.
вот пример, взятый из это искаженный документ написано в Итальянский:
команда, которую я использовал, была:
ocrmypdf -l ita -d -c input.pdf output.pdf
онлайн инструменты
есть несколько онлайн-инструментов, которые делают то же самое. Примечательно, что PDF24 хостит бесплатная веб-версия OCRmyPDF это можно использовать без ограничений.
Читайте также: