Как создать PDF с отсканированными страницами, но выбор текста?

Question

Как создать PDF с отсканированными страницами, но выбор текста?

сегодня я получил PDF от нашего поставщика, и он содержал несколько печатных и отсканированных страниц с подписями и т. д. Я открыл его в Acrobat Reader DC. Но, к моему удивлению, текст с явно отсканированных изображений можно было выделить и скопировать в виде текста. Смотрите скриншот:

очевидно, что за этим стоит OCR, так как скопированный текст содержит ошибки. Но как такое возможно? Я никогда не видел этого раньше, как это может быть созданным?

29

задан Vojtěch Dohnal

20.12.2022 21:27

4 ответа

108	65	32	76	5	9	11	6	4	22

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Email

Похожие вопросы про тегам:

score 53 · Answer 1

Это (в отличие от некоторых других ответов здесь), скорее всего, не имеет никакого отношения к Acrobat вообще.

большинство (все?!) профессиональные сканеры документов и большинство полупрофессиональных будут автоматически выполнять распознавание текста, когда вы выберете "Сохранить как PDF " и установите флажок" поиск " в настройках. Более дешевые модели "потребительского класса" будут делать OCR на подключенном ПК, типичные сетевые сканеры делают это внутренне.

слово "поиск" означает не более и не что иное, как то, что сканер будет выполнять OCR, а затем генерировать страницу с отсканированными растровыми изображениями внутри, и накладывать их невидимыми символами из OCR, каждый помещается поверх соответствующего символа на растровом изображении.

таким образом, вы можете искать, а также выбирать, копировать и вставлять "растровое изображение", как по волшебству. Однако это вовсе не магия. На самом деле, вы просто копируете невидимый текст.

сканер может также сделать некоторые дополнительные магии, такие как композитинг большой изображение из множества маленьких плиток, которые также используются повторно. Это приводит к гораздо меньшему размеру документа, чем на самом деле было бы возможно, но также может привести к забавным сюрпризам (не так смешно, если они происходят с вами!), такие как Xerox изменяет историю ваших счетов, по иронии судьбы, даже когда OCR не выполняется, в зависимости от прошивки.

score 9 · Answer 2

но как это возможно?

в принципе, программа выполняет распознавание текста во входном файле, а затем помещает невидимый слой текста поверх изображения. Кроме того, он может также разместить видимый слой текста под картинка, дающая тот же эффект.

когда вы выбираете что-то, изображение не имеет значения, потому что текстовый слой выбирается.

как это может быть создал?

есть несколько способов. Учитывая, что Acrobat уже был предложен, я добавлю некоторые бесплатные опции (и, к счастью, вы не обязаны иметь окна, чтобы использовать их).

PDF-XChange Viewer

это родная программа Виндовс программным обеспечением Отслежывателя. Бесплатная версия отлично работает под Wine, если вы используете 32-разрядное издание в 32-разрядном префиксе, поэтому вы можете использовать его на Windows, macOS и Linux. в в последних двух случаях вам понадобится PlayOnMac или PlayOnLinux соответственно.

вот фотография из ответ я оставил на спросить Ubuntu:

OCRmyPDF

это мультиплатформенная программа, написанная на Python, на основе Ghostscript, Тессеракта и Unpaper. Из документации:

что делает OCRmyPDF

OCRmyPDF анализирует каждую страницу определить colorspace и разрешение (DPI), необходимое для захвата всей информации на этой странице без потери контента. Он использует Ghostscript для растеризации страницы, и затем выполняет на OCR на растеризованном изображении, чтобы создать OCR "слой". Затем слой снова прививается к исходному PDF-файлу.

его можно легко установить на производные Debian и Ubuntu:

apt-get install ocrmypdf

или на macOS:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

на Windows, вам нужно будет использовать Образов Docker. Подробности см. В официальных документах.

использование очень просто, и я предлагаю вам использовать дополнительный -d (deskew) и -c (чистые) параметры для лучших результатов. Он выпрямит каждую страницу и очистит мелкие точки/дефекты перед запуском процесса распознавания.

вы можете (и должны) предоставить язык с -l.

вот пример, взятый из это искаженный документ написано в Итальянский:

команда, которую я использовал, была:

ocrmypdf -l ita -d -c input.pdf output.pdf

онлайн инструменты

есть несколько онлайн-инструментов, которые делают то же самое. Примечательно, что PDF24 хостит бесплатная веб-версия OCRmyPDF это можно использовать без ограничений.

Читайте также:

score 4 · Answer 3

Это возможно из-за функция распознавания Acrobat:

Acrobat может распознавать текст в любом файле PDF или изображения в десятках языки. Все, что вам нужно сделать, это открыть отсканированный документ или изображение что вы хотите OCR, а затем нажмите синюю кнопку Инструменты в верхней части справа от панели инструментов. На боковой панели выберите вкладку Распознавание текста, затем нажмите кнопку в этом файле.

...

с распознанным текстом, теперь вы можете разметки PDF, используя все обычные инструменты разметки-вы можете выделить, зачеркнуть текст и многое другое. Вы можно даже скопировать текст с обнаруженным форматированием, хотя это часто менее точное, чем само распознавание текста.

score 3 · Answer 4

с веб-сайт Adobe

распознать текст в отсканированном PDF-файле

когда вы сканируете бумажные документы в PDF, вы действительно просто берете фотографии этих документов. Это отлично подходит для фотографий и других печатных изображений, но что делать, если у вас есть 200-страничный документ, в котором вы нуждаетесь чтобы найти конкретное слово или фразу? Использовать Acrobat для распознавания текста в этом отсканированном файле, что делает текстовое содержимое доступным для поиска и использования.

откройте отсканированный документ в Acrobat, откройте Панель инструментов и разверните панель распознавания текста. Если вы не видите "текст Распознавание " в панели инструментов, вы можете добавить его, выбрав в меню в правом верхнем углу (изображение ниже - смотрите, где что красненькое стрелка указывает? Нажмите здесь).

Нажмите "в этом файле", чтобы отсканировать открытый документ. Вы можете просто принять настройки по умолчанию и нажать "ОК", когда Признать текстовом поле соз вверх. Acrobat преобразует изображение в пригодное для использования текст; чтобы проверить это, просто попробуйте изменить слово или предложение с Панель редактирования контента. Разве это не потрясающе!?

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%