Предположим, у вас есть 2 "отсканированных" pdf-файлов.
- большой, но без текстового слоя.
- меньше (с более низким качеством изображения), но с правильным текстовым слоем.
оба файла содержат равной изображения, отличающиеся только сжатием.
цель состоит в том, чтобы вставлять тот же текстовый слой в 1-й pdf.
"Just OCR 1st file" не является решением. Я знаю, что Acrobat (и некоторые другие инструменты) способны OCR без изменения слоя изображения,но я не доволен их качеством распознавания.
Итак, я вижу два возможных пути:
- экспорт-импорт текстового слоя как-то
- заменить каким-то образом в слое.
Что касается 1-го пути, я ничего не нашел.
Что касается 2-го пути, то я нашел два инструмента, которые довольно близки hocr2pdf и pdf2text, но их все равно недостаточно, насколько я понял. : (
PS: пример использования:
Я только что нашел еще один пример, где такая операция полезна систематически.
Если у вас есть отсканированный pdf-1 (без текстового слоя) с, скажем, сжатием изображения "jpg", Abbyy finereader дает вам OCR'D pdf, pdf-2. Он будет либо довольно большим, если вы выберете сжатие без потерь, либо качество изображения будет значительно ниже, чем pdf-1. Во многих случаях лучшим выбором является сохранение исходного изображения сжатие как есть и не сжимайте изображение повторно.