У меня есть книга, которую я хочу прочитать на экране. Он сканируется в монохромном режиме с разрешением 200 dpi (я все еще не знаю, что пошло не так в драйвере сканера, я помню, что установил его в оттенки серого, но не могу позволить себе время для сканирования снова), поэтому его трудно читать. Я познакомился с Acrobat Acrobat Pro, и все прошло достаточно хорошо. Но в результате получается либо нечто под названием "поиск изображения" или "Clearscan". Мне нравится тот факт, что макет сохраняется, но проблема в том, что текст отображается так, как он был отсканирован, поэтому трудно читать на экране. Кроме того, вся книга занимает 70 МБ.
здесь вы можете увидеть, как выглядит уже распознанный текст:
Я пробовал другие программы OCR, но (помимо 100% процессорного времени и памяти в течение 2 минут на двойную страницу)все они распознали текст, полностью оставив цифры. Мне все равно, что макет и типографика, но цифры важны (мне не нужны текстовые метки в изображения для распознавания). И я думаю, что если использовать ASCII для текста и изображений для рисунков, размер должен значительно снизиться.
Так есть ли способ избавиться от изображений текста и использовать OCRed версию для чтения, сохраняя при этом цифры на своих местах? Я бы предпочел, чтобы конечный результат был PDF-файлом, но я тоже открыт для других форматов. Я знаю, что могу сделать это вручную, вставив текст OCRed в word и захватив скриншоты изображений, но это тоже много работы за 520 страниц.