Зачистки не-текст из сканированного, OCRd формате PDF

У меня есть PDF, созданный из отсканированного документа. OCR использовался для распознавания текста. В Acrobat, если я выбираю текст и нажимаю "копировать с форматированием", я могу вставить отформатированный текст в Word, поэтому кажется, что шрифты и цвета также встроены в документ в дополнение к простому тексту и, возможно, размеру.

есть ли способ использовать эту информацию для создания PDF, который содержит только форматированный OCRd текст, без отсканированного изображения. В настоящее время мой документ показывает только отсканированное изображение, а текст находится на невидимом слое. Я хотел бы создать PDF-документ, который удаляет отсканированное изображение и отображает форматированный текст, который в настоящее время скрыт.

следующий пост в разделе "Как мы можем сделать невидимый текст виден?"
PDF имеет дополнительный пробел во всех словах после запуска через Ghostscript

однако при этом не отображается правильное форматирование текста (которое сохраняется при вставке в Word), и я также хотел бы удалить отсканированное изображение, чтобы окончательный PDF просто содержал форматированные (цвет, шрифт, размер) векторные шрифты и никаких изображений.

19
задан Community
07.02.2023 6:56 Количество просмотров материала 3647
Распечатать страницу

1 ответ

все ли сейчас делают все по-плохому, потому что программы сложнее, чем нужно То, что я читал, это то, что вы сделали, вы освоили полный контроль над отсканированным текстовым изображением, кроме небольшого переформатирования.

весь вопрос, я просто не понимаю. Когда мы OCR здесь с самым простым свободным программным обеспечением, которое поставляется со сканером, он может дать мне 3 простые вещи.

  1. Текст, сырой текст, как я хотел его больше всего, без форматирования, без цветов, не много перенос слов, это просто " код " для того, что письма он видел. Его не нужно перепечатывать и перепроверять. Этот текст может быть повторно потекла и форматирования, изменения размеров, recolorised. Человек просто счастлив, что ему не нужно перепечатывать его. Он очень Malable регулируемый и малюсенький, как раз код для характеров.

    OCR программное обеспечение, которое помещает пробелы между всеми буквами, должно быть либо изменено, либо брошено, если оно помещает туда пробелы потому что они существовали, то так к ней будет существовать снова пропуск, который я оставляю им. Может быть, немного reKerning (толкая буквы вместе) в программе word/pdf, чтобы сжать его.

  2. Форматированный Текст форматированный столбчатый, параграфированный, завернутый и может быть цветной или размерный, но изменить это легко. Этот выбор OCR полезно отбросить его как-предварительно отформатирован и повторно распечатать / использовать его чистый как это было. это все еще очень маленький размер, без графики или изображения. Если я использую форматированный текст и хочу переформатировать его для другого макета/форматирования, я мог бы также просто OCRed текст только (1), использовал необработанный текст и быстро переформатировал его и перекрасил его.

  3. Графика, вещи, которые не могут быть OCRed, потому что он не может распознавать буквы, это может быть вся страница, или части страницы, как подпись, или некоторые перепутанные области, или элементы изображения.

этот отсканированный раздел можно использовать с (1) или (2), чтобы вручную поместить графику обратно в переформатированные документы или просто вставить в форматированную область. Если "графический" или фоновый шум страницы не нужен, то программа OCR настроена только на (1) или (2) то, что OCR делает лучше всего. (1) выяснить, что текст и игнорировать все остальное. Или (2) изобразите текст и форматирование и макет текста.

Это (3) изображение не может сделайте это в "буфер копирования" стандартного материала Windows, с необработанным текстом или отформатированным текстом в то же время для обычной кросс-программы copy paste. Это не просто текст, или просто RTF, это не просто картинка, это грязный комбо. Это может быть" специальная вставка для копирования данных".

IT смогло быть напечатано из програмного обеспечения OCR, или PDF "печатание" смогло быть сделано от програмного обеспечения OCR (где оно все еще собран). По существу компьютер / программы копируют буфер могут сделать (1) текст, могут сделать (2) текст с форматирование. Но чтобы сделать изображение и богатый текст также, разве это не "смешивание данных" для других программ, чтобы распознать его?

выбор текста только в PDF-документе, в котором есть текст, переместит текст в буфер копирования. Вы можете вставить этот текст во что угодно, и уже есть, изменение любого интервала или абзацев и табуляции может быть сделано в программе Wurd.

PDF может быть только текст, текст с форматированием, текст и изображение, и все это разделяется в одном быстрый ход, если он не защищен. копировать-вставить. Вставьте только текст (вы уже смогли вставить в Word) в PDF и сделать простой текст только PDF.

Если это векторный (точки и кривые) контур текста? Invisable, чья блестящая идея была уже, что когда ты делаешь такие простые вещи? Некоторые программисты, которые не могут оставить достаточно хорошо в покое, он должен был бы быть повторно OCRed это больше не сырой текстовый код. Не удалось скопировать вставить векторный текст / графику в качестве текстовых символов.

с векторами в Фотошопе можно повторно стилизовать его, не сгибайте его снова установите его, это векторы, а не текстовые символы, очень трудно заново или заново форматировать. Размер резко увеличивается, если это векторы.

если он растеризован (сделал его рисунком вместо векторов), который как бы завершает контур, то не "обводил" векторный контур или стилизовал его. Поворачивать его в "изображение / график" снова, вместо текста RTF или векторов, фиксирует вне легкость течет, переворачивается, переформатируется. Размер будет наибольшим размером после растеризации.

и ваши проблемы с потоком его в PDF или слово, то они собираются повторно кодировать PDF, так что вы задаете вопрос, и я смотрю на него думать:

  1. вы получили это
  2. у вас есть основной контроль над ним, больше, чем нужно
  3. вы были в состоянии сделать что-нибудь с ним что-нибудь
  4. как ты мог возможно, потеряли вы освоил конвертацию it
  5. у вас обоих картинки и текст
  6. вы смогли скопировать вставить текст
  7. у вас есть все это.

это было отредактировано с момента публикации комментариев.

-3
отвечен Psycogeek 2023-02-08 14:44

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх