Как я могу deskew и обрезать PDF-файлы, сделанные из отсканированных страниц * автоматически*? [дубликат]


Возможные Дубликаты:

какие свободные программы я могу использовать для удаления отсканированных изображений

У меня есть несколько PDF-файлов, состоящих из сканирования страниц книг. Сканирование выполняется с двух страниц за раз, и некоторые из этих сканирований имеют перекос, что делает текст слегка наклоненным.

Я ищу инструмент, который мог бы позволить мне сделать автоматическую оптимизацию путем отмены сканирования без потери читаемости. Я нашел GPL software Briss обрезать сканы, чтобы иметь соотношение страниц 1:1 вместо 2: 1, но у меня нет инструмента для выравнивания страниц.

наткнулся на unpaper, еще один инструмент с открытым исходным кодом, который кажется идеальным для того, что я хочу сделать, но этот инструмент только Linux, и он не работает на PDF-файлы напрямую.

любой намек будет оценен по достоинству.

23
задан Community
29.11.2022 14:30 Количество просмотров материала 3429
Распечатать страницу

2 ответа

посмотреть deskew. Это инструмент командной строки. Загрузка * zip, похоже, включает двоичные файлы для Windows, MacOSX и Linux.

лицензия MPL (Mozilla) или LPGL (GNU), что угодно вы предпочитаете.

единственным недостатком для вас, кажется, является то, что он не использует PDF-файлы, только изображения PNG и TIFF (AFAICS). Это означает, что вам придется настроить рабочий процесс s.th. like:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Я не проверял его сам (пока), я просто пришел по всему сайту недавно и закладки.

9
отвечен Kurt Pfeifle 2022-11-30 22:18

о, позвольте мне добавить еще один ответ. Я только что вспомнил netpbm. Не использовал его в летах, но я думаю что я должно принять свежий взгляд...

netpbm - очень мощный инструмент для работы с графическими изображениями из командной строки. Он грузит почти 300 отдельных инструментов. Она включает в себя преобразователи для около 100 графических форматов.

и он также имеет инструмент командной строки, который может вращать изображения:

pnmrotate

и еще один инструмент, который пытается обнаружить угол поворота изображения:

pamtilt

pamtilt возвращает плавающее число своего предположения о вращении изображения. Так автоматический de-уклонять изображений должен находиться в пределах достигаемости. Для этого можно написать сценарий оболочки. Это потребует различных шагов:

  1. преобразование PDF-страницы в формат изображения netpbm с помощью Ghostscript.
  2. использовать pamtilt для автоматического определения угла наклона изображения.
  3. использовать pnmrotate для перекоса изображения.
  4. повторное преобразование изображения в формат PDF.

если вы предоставите мне доступ к небольшому образцу ваших PDF-файлов, я мог бы попробовать и придумать сценарий оболочки для выполнения подвига.


(мне очень интересно, что [netpbm] не видит тега здесь на superuser+stackoverflow.)

5
отвечен Kurt Pfeifle 2022-12-01 00:35

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх