Tesseract 3.03 были выпущены недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (изhttps://launchpad.net/ubuntu / + источник / tesseract/3.03.03-1). На веб-сайте Tesseract есть ссылка "скачать", но вы можете найти только "данные на английском языке для Tesseract 3.02". Где я могу найти их для 3.03?
Tesseract 3.03 данные на английском языке
2 ответа
как упомянуто другими, вы можете использовать английский язык для пакетов 3.02 3.03. Ниже приведены инструкции:
- скачать и распаковать здесь : 1
установить предпосылки и распакуйте
`sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev` `tar xfv tesseract-ocr-3.02.eng.tar.gz`
извлечь английский пакет данных Tesseract в каталог tessdata внутри каталога tesseract-3.03. Предполагая оба (данные на английском языке и источник Тессеракта .смола.GZ файлы) находятся в одном папка
tar zxvf tesseract-ocr-3.02.eng.tar.gz
mv tesseract-ocr/tessdata/. Тессеракт-3.03/tessdata/
4.Вернитесь в каталог tesseract и завершите установку
cd tesseract-3.03
./autogen.sh
./configure
make -j
sudo make install LANGS="eng"
sudo ldconfig
теперь проверьте вашу установку с помощью тестового образа в каталоге
tesseract phototest.tif ans -l eng
cat ans.txt
выход:
это много текста 12 пунктов для проверки ocr код и посмотреть, если он работает на всех типах формата файла.
быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнул через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лиса. Быстрая коричневая собака перепрыгнула через ленивую лису.
Примечание: некоторые строки имеют неправильное форматирование...любой совет исправить их было бы здорово
вы можете использовать языковые данные от 3.02 по 3.03 RC.
Также обратите внимание, что 3.03 еще не был официально выпущен. Это сборка RC.
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]