--- license: apache-2.0 language: mns pipeline_tag: image-to-text --- # mns-tesseract **Дообученный языковой пакет Tesseract для мансийского языка** Базируется на официальной модели `rus.traineddata` (Tesseract 5) и дообучен на специализированном корпусе сканов со шрифтами размера 12–26 pt. --- ## Информация о модели - **Имя:** mns-tesseract - **Базовая модель:** rus.traineddata (Tesseract 5) - **Размер шрифтов обучения:** 12, 14, 24, 26 pt - **Кол-во шрифтов:** 40 (список потом) - **Данные для дообучения:** - TIFF-изображения (`.tif`) с аннотациями в формате `.box` - Генерация LSTM-тренировочных примеров через: ```bash for f in /app/data/ground-truth_other/*.tif; do tesseract "$f" "${f%.tif}" -l mns --psm 6 lstm.train done ``` - **Конфигурация PSM:** оптимально `--psm 6` для строкового OCR. --- ## Использование 1. **Установка** Скопируйте `mns.traineddata` в каталог `tessdata` (`C:\Program Files\Tesseract-OCR\tessdata` или `/usr/share/tesseract-ocr/5/tessdata`). 2. **Запуск OCR** ```bash tesseract -l mns --oem 1 --psm 11 ``` *Пример:* ```bash tesseract images/toc.png images/toc -l mns --psm 11 pdf pdftotext -layout images/toc.pdf images/toc.txt ``` 3. **Поддерживаемые форматы** JPEG, TIFF, PNG, BMP и др. --- ## Предобработка для качества - Удалите фон (thresholding или adaptiveThreshold). - Уберите шум (медианный фильтр, морфологические операции). - Повысите контраст и яркость. --- ## Ограничения - Шрифты вне диапазона 12–26 pt распознаются хуже. - Модель обучена на кириллице; латинские буквы могут распознаваться некорректно. --- ## Ресурсы - [Tesseract Command-Line Usage](https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html#simplest-invocation-to-ocr-an-image) - [Training Tesseract 5](https://github.com/tesseract-ocr/tessdoc/blob/main/tess5/TrainingTesseract-5.md) --- ## Лицензия Apache 2.0