|
--- |
|
license: apache-2.0 |
|
language: mns |
|
pipeline_tag: image-to-text |
|
--- |
|
# mns-tesseract |
|
|
|
**Дообученный языковой пакет Tesseract для мансийского языка** |
|
Базируется на официальной модели `rus.traineddata` (Tesseract 5) и дообучен на специализированном корпусе сканов со шрифтами размера 12–26 pt. |
|
|
|
--- |
|
|
|
## Информация о модели |
|
|
|
- **Имя:** mns-tesseract |
|
- **Базовая модель:** rus.traineddata (Tesseract 5) |
|
- **Размер шрифтов обучения:** 12, 14, 24, 26 pt |
|
- **Кол-во шрифтов:** 40 (список потом) |
|
- **Данные для дообучения:** |
|
- TIFF-изображения (`.tif`) с аннотациями в формате `.box` |
|
- Генерация LSTM-тренировочных примеров через: |
|
```bash |
|
for f in /app/data/ground-truth_other/*.tif; do |
|
tesseract "$f" "${f%.tif}" -l mns --psm 6 lstm.train |
|
done |
|
``` |
|
- **Конфигурация PSM:** оптимально `--psm 6` для строкового OCR. |
|
|
|
--- |
|
|
|
## Использование |
|
|
|
1. **Установка** |
|
Скопируйте `mns.traineddata` в каталог `tessdata` (`C:\Program Files\Tesseract-OCR\tessdata` или `/usr/share/tesseract-ocr/5/tessdata`). |
|
|
|
2. **Запуск OCR** |
|
```bash |
|
tesseract <image> <output> -l mns --oem 1 --psm 11 |
|
``` |
|
*Пример:* |
|
```bash |
|
tesseract images/toc.png images/toc -l mns --psm 11 pdf |
|
pdftotext -layout images/toc.pdf images/toc.txt |
|
``` |
|
|
|
3. **Поддерживаемые форматы** |
|
JPEG, TIFF, PNG, BMP и др. |
|
|
|
--- |
|
|
|
## Предобработка для качества |
|
|
|
- Удалите фон (thresholding или adaptiveThreshold). |
|
- Уберите шум (медианный фильтр, морфологические операции). |
|
- Повысите контраст и яркость. |
|
|
|
--- |
|
|
|
## Ограничения |
|
|
|
- Шрифты вне диапазона 12–26 pt распознаются хуже. |
|
- Модель обучена на кириллице; латинские буквы могут распознаваться некорректно. |
|
|
|
--- |
|
|
|
## Ресурсы |
|
|
|
- [Tesseract Command-Line Usage](https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html#simplest-invocation-to-ocr-an-image) |
|
- [Training Tesseract 5](https://github.com/tesseract-ocr/tessdoc/blob/main/tess5/TrainingTesseract-5.md) |
|
|
|
--- |
|
|
|
## Лицензия |
|
|
|
Apache 2.0 |