Image-to-Text
Mansi
File size: 2,606 Bytes
b057887
 
d0917d4
 
b057887
81597d9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9e3fd51
81597d9
 
 
9e3fd51
81597d9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b057887
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
---
license: apache-2.0
language: mns
pipeline_tag: image-to-text
---
# mns-tesseract

**Дообученный языковой пакет Tesseract для мансийского языка**  
Базируется на официальной модели `rus.traineddata` (Tesseract 5) и дообучен на специализированном корпусе сканов со шрифтами размера 12–26 pt.

---

## Информация о модели

- **Имя:** mns-tesseract  
- **Базовая модель:** rus.traineddata (Tesseract 5)  
- **Размер шрифтов обучения:** 12, 14, 24, 26 pt  
- **Кол-во шрифтов:** 40 (список потом)  
- **Данные для дообучения:**  
  - TIFF-изображения (`.tif`) с аннотациями в формате `.box`  
  - Генерация LSTM-тренировочных примеров через:
    ```bash
    for f in /app/data/ground-truth_other/*.tif; do
      tesseract "$f" "${f%.tif}" -l mns --psm 6 lstm.train
    done
    ```
- **Конфигурация PSM:** оптимально `--psm 6` для строкового OCR.

---

## Использование

1. **Установка**  
   Скопируйте `mns.traineddata` в каталог `tessdata` (`C:\Program Files\Tesseract-OCR\tessdata` или `/usr/share/tesseract-ocr/5/tessdata`).

2. **Запуск OCR**  
   ```bash
   tesseract <image> <output> -l mns --oem 1 --psm 11
   ```
   *Пример:*  
   ```bash
   tesseract images/toc.png images/toc -l mns --psm 11 pdf
   pdftotext -layout images/toc.pdf images/toc.txt
   ```

3. **Поддерживаемые форматы**  
   JPEG, TIFF, PNG, BMP и др.

---

## Предобработка для качества

- Удалите фон (thresholding или adaptiveThreshold).  
- Уберите шум (медианный фильтр, морфологические операции).  
- Повысите контраст и яркость.

---

## Ограничения

- Шрифты вне диапазона 12–26 pt распознаются хуже.  
- Модель обучена на кириллице; латинские буквы могут распознаваться некорректно.

---

## Ресурсы

- [Tesseract Command-Line Usage](https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html#simplest-invocation-to-ocr-an-image)  
- [Training Tesseract 5](https://github.com/tesseract-ocr/tessdoc/blob/main/tess5/TrainingTesseract-5.md)

---

## Лицензия

Apache 2.0