import os INTRODUCTION_TEXT = """ # Русский ASR-лидерборд Площадка для честного сравнения моделей распознавания русской речи. Мы считаем WER и CER на единых тестовых наборах и сортируем модели по среднему WER (ниже — лучше). Наведите курсор на значение WER в колонке датасета, чтобы увидеть CER. Все метрики указаны в процентах. """ REPO_ID = "Vikhrmodels/russian-asr-leaderboard" HF_TOKEN = os.getenv("HF_TOKEN") DATASETS = [ "Russian_LibriSpeech", "Common_Voice_Corpus_22.0", "Tone_Webinars", "Tone_Books", "Tone_Speak", "Sova_RuDevices", ] SHORT_DATASET_NAMES = ["RuLS", "CV 22.0", "Webinars", "Books", "Speak", "Sova"] DATASET_DESCRIPTIONS = { "RuLS": { "full_name": "Russian_LibriSpeech", "description": "Корпус на основе русскоязычных аудиокниг LibriVox. Около 98 часов речи с верифицированными транскрипциями.", "num_rows": 1352, }, "CV 22.0": { "full_name": "Common_Voice_Corpus_22.0", "description": "Краудсорсинговый многоязычный корпус Mozilla Common Voice. Версия 22.0 содержит русскую речь с транскрипциями.", "num_rows": 10244, }, "Webinars": { "full_name": "Tone_Webinars", "description": "Речь из образовательных вебинаров. Разнообразные дикторы и темы, близкие к реальным сценариям.", "num_rows": 21587, }, "Books": { "full_name": "Tone_Books", "description": "Фрагменты русских аудиокниг. Чистая дикторская речь и аккуратные транскрипции.", "num_rows": 4930, }, "Speak": { "full_name": "Tone_Speak", "description": "Синтетическая русская речь. Полезна для оценки устойчивости к TTS-голосам.", "num_rows": 700, }, "Sova": { "full_name": "Sova_RuDevices", "description": "Около 100 часов живой русской речи, записанной на устройствах 16 kHz. Тщательно размеченные транскрипции.", "num_rows": 5799, }, }