Salif SAWADOGO
✨ make core reusable
00c3a04
from dash import dcc
import dash_bootstrap_components as dbc
def get_project_description() -> str:
return """
# MooreFRCollection
**MooreFRCollection** est un projet open source visant à construire un corpus bilingue **Mooré-Français** pour soutenir la recherche et le développement de technologies linguistiques adaptées au contexte burkinabé.
L'objectif principal est de fournir des données essentielles pour entraîner, tester et affiner des modèles de traduction et d'autres outils d'intelligence artificielle (IA) en lien avec la langue **Mooré**, une des langues nationales du Burkina Faso.
"""
def get_audio_section() -> str:
return """
## **Construction de la version audio**
Actuellement, nous nous concentrons sur la **partie audio** du projet. Cette phase implique la collecte, le traitement et l'alignement des segments audio et textuels pour produire un corpus riche et diversifié.
Les données audio sont collectées à partir de :
1. **Textes bibliques de JW.ORG** :
Les contenus ont été extraits efficacement grâce à l'outil [jwsoup](https://pypi.org/project/jwsoup/). Les segments textuels et leurs correspondances audio sont alignés pour fournir une ressource précieuse pour le traitement automatique des langues.
2. **Alignement et segmentation audio** :
Les fichiers audio sont traités et segmentés en unités exploitables, accompagnées de transcriptions bilingues (Mooré-Français). Chaque segment est soigneusement vérifié pour garantir sa qualité et son utilité dans des applications variées.
"""
def get_applications_section() -> str:
return """
## **Applications**
Le corpus **MooreFRCollection** ouvre la voie à une multitude d'applications :
1. 🔤 **Traduction automatique**
Développement et évaluation de systèmes de traduction automatiques, permettant la conversion fluide du Mooré vers le Français et inversement.
2. 🧠 **Recherche linguistique**
Analyse approfondie des structures syntaxiques, lexicales et phonétiques spécifiques au Mooré, pour enrichir les études linguistiques.
3. 📊 **Apprentissage supervisé**
Entraînement de modèles d'apprentissage machine sur des tâches variées, comme la reconnaissance vocale ou l'analyse sentimentale en Mooré.
4. 📚 **Applications éducatives**
Soutien aux enseignants, étudiants, et locuteurs natifs pour explorer les interactions linguistiques entre le Mooré et le Français.
"""
def get_contribution_section() -> str:
return """
## **Appel à contributions**
Nous invitons toute personne intéressée à contribuer au développement de **MooreFRCollections**. Votre aide peut prendre plusieurs formes :
- **Partager des données** : Soumettez des textes ou fichiers audio en Mooré, ou des données bilingues Mooré-Français.
- **Participer à l'annotation** : Aidez-nous à valider et enrichir les transcriptions et traductions existantes.
- **Suggérer des idées** : Proposez de nouvelles approches pour la collecte, le traitement ou les usages potentiels du corpus.
"""
def get_huggingface_section() -> str:
return """
### **Contribuer via HuggingFace**
Pour apporter vos contributions directement au dépôt du projet sur HuggingFace, suivez ces étapes simples :
1. **Configurer votre environnement Git** :
- Lisez le [guide sur la dépréciation des mots de passe Git](https://huggingface.co/blog/password-git-deprecation).
- Configurez [Git SSH](https://huggingface.co/docs/hub/security-git-ssh) pour des connexions sécurisées.
2. **Changer l'URL distante** pour utiliser le dépôt HuggingFace :
```bash
git remote set-url origin git@hf.co:datasets/sawadogosalif/MooreFRCollections/
```
3. **Créer une nouvelle branche** pour vos contributions :
```bash
git checkout -b nom-de-votre-branche
```
4. **Soumettre vos modifications** :
Faites un push de vos changements et créez une demande de fusion pour qu'elle soit examinée.
Nous vous encourageons également à demander l'accès à la branche de développement pour collaborer plus directement sur les améliorations.
"""
def create_content() -> str:
sections = [
get_project_description(),
"---",
get_audio_section(),
"---",
get_applications_section(),
"---",
get_contribution_section(),
"---",
get_huggingface_section(),
"---"
]
return "\n".join(sections)
layout= dbc.Container([
dcc.Markdown(create_content())
])