Spaces:

Elixir-AI
/

easy-financial-vlm-dataset-builder

Sleeping

App Files Files Community

martialroberge commited on Apr 5

Commit

7a7f712

1 Parent(s): cbae9ff

Simplification de l'interface et forçage des Q/R en français

Browse files

Files changed (1) hide show

app.py +48 -100

app.py CHANGED Viewed

@@ -239,79 +239,44 @@ def process_images(api_key, hf_token, images, dataset_name, progress=gr.Progress
                     nb_questions = random.randint(1, 5)
                     print(f"❓ Génération de {nb_questions} questions...")
-                    prompt = f"""Tu es un expert en analyse financière, en création de datasets de haute qualité et en analyse multilingue. Examine attentivement ce document financier, IDENTIFIE D'ABORD SA LANGUE, puis génère exactement {nb_questions} questions/réponses de qualité professionnelle dans la même langue que le document.
-ÉTAPE 1 - IDENTIFICATION DE LA LANGUE :
-- Analyse attentivement le texte dans l'image
-- Identifie la langue principale (fr pour français, en pour anglais, de pour allemand, etc.)
-- Utilise cette langue pour toutes les questions et réponses
-- Si plusieurs langues sont présentes, choisis la langue dominante
 Format de réponse requis (JSON) :
 [
     {{
-        "query": "Question financière précise et détaillée dans la langue du document",
-        "answer": "Réponse complète et exacte dans la langue du document",
-        "langue": "code ISO de la langue (fr, en, de, etc.)",
         "is_negative": false
     }}
 ]
-Instructions détaillées pour la création du dataset :
-1. TYPES DE QUESTIONS FINANCIÈRES (sois créatif et précis) :
-   - Analyse quantitative :
-     * Montants exacts et variations
-     * Pourcentages et ratios financiers
-     * Évolutions temporelles
-     * Comparaisons chiffrées
-   - Analyse qualitative :
-     * Stratégies et objectifs
-     * Risques et opportunités
-     * Contexte réglementaire
-     * Implications business
-   - Dates et échéances :
-     * Périodes de reporting
-     * Dates clés
-     * Échéances importantes
-     * Historique des événements
-2. QUESTIONS NÉGATIVES (TRÈS IMPORTANT) :
-   - Tu DOIS générer au moins 1 question sur {nb_questions} où l'information n'est PAS dans le document
-   - Pour ces questions, tu DOIS mettre "is_negative": true
-   - La réponse DOIT commencer par une phrase indiquant l'absence d'information dans la langue du document :
-     * FR: "Cette information ne figure pas dans le document"
-     * EN: "This information is not present in the document"
-     * DE: "Diese Information ist im Dokument nicht enthalten"
-   - Les questions négatives doivent être plausibles et pertinentes pour un document financier
-3. QUALITÉ DES QUESTIONS :
-   - Précision : utilise des chiffres exacts quand possible
-   - Clarté : questions non ambiguës
-   - Pertinence : focus sur les aspects financiers importants
-   - Variété : mélange différents types de questions
-   - Profondeur : questions qui nécessitent une analyse approfondie
-4. QUALITÉ DES RÉPONSES :
-   - Pour les questions normales (is_negative: false) :
-     * Exactitude : informations vérifiables dans le document
-     * Complétude : réponses détaillées et exhaustives
-     * Clarté : formulation professionnelle et précise
-     * Contexte : inclure les éléments de contexte pertinents
-   - Pour les questions négatives (is_negative: true) :
-     * TOUJOURS commencer par la phrase d'absence d'information dans la bonne langue
-     * Expliquer brièvement pourquoi cette information serait pertinente
-5. RÈGLES STRICTES :
-   - Questions et réponses UNIQUEMENT dans la langue détectée du document
-   - Pas de questions vagues ou générales
-   - Pas de répétition de questions similaires
-   - Pas de devinettes ou d'inférences non documentées
-   - Respect strict du format JSON demandé
-   - Au moins 1 question négative (is_negative: true) par image
-   - Code langue ISO correct (fr, en, de, etc.)
 La réponse doit être uniquement le JSON, sans texte supplémentaire."""
@@ -350,12 +315,12 @@ La réponse doit être uniquement le JSON, sans texte supplémentaire."""
                         # Vérifier que chaque élément a les bons champs
                         for qa in qa_pairs:
-                            if not all(key in qa for key in ["query", "answer", "langue", "is_negative"]):
                                 raise ValueError("Un élément ne contient pas tous les champs requis")
                             # Vérifier que la langue est fr
-                            if qa["langue"] != "fr":
-                                qa["langue"] = "fr"
                             # Générer un ID unique
                             qa["id"] = generate_unique_id()
@@ -383,7 +348,7 @@ La réponse doit être uniquement le JSON, sans texte supplémentaire."""
                             "image": qa["image"],
                             "query": qa["query"],
                             "answer": qa["answer"],
-                            "langue": qa["langue"],
                             "file_name": qa["file_name"],
                             "is_negative": qa["is_negative"]
                         }
@@ -435,36 +400,21 @@ limitations under the License.
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎯 Mini-VLM Dataset Builder
-    ### Créez des datasets de haute qualité pour l'entraînement de modèles Vision-Langage (VLM)
-    ## 🎓 Pourquoi utiliser cette application ?
-    Cette application permet de créer des datasets de questions/réponses de haute qualité en utilisant l'API Gemini de Google.
-    L'objectif est de permettre l'entraînement de petits modèles VLM (Vision-Language Models) plus légers et plus rapides,
-    tout en conservant des performances proches des grands modèles comme GPT-4V ou Gemini.
-    ### 🔄 Pipeline de fonctionnement :
-    1. **Upload des documents** : PDF ou images (PNG, JPG, JPEG)
-    2. **Prétraitement** :
-       - Conversion des PDFs en images
-       - Normalisation des formats
-       - Mélange aléatoire pour une meilleure distribution
-    3. **Analyse par Gemini** :
-       - Détection automatique de la langue (FR, EN, DE, etc.)
-       - Génération de 1 à 5 questions/réponses par image
-       - Inclusion de questions négatives pour l'entraînement
-    4. **Structuration du dataset** :
-       - Split automatique (80% train, 10% validation, 10% test)
-       - Format standardisé avec IDs uniques
-       - Métadonnées complètes (langue, type de question, etc.)
-    5. **Publication sur Hugging Face** :
-       - Création automatique du repository
-       - Upload des images et métadonnées
-       - Structure optimisée pour l'entraînement
-    ### ⚠️ Prérequis
-    1. Une [clé API Gemini](https://makersuite.google.com/app/apikey) pour l'analyse des documents
-    2. Un [token Hugging Face](https://huggingface.co/settings/tokens) avec droits d'écriture pour la publication
     """)
     with gr.Row():
@@ -484,23 +434,21 @@ with gr.Blocks() as demo:
             dataset_name = gr.Textbox(
                 label="📁 Nom du dataset",
                 placeholder="votre-username/nom-du-dataset",
-                info="Format requis : username/nom-du-dataset (exemple: marsouuu/finance-dataset-fr)"
             )
         with gr.Column(scale=1):
             files = gr.File(
-                label="📄 Documents (PDF, PNG, JPG, JPEG)",
                 file_count="multiple",
                 height=200
             )
             gr.Markdown("""
-            ### 📊 Statistiques générées :
-            - 80% des images pour l'entraînement
-            - 10% pour la validation
-            - 10% pour les tests
-            - 1 à 5 questions par image
-            - Au moins 1 question négative par image
-            - Détection automatique de la langue
             """)
     submit_btn = gr.Button("🚀 Créer le dataset", variant="primary", scale=2)

                     nb_questions = random.randint(1, 5)
                     print(f"❓ Génération de {nb_questions} questions...")
+                    prompt = f"""Tu es un expert en analyse financière et en création de datasets. Examine attentivement ce document financier et génère exactement {nb_questions} questions/réponses en français, quelle que soit la langue du document.
+ÉTAPE 1 - IDENTIFICATION DE LA LANGUE DU DOCUMENT :
+- Analyse le texte dans l'image
+- Identifie la langue principale (fr, en, de, etc.)
+- Cette information servira uniquement de métadonnée
+IMPORTANT : Toutes les questions et réponses DOIVENT être en français, même si le document est dans une autre langue !
 Format de réponse requis (JSON) :
 [
     {{
+        "query": "Question financière en français",
+        "answer": "Réponse en français",
+        "langue_document": "code ISO de la langue source (fr, en, de, etc.)",
         "is_negative": false
     }}
 ]
+Instructions pour la création du dataset :
+1. QUESTIONS FINANCIÈRES :
+   - Analyse des montants, ratios et variations
+   - Stratégies et objectifs financiers
+   - Risques et opportunités
+   - Dates et échéances importantes
+2. QUESTIONS NÉGATIVES :
+   - Au moins 1 question sur {nb_questions} où l'information n'est PAS dans le document
+   - Pour ces questions, mettre "is_negative": true
+   - La réponse DOIT commencer par "Cette information ne figure pas dans le document"
+3. RÈGLES STRICTES :
+   - Questions et réponses TOUJOURS en français
+   - Questions précises et non ambiguës
+   - Pas de répétitions
+   - Format JSON strict
+   - Au moins 1 question négative par image
 La réponse doit être uniquement le JSON, sans texte supplémentaire."""
                         # Vérifier que chaque élément a les bons champs
                         for qa in qa_pairs:
+                            if not all(key in qa for key in ["query", "answer", "langue_document", "is_negative"]):
                                 raise ValueError("Un élément ne contient pas tous les champs requis")
                             # Vérifier que la langue est fr
+                            if qa["langue_document"] != "fr":
+                                qa["langue_document"] = "fr"
                             # Générer un ID unique
                             qa["id"] = generate_unique_id()
                             "image": qa["image"],
                             "query": qa["query"],
                             "answer": qa["answer"],
+                            "langue_document": qa["langue_document"],
                             "file_name": qa["file_name"],
                             "is_negative": qa["is_negative"]
                         }
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎯 Mini-VLM Dataset Builder
+    ## Créateur de datasets financiers en français pour mini-modèles VLM
+    Cette application permet de créer des datasets de questions/réponses en français à partir de documents financiers
+    (en français ou autres langues) pour entraîner des modèles Vision-Langage (VLM) légers et performants.
+    ### 🔄 Processus :
+    1. Upload de documents (PDF, images)
+    2. Analyse automatique par Gemini
+    3. Génération de Q/R en français
+    4. Création du dataset sur Hugging Face
+    ### ⚠️ Prérequis :
+    - [Clé API Gemini](https://makersuite.google.com/app/apikey)
+    - [Token Hugging Face](https://huggingface.co/settings/tokens)
     """)
     with gr.Row():
             dataset_name = gr.Textbox(
                 label="📁 Nom du dataset",
                 placeholder="votre-username/nom-du-dataset",
+                info="Format : username/nom-du-dataset (ex: marsouuu/finance-dataset-fr)"
             )
         with gr.Column(scale=1):
             files = gr.File(
+                label="📄 Documents financiers (PDF, PNG, JPG, JPEG)",
                 file_count="multiple",
                 height=200
             )
             gr.Markdown("""
+            ### 📊 Caractéristiques :
+            - Questions et réponses en français
+            - 1 à 5 Q/R par document
+            - Questions négatives incluses
+            - Split train/val/test automatique
             """)
     submit_btn = gr.Button("🚀 Créer le dataset", variant="primary", scale=2)