Spaces:

Elixir-AI
/

easy-financial-vlm-dataset-builder

Sleeping

App Files Files Community

martialroberge commited on Apr 5

Commit

cbae9ff

1 Parent(s): 3cb2c3b

Amélioration du prompt pour la détection de langue et de l'interface utilisateur

Browse files

Files changed (1) hide show

app.py +63 -21

app.py CHANGED Viewed

@@ -239,14 +239,20 @@ def process_images(api_key, hf_token, images, dataset_name, progress=gr.Progress
                     nb_questions = random.randint(1, 5)
                     print(f"❓ Génération de {nb_questions} questions...")
-                    prompt = f"""Tu es un expert en analyse financière et en création de datasets de haute qualité. Examine attentivement ce document financier et génère exactement {nb_questions} questions/réponses de qualité professionnelle.
 Format de réponse requis (JSON) :
 [
     {{
-        "query": "Question financière précise et détaillée",
-        "answer": "Réponse complète et exacte basée sur le document",
-        "langue": "fr",
         "is_negative": false
     }}
 ]
@@ -275,10 +281,10 @@ Instructions détaillées pour la création du dataset :
 2. QUESTIONS NÉGATIVES (TRÈS IMPORTANT) :
    - Tu DOIS générer au moins 1 question sur {nb_questions} où l'information n'est PAS dans le document
    - Pour ces questions, tu DOIS mettre "is_negative": true
-   - La réponse DOIT commencer par "Cette information ne figure pas dans le document"
-   - Exemples de questions négatives :
-     * "Quel est le montant exact des provisions pour risques ?" -> "Cette information ne figure pas dans le document"
-     * "Quelle est la rémunération du directeur financier ?" -> "Cette information ne figure pas dans le document"
    - Les questions négatives doivent être plausibles et pertinentes pour un document financier
 3. QUALITÉ DES QUESTIONS :
@@ -295,16 +301,17 @@ Instructions détaillées pour la création du dataset :
      * Clarté : formulation professionnelle et précise
      * Contexte : inclure les éléments de contexte pertinents
    - Pour les questions négatives (is_negative: true) :
-     * TOUJOURS commencer par "Cette information ne figure pas dans le document"
      * Expliquer brièvement pourquoi cette information serait pertinente
 5. RÈGLES STRICTES :
-   - Questions et réponses UNIQUEMENT en français
    - Pas de questions vagues ou générales
    - Pas de répétition de questions similaires
    - Pas de devinettes ou d'inférences non documentées
    - Respect strict du format JSON demandé
    - Au moins 1 question négative (is_negative: true) par image
 La réponse doit être uniquement le JSON, sans texte supplémentaire."""
@@ -428,42 +435,77 @@ limitations under the License.
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎯 Mini-VLM Dataset Builder
-    Créez votre propre dataset de questions/réponses pour l'entraînement de modèles Vision-Langage
-    ### ⚠️ Important
-    1. Vous devez avoir une [clé API Gemini](https://makersuite.google.com/app/apikey)
-    2. Vous devez avoir un [token Hugging Face](https://huggingface.co/settings/tokens) avec droits d'écriture
     """)
     with gr.Row():
         with gr.Column(scale=1):
             api_key = gr.Textbox(
-                label="Clé API Google Gemini",
                 type="password",
                 placeholder="Entrez votre clé API Gemini",
                 value=""
             )
             hf_token = gr.Textbox(
-                label="Token Hugging Face",
                 type="password",
                 placeholder="Entrez votre token Hugging Face",
                 value=""
             )
             dataset_name = gr.Textbox(
-                label="Nom du dataset",
-                placeholder="votre-username/nom-du-dataset"
             )
         with gr.Column(scale=1):
             files = gr.File(
-                label="Documents (PDF, PNG, JPG, JPEG)",
                 file_count="multiple",
                 height=200
             )
-    submit_btn = gr.Button("Créer le dataset", variant="primary")
     output = gr.Textbox(
-        label="Résultat",
         lines=3,
         interactive=False
     )

                     nb_questions = random.randint(1, 5)
                     print(f"❓ Génération de {nb_questions} questions...")
+                    prompt = f"""Tu es un expert en analyse financière, en création de datasets de haute qualité et en analyse multilingue. Examine attentivement ce document financier, IDENTIFIE D'ABORD SA LANGUE, puis génère exactement {nb_questions} questions/réponses de qualité professionnelle dans la même langue que le document.
+ÉTAPE 1 - IDENTIFICATION DE LA LANGUE :
+- Analyse attentivement le texte dans l'image
+- Identifie la langue principale (fr pour français, en pour anglais, de pour allemand, etc.)
+- Utilise cette langue pour toutes les questions et réponses
+- Si plusieurs langues sont présentes, choisis la langue dominante
 Format de réponse requis (JSON) :
 [
     {{
+        "query": "Question financière précise et détaillée dans la langue du document",
+        "answer": "Réponse complète et exacte dans la langue du document",
+        "langue": "code ISO de la langue (fr, en, de, etc.)",
         "is_negative": false
     }}
 ]
 2. QUESTIONS NÉGATIVES (TRÈS IMPORTANT) :
    - Tu DOIS générer au moins 1 question sur {nb_questions} où l'information n'est PAS dans le document
    - Pour ces questions, tu DOIS mettre "is_negative": true
+   - La réponse DOIT commencer par une phrase indiquant l'absence d'information dans la langue du document :
+     * FR: "Cette information ne figure pas dans le document"
+     * EN: "This information is not present in the document"
+     * DE: "Diese Information ist im Dokument nicht enthalten"
    - Les questions négatives doivent être plausibles et pertinentes pour un document financier
 3. QUALITÉ DES QUESTIONS :
      * Clarté : formulation professionnelle et précise
      * Contexte : inclure les éléments de contexte pertinents
    - Pour les questions négatives (is_negative: true) :
+     * TOUJOURS commencer par la phrase d'absence d'information dans la bonne langue
      * Expliquer brièvement pourquoi cette information serait pertinente
 5. RÈGLES STRICTES :
+   - Questions et réponses UNIQUEMENT dans la langue détectée du document
    - Pas de questions vagues ou générales
    - Pas de répétition de questions similaires
    - Pas de devinettes ou d'inférences non documentées
    - Respect strict du format JSON demandé
    - Au moins 1 question négative (is_negative: true) par image
+   - Code langue ISO correct (fr, en, de, etc.)
 La réponse doit être uniquement le JSON, sans texte supplémentaire."""
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎯 Mini-VLM Dataset Builder
+    ### Créez des datasets de haute qualité pour l'entraînement de modèles Vision-Langage (VLM)
+    ## 🎓 Pourquoi utiliser cette application ?
+    Cette application permet de créer des datasets de questions/réponses de haute qualité en utilisant l'API Gemini de Google.
+    L'objectif est de permettre l'entraînement de petits modèles VLM (Vision-Language Models) plus légers et plus rapides,
+    tout en conservant des performances proches des grands modèles comme GPT-4V ou Gemini.
+    ### 🔄 Pipeline de fonctionnement :
+    1. **Upload des documents** : PDF ou images (PNG, JPG, JPEG)
+    2. **Prétraitement** :
+       - Conversion des PDFs en images
+       - Normalisation des formats
+       - Mélange aléatoire pour une meilleure distribution
+    3. **Analyse par Gemini** :
+       - Détection automatique de la langue (FR, EN, DE, etc.)
+       - Génération de 1 à 5 questions/réponses par image
+       - Inclusion de questions négatives pour l'entraînement
+    4. **Structuration du dataset** :
+       - Split automatique (80% train, 10% validation, 10% test)
+       - Format standardisé avec IDs uniques
+       - Métadonnées complètes (langue, type de question, etc.)
+    5. **Publication sur Hugging Face** :
+       - Création automatique du repository
+       - Upload des images et métadonnées
+       - Structure optimisée pour l'entraînement
+    ### ⚠️ Prérequis
+    1. Une [clé API Gemini](https://makersuite.google.com/app/apikey) pour l'analyse des documents
+    2. Un [token Hugging Face](https://huggingface.co/settings/tokens) avec droits d'écriture pour la publication
     """)
     with gr.Row():
         with gr.Column(scale=1):
             api_key = gr.Textbox(
+                label="🔑 Clé API Google Gemini",
                 type="password",
                 placeholder="Entrez votre clé API Gemini",
                 value=""
             )
             hf_token = gr.Textbox(
+                label="🔑 Token Hugging Face",
                 type="password",
                 placeholder="Entrez votre token Hugging Face",
                 value=""
             )
             dataset_name = gr.Textbox(
+                label="📁 Nom du dataset",
+                placeholder="votre-username/nom-du-dataset",
+                info="Format requis : username/nom-du-dataset (exemple: marsouuu/finance-dataset-fr)"
             )
         with gr.Column(scale=1):
             files = gr.File(
+                label="📄 Documents (PDF, PNG, JPG, JPEG)",
                 file_count="multiple",
                 height=200
             )
+            gr.Markdown("""
+            ### 📊 Statistiques générées :
+            - 80% des images pour l'entraînement
+            - 10% pour la validation
+            - 10% pour les tests
+            - 1 à 5 questions par image
+            - Au moins 1 question négative par image
+            - Détection automatique de la langue
+            """)
+    submit_btn = gr.Button("🚀 Créer le dataset", variant="primary", scale=2)
     output = gr.Textbox(
+        label="📝 Résultat",
         lines=3,
         interactive=False
     )