--- title: Mini-VLM Dataset Builder emoji: 🎯 colorFrom: blue colorTo: purple sdk: gradio sdk_version: 4.19.2 app_file: app.py pinned: false --- # Mini-VLM Dataset Builder Cette application permet de crĂ©er facilement des datasets de questions/rĂ©ponses pour l'entraĂźnement de modĂšles Vision-Langage (VLM). ## ⚠ Important : ClĂ©s API requises Pour utiliser cette application, vous devez avoir : 1. Une clĂ© API Google Gemini (obtenir [ici](https://makersuite.google.com/app/apikey)) 2. Un token Hugging Face avec permissions d'Ă©criture (obtenir [ici](https://huggingface.co/settings/tokens)) Ces clĂ©s sont Ă  entrer directement dans l'interface de l'application. Elles ne sont jamais stockĂ©es et sont uniquement utilisĂ©es pour vos propres requĂȘtes. ## FonctionnalitĂ©s - 📾 Upload multiple d'images et de PDFs - đŸ€– Analyse automatique avec Gemini - ❓ GĂ©nĂ©ration de questions/rĂ©ponses - 📁 Dataset structurĂ© (train/validation/test) - âŹ†ïž Upload sur votre compte Hugging Face ## Utilisation 1. Entrez votre clĂ© API Google Gemini dans le champ dĂ©diĂ© 2. Entrez votre token Hugging Face dans le champ dĂ©diĂ© 3. SpĂ©cifiez le nom de votre dataset (format: votre-username/nom-du-dataset) 4. Uploadez vos documents (PDF, PNG, JPG, JPEG) 5. Cliquez sur "CrĂ©er le dataset" ## Structure du dataset gĂ©nĂ©rĂ© Le dataset sera créé sur votre compte Hugging Face avec la structure suivante : ``` votre-username/nom-du-dataset/ ├── train/ │ ├── images/ │ └── metadata.jsonl ├── validation/ │ ├── images/ │ └── metadata.jsonl └── test/ ├── images/ └── metadata.jsonl ``` ## SĂ©curitĂ© - Les clĂ©s API sont utilisĂ©es uniquement pendant votre session - Aucune clĂ© n'est stockĂ©e sur le serveur - Les donnĂ©es sont transmises de maniĂšre sĂ©curisĂ©e - Chaque utilisateur utilise ses propres identifiants ## Licence Apache License 2.0 ## 🎹 Interface utilisateur moderne et intuitive ## 📊 Barre de progression en temps rĂ©el ## 📩 Installation 1. Clonez le repository : ```bash git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder cd mini-vlm-dataset-builder ``` 2. Installez les dĂ©pendances : ```bash pip install -r requirements.txt ``` ## 🚀 Utilisation 1. Lancez l'application : ```bash python app.py ``` 2. AccĂ©dez Ă  l'interface web dans votre navigateur (gĂ©nĂ©ralement Ă  l'adresse `http://localhost:7860`) 3. Dans l'interface : - Entrez votre clĂ© API Google Gemini - Entrez votre token Hugging Face - Choisissez un nom pour votre dataset - TĂ©lĂ©chargez vos images de documents - Cliquez sur "CrĂ©er le dataset" ## 📁 Structure du dataset Le dataset créé aura la structure suivante : ``` dataset_name/ ├── train/ │ ├── images/ │ │ └── kid-page-{n}.png │ └── metadata.jsonl ├── validation/ │ ├── images/ │ │ └── kid-page-{n}.png │ └── metadata.jsonl └── test/ ├── images/ │ └── kid-page-{n}.png └── metadata.jsonl ``` Chaque fichier `metadata.jsonl` contient des entrĂ©es au format : ```json { "image": "images/kid-page-{n}.png", "query": "Question gĂ©nĂ©rĂ©e", "answer": "RĂ©ponse gĂ©nĂ©rĂ©e", "langue": "fr", "page": 1, "file_name": "images/kid-page-{n}.png" } ``` ## đŸ€ Contribution Les contributions sont les bienvenues ! N'hĂ©sitez pas Ă  : - Ouvrir une issue pour signaler un bug - Proposer une amĂ©lioration via une pull request - Partager vos idĂ©es d'amĂ©lioration ## 📝 Licence Ce projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de dĂ©tails.