martialroberge
Mise à jour pour utilisation avec clés API individuelles
3cb2c3b
---
title: Mini-VLM Dataset Builder
emoji: 🎯
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.19.2
app_file: app.py
pinned: false
---
# Mini-VLM Dataset Builder
Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM).
## ⚠️ Important : Clés API requises
Pour utiliser cette application, vous devez avoir :
1. Une clé API Google Gemini (obtenir [ici](https://makersuite.google.com/app/apikey))
2. Un token Hugging Face avec permissions d'écriture (obtenir [ici](https://huggingface.co/settings/tokens))
Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes.
## Fonctionnalités
- 📸 Upload multiple d'images et de PDFs
- 🤖 Analyse automatique avec Gemini
- ❓ Génération de questions/réponses
- 📁 Dataset structuré (train/validation/test)
- ⬆️ Upload sur votre compte Hugging Face
## Utilisation
1. Entrez votre clé API Google Gemini dans le champ dédié
2. Entrez votre token Hugging Face dans le champ dédié
3. Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset)
4. Uploadez vos documents (PDF, PNG, JPG, JPEG)
5. Cliquez sur "Créer le dataset"
## Structure du dataset généré
Le dataset sera créé sur votre compte Hugging Face avec la structure suivante :
```
votre-username/nom-du-dataset/
├── train/
│ ├── images/
│ └── metadata.jsonl
├── validation/
│ ├── images/
│ └── metadata.jsonl
└── test/
├── images/
└── metadata.jsonl
```
## Sécurité
- Les clés API sont utilisées uniquement pendant votre session
- Aucune clé n'est stockée sur le serveur
- Les données sont transmises de manière sécurisée
- Chaque utilisateur utilise ses propres identifiants
## Licence
Apache License 2.0
## 🎨 Interface utilisateur moderne et intuitive
## 📊 Barre de progression en temps réel
## 📦 Installation
1. Clonez le repository :
```bash
git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder
cd mini-vlm-dataset-builder
```
2. Installez les dépendances :
```bash
pip install -r requirements.txt
```
## 🚀 Utilisation
1. Lancez l'application :
```bash
python app.py
```
2. Accédez à l'interface web dans votre navigateur (généralement à l'adresse `http://localhost:7860`)
3. Dans l'interface :
- Entrez votre clé API Google Gemini
- Entrez votre token Hugging Face
- Choisissez un nom pour votre dataset
- Téléchargez vos images de documents
- Cliquez sur "Créer le dataset"
## 📁 Structure du dataset
Le dataset créé aura la structure suivante :
```
dataset_name/
├── train/
│ ├── images/
│ │ └── kid-page-{n}.png
│ └── metadata.jsonl
├── validation/
│ ├── images/
│ │ └── kid-page-{n}.png
│ └── metadata.jsonl
└── test/
├── images/
│ └── kid-page-{n}.png
└── metadata.jsonl
```
Chaque fichier `metadata.jsonl` contient des entrées au format :
```json
{
"image": "images/kid-page-{n}.png",
"query": "Question générée",
"answer": "Réponse générée",
"langue": "fr",
"page": 1,
"file_name": "images/kid-page-{n}.png"
}
```
## 🤝 Contribution
Les contributions sont les bienvenues ! N'hésitez pas à :
- Ouvrir une issue pour signaler un bug
- Proposer une amélioration via une pull request
- Partager vos idées d'amélioration
## 📝 Licence
Ce projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de détails.