|
--- |
|
title: Mini-VLM Dataset Builder |
|
emoji: 🎯 |
|
colorFrom: blue |
|
colorTo: purple |
|
sdk: gradio |
|
sdk_version: 4.19.2 |
|
app_file: app.py |
|
pinned: false |
|
--- |
|
|
|
# Mini-VLM Dataset Builder |
|
|
|
Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM). |
|
|
|
## ⚠️ Important : Clés API requises |
|
|
|
Pour utiliser cette application, vous devez avoir : |
|
1. Une clé API Google Gemini (obtenir [ici](https://makersuite.google.com/app/apikey)) |
|
2. Un token Hugging Face avec permissions d'écriture (obtenir [ici](https://huggingface.co/settings/tokens)) |
|
|
|
Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes. |
|
|
|
## Fonctionnalités |
|
|
|
- 📸 Upload multiple d'images et de PDFs |
|
- 🤖 Analyse automatique avec Gemini |
|
- ❓ Génération de questions/réponses |
|
- 📁 Dataset structuré (train/validation/test) |
|
- ⬆️ Upload sur votre compte Hugging Face |
|
|
|
## Utilisation |
|
|
|
1. Entrez votre clé API Google Gemini dans le champ dédié |
|
2. Entrez votre token Hugging Face dans le champ dédié |
|
3. Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset) |
|
4. Uploadez vos documents (PDF, PNG, JPG, JPEG) |
|
5. Cliquez sur "Créer le dataset" |
|
|
|
## Structure du dataset généré |
|
|
|
Le dataset sera créé sur votre compte Hugging Face avec la structure suivante : |
|
|
|
``` |
|
votre-username/nom-du-dataset/ |
|
├── train/ |
|
│ ├── images/ |
|
│ └── metadata.jsonl |
|
├── validation/ |
|
│ ├── images/ |
|
│ └── metadata.jsonl |
|
└── test/ |
|
├── images/ |
|
└── metadata.jsonl |
|
``` |
|
|
|
## Sécurité |
|
|
|
- Les clés API sont utilisées uniquement pendant votre session |
|
- Aucune clé n'est stockée sur le serveur |
|
- Les données sont transmises de manière sécurisée |
|
- Chaque utilisateur utilise ses propres identifiants |
|
|
|
## Licence |
|
|
|
Apache License 2.0 |
|
|
|
## 🎨 Interface utilisateur moderne et intuitive |
|
|
|
## 📊 Barre de progression en temps réel |
|
|
|
## 📦 Installation |
|
|
|
1. Clonez le repository : |
|
```bash |
|
git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder |
|
cd mini-vlm-dataset-builder |
|
``` |
|
|
|
2. Installez les dépendances : |
|
```bash |
|
pip install -r requirements.txt |
|
``` |
|
|
|
## 🚀 Utilisation |
|
|
|
1. Lancez l'application : |
|
```bash |
|
python app.py |
|
``` |
|
|
|
2. Accédez à l'interface web dans votre navigateur (généralement à l'adresse `http://localhost:7860`) |
|
|
|
3. Dans l'interface : |
|
- Entrez votre clé API Google Gemini |
|
- Entrez votre token Hugging Face |
|
- Choisissez un nom pour votre dataset |
|
- Téléchargez vos images de documents |
|
- Cliquez sur "Créer le dataset" |
|
|
|
## 📁 Structure du dataset |
|
|
|
Le dataset créé aura la structure suivante : |
|
|
|
``` |
|
dataset_name/ |
|
├── train/ |
|
│ ├── images/ |
|
│ │ └── kid-page-{n}.png |
|
│ └── metadata.jsonl |
|
├── validation/ |
|
│ ├── images/ |
|
│ │ └── kid-page-{n}.png |
|
│ └── metadata.jsonl |
|
└── test/ |
|
├── images/ |
|
│ └── kid-page-{n}.png |
|
└── metadata.jsonl |
|
``` |
|
|
|
Chaque fichier `metadata.jsonl` contient des entrées au format : |
|
```json |
|
{ |
|
"image": "images/kid-page-{n}.png", |
|
"query": "Question générée", |
|
"answer": "Réponse générée", |
|
"langue": "fr", |
|
"page": 1, |
|
"file_name": "images/kid-page-{n}.png" |
|
} |
|
``` |
|
|
|
## 🤝 Contribution |
|
|
|
Les contributions sont les bienvenues ! N'hésitez pas à : |
|
- Ouvrir une issue pour signaler un bug |
|
- Proposer une amélioration via une pull request |
|
- Partager vos idées d'amélioration |
|
|
|
## 📝 Licence |
|
|
|
Ce projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de détails. |