---
title: Mini-VLM Dataset Builder
emoji: 🎯
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.19.2
app_file: app.py
pinned: false
---

# Mini-VLM Dataset Builder

Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM).

## ⚠️ Important : Clés API requises

Pour utiliser cette application, vous devez avoir :
1. Une clé API Google Gemini (obtenir [ici](https://makersuite.google.com/app/apikey))
2. Un token Hugging Face avec permissions d'écriture (obtenir [ici](https://huggingface.co/settings/tokens))

Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes.

## Fonctionnalités

- 📸 Upload multiple d'images et de PDFs
- 🤖 Analyse automatique avec Gemini
- ❓ Génération de questions/réponses
- 📁 Dataset structuré (train/validation/test)
- ⬆️ Upload sur votre compte Hugging Face

## Utilisation

1. Entrez votre clé API Google Gemini dans le champ dédié
2. Entrez votre token Hugging Face dans le champ dédié
3. Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset)
4. Uploadez vos documents (PDF, PNG, JPG, JPEG)
5. Cliquez sur "Créer le dataset"

## Structure du dataset généré

Le dataset sera créé sur votre compte Hugging Face avec la structure suivante :

```
votre-username/nom-du-dataset/
├── train/
│   ├── images/
│   └── metadata.jsonl
├── validation/
│   ├── images/
│   └── metadata.jsonl
└── test/
    ├── images/
    └── metadata.jsonl
```

## Sécurité

- Les clés API sont utilisées uniquement pendant votre session
- Aucune clé n'est stockée sur le serveur
- Les données sont transmises de manière sécurisée
- Chaque utilisateur utilise ses propres identifiants

## Licence

Apache License 2.0

## 🎨 Interface utilisateur moderne et intuitive

## 📊 Barre de progression en temps réel

## 📦 Installation

1. Clonez le repository :
```bash
git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder
cd mini-vlm-dataset-builder
```

2. Installez les dépendances :
```bash
pip install -r requirements.txt
```

## 🚀 Utilisation

1. Lancez l'application :
```bash
python app.py
```

2. Accédez à l'interface web dans votre navigateur (généralement à l'adresse `http://localhost:7860`)

3. Dans l'interface :
   - Entrez votre clé API Google Gemini
   - Entrez votre token Hugging Face
   - Choisissez un nom pour votre dataset
   - Téléchargez vos images de documents
   - Cliquez sur "Créer le dataset"

## 📁 Structure du dataset

Le dataset créé aura la structure suivante :

```
dataset_name/
├── train/
│   ├── images/
│   │   └── kid-page-{n}.png
│   └── metadata.jsonl
├── validation/
│   ├── images/
│   │   └── kid-page-{n}.png
│   └── metadata.jsonl
└── test/
    ├── images/
    │   └── kid-page-{n}.png
    └── metadata.jsonl
```

Chaque fichier `metadata.jsonl` contient des entrées au format :
```json
{
    "image": "images/kid-page-{n}.png",
    "query": "Question générée",
    "answer": "Réponse générée",
    "langue": "fr",
    "page": 1,
    "file_name": "images/kid-page-{n}.png"
}
```

## 🤝 Contribution

Les contributions sont les bienvenues ! N'hésitez pas à :
- Ouvrir une issue pour signaler un bug
- Proposer une amélioration via une pull request
- Partager vos idées d'amélioration

## 📝 Licence

Ce projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de détails.