Spaces:

Elixir-AI
/

easy-financial-vlm-dataset-builder

Sleeping

App Files Files Community

easy-financial-vlm-dataset-builder / README.md

martialroberge

Mise à jour pour utilisation avec clés API individuelles

3cb2c3b 3 months ago

preview code

raw

history blame contribute delete

3.7 kB

	---
	title: Mini-VLM Dataset Builder
	emoji: 🎯
	colorFrom: blue
	colorTo: purple
	sdk: gradio
	sdk_version: 4.19.2
	app_file: app.py
	pinned: false
	---

	# Mini-VLM Dataset Builder

	Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM).

	## ⚠️ Important : Clés API requises

	Pour utiliser cette application, vous devez avoir :
	1. Une clé API Google Gemini (obtenir [ici](https://makersuite.google.com/app/apikey))
	2. Un token Hugging Face avec permissions d'écriture (obtenir [ici](https://huggingface.co/settings/tokens))

	Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes.

	## Fonctionnalités

	- 📸 Upload multiple d'images et de PDFs
	- 🤖 Analyse automatique avec Gemini
	- ❓ Génération de questions/réponses
	- 📁 Dataset structuré (train/validation/test)
	- ⬆️ Upload sur votre compte Hugging Face

	## Utilisation

	1. Entrez votre clé API Google Gemini dans le champ dédié
	2. Entrez votre token Hugging Face dans le champ dédié
	3. Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset)
	4. Uploadez vos documents (PDF, PNG, JPG, JPEG)
	5. Cliquez sur "Créer le dataset"

	## Structure du dataset généré

	Le dataset sera créé sur votre compte Hugging Face avec la structure suivante :

	```
	votre-username/nom-du-dataset/
	├── train/
	│ ├── images/
	│ └── metadata.jsonl
	├── validation/
	│ ├── images/
	│ └── metadata.jsonl
	└── test/
	├── images/
	└── metadata.jsonl
	```

	## Sécurité

	- Les clés API sont utilisées uniquement pendant votre session
	- Aucune clé n'est stockée sur le serveur
	- Les données sont transmises de manière sécurisée
	- Chaque utilisateur utilise ses propres identifiants

	## Licence

	Apache License 2.0

	## 🎨 Interface utilisateur moderne et intuitive

	## 📊 Barre de progression en temps réel

	## 📦 Installation

	1. Clonez le repository :
	```bash
	git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder
	cd mini-vlm-dataset-builder
	```

	2. Installez les dépendances :
	```bash
	pip install -r requirements.txt
	```

	## 🚀 Utilisation

	1. Lancez l'application :
	```bash
	python app.py
	```

	2. Accédez à l'interface web dans votre navigateur (généralement à l'adresse `http://localhost:7860`)

	3. Dans l'interface :
	- Entrez votre clé API Google Gemini
	- Entrez votre token Hugging Face
	- Choisissez un nom pour votre dataset
	- Téléchargez vos images de documents
	- Cliquez sur "Créer le dataset"

	## 📁 Structure du dataset

	Le dataset créé aura la structure suivante :

	```
	dataset_name/
	├── train/
	│ ├── images/
	│ │ └── kid-page-{n}.png
	│ └── metadata.jsonl
	├── validation/
	│ ├── images/
	│ │ └── kid-page-{n}.png
	│ └── metadata.jsonl
	└── test/
	├── images/
	│ └── kid-page-{n}.png
	└── metadata.jsonl
	```

	Chaque fichier `metadata.jsonl` contient des entrées au format :
	```json
	{
	"image": "images/kid-page-{n}.png",
	"query": "Question générée",
	"answer": "Réponse générée",
	"langue": "fr",
	"page": 1,
	"file_name": "images/kid-page-{n}.png"
	}
	```

	## 🤝 Contribution

	Les contributions sont les bienvenues ! N'hésitez pas à :
	- Ouvrir une issue pour signaler un bug
	- Proposer une amélioration via une pull request
	- Partager vos idées d'amélioration

	## 📝 Licence

	Ce projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de détails.