somosnlp-hackathon-2025
/

mistral-7b-gastronomia-hispana-dpo

Text Generation

text-generation-inference

Model card Files Files and versions

pabloce commited on Jun 3

Commit

2e75c72

·

verified ·

1 Parent(s): 6b0e298

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -45,8 +45,8 @@ datasets:
 | **Dataset** | `somosnlp-hackathon-2025/gastronomia-hispana-dpo` |
 | **LoRA Rank** | 64 |
 | **LoRA Alpha** | 64 |
-| **Épocas** | 3 |
-| **Learning Rate** | 1e-6 |
 | **Batch Size** | 4 (con gradient accumulation = 8) |
 | **Secuencia Máxima** | 2,500 tokens |
 | **Template de Chat** | ChatML |
@@ -182,7 +182,7 @@ El modelo ha sido optimizado mediante DPO para generar respuestas que:
 - **Dataset**: Especializado en gastronomía hispana con pares de preferencias
 - **Tamaño**: 7,092 ejemplos de entrenamiento
-- **Método**: Direct Preference Optimization (DPO) con β=0.1
 - **Validación**: Split 95%/5% para entrenamiento/validación
 - **Hardware**: NVIDIA L40S (44.4GB VRAM)

 | **Dataset** | `somosnlp-hackathon-2025/gastronomia-hispana-dpo` |
 | **LoRA Rank** | 64 |
 | **LoRA Alpha** | 64 |
+| **Épocas** | 1 |
+| **Learning Rate** | 2e-7 |
 | **Batch Size** | 4 (con gradient accumulation = 8) |
 | **Secuencia Máxima** | 2,500 tokens |
 | **Template de Chat** | ChatML |
 - **Dataset**: Especializado en gastronomía hispana con pares de preferencias
 - **Tamaño**: 7,092 ejemplos de entrenamiento
+- **Método**: Direct Preference Optimization (DPO) con β=0.8
 - **Validación**: Split 95%/5% para entrenamiento/validación
 - **Hardware**: NVIDIA L40S (44.4GB VRAM)