Update README.md
Browse files
README.md
CHANGED
|
@@ -45,8 +45,8 @@ datasets:
|
|
| 45 |
| **Dataset** | `somosnlp-hackathon-2025/gastronomia-hispana-dpo` |
|
| 46 |
| **LoRA Rank** | 64 |
|
| 47 |
| **LoRA Alpha** | 64 |
|
| 48 |
-
| **脡pocas** |
|
| 49 |
-
| **Learning Rate** |
|
| 50 |
| **Batch Size** | 4 (con gradient accumulation = 8) |
|
| 51 |
| **Secuencia M谩xima** | 2,500 tokens |
|
| 52 |
| **Template de Chat** | ChatML |
|
|
@@ -182,7 +182,7 @@ El modelo ha sido optimizado mediante DPO para generar respuestas que:
|
|
| 182 |
|
| 183 |
- **Dataset**: Especializado en gastronom铆a hispana con pares de preferencias
|
| 184 |
- **Tama帽o**: 7,092 ejemplos de entrenamiento
|
| 185 |
-
- **M茅todo**: Direct Preference Optimization (DPO) con 尾=0.
|
| 186 |
- **Validaci贸n**: Split 95%/5% para entrenamiento/validaci贸n
|
| 187 |
- **Hardware**: NVIDIA L40S (44.4GB VRAM)
|
| 188 |
|
|
|
|
| 45 |
| **Dataset** | `somosnlp-hackathon-2025/gastronomia-hispana-dpo` |
|
| 46 |
| **LoRA Rank** | 64 |
|
| 47 |
| **LoRA Alpha** | 64 |
|
| 48 |
+
| **脡pocas** | 1 |
|
| 49 |
+
| **Learning Rate** | 2e-7 |
|
| 50 |
| **Batch Size** | 4 (con gradient accumulation = 8) |
|
| 51 |
| **Secuencia M谩xima** | 2,500 tokens |
|
| 52 |
| **Template de Chat** | ChatML |
|
|
|
|
| 182 |
|
| 183 |
- **Dataset**: Especializado en gastronom铆a hispana con pares de preferencias
|
| 184 |
- **Tama帽o**: 7,092 ejemplos de entrenamiento
|
| 185 |
+
- **M茅todo**: Direct Preference Optimization (DPO) con 尾=0.8
|
| 186 |
- **Validaci贸n**: Split 95%/5% para entrenamiento/validaci贸n
|
| 187 |
- **Hardware**: NVIDIA L40S (44.4GB VRAM)
|
| 188 |
|