pabloce commited on
Commit
2e75c72
verified
1 Parent(s): 6b0e298

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -3
README.md CHANGED
@@ -45,8 +45,8 @@ datasets:
45
  | **Dataset** | `somosnlp-hackathon-2025/gastronomia-hispana-dpo` |
46
  | **LoRA Rank** | 64 |
47
  | **LoRA Alpha** | 64 |
48
- | **脡pocas** | 3 |
49
- | **Learning Rate** | 1e-6 |
50
  | **Batch Size** | 4 (con gradient accumulation = 8) |
51
  | **Secuencia M谩xima** | 2,500 tokens |
52
  | **Template de Chat** | ChatML |
@@ -182,7 +182,7 @@ El modelo ha sido optimizado mediante DPO para generar respuestas que:
182
 
183
  - **Dataset**: Especializado en gastronom铆a hispana con pares de preferencias
184
  - **Tama帽o**: 7,092 ejemplos de entrenamiento
185
- - **M茅todo**: Direct Preference Optimization (DPO) con 尾=0.1
186
  - **Validaci贸n**: Split 95%/5% para entrenamiento/validaci贸n
187
  - **Hardware**: NVIDIA L40S (44.4GB VRAM)
188
 
 
45
  | **Dataset** | `somosnlp-hackathon-2025/gastronomia-hispana-dpo` |
46
  | **LoRA Rank** | 64 |
47
  | **LoRA Alpha** | 64 |
48
+ | **脡pocas** | 1 |
49
+ | **Learning Rate** | 2e-7 |
50
  | **Batch Size** | 4 (con gradient accumulation = 8) |
51
  | **Secuencia M谩xima** | 2,500 tokens |
52
  | **Template de Chat** | ChatML |
 
182
 
183
  - **Dataset**: Especializado en gastronom铆a hispana con pares de preferencias
184
  - **Tama帽o**: 7,092 ejemplos de entrenamiento
185
+ - **M茅todo**: Direct Preference Optimization (DPO) con 尾=0.8
186
  - **Validaci贸n**: Split 95%/5% para entrenamiento/validaci贸n
187
  - **Hardware**: NVIDIA L40S (44.4GB VRAM)
188