2and3_apps_30k_v6

This model is a fine-tuned version of Qwen/Qwen2.5-7B on the 2and3_apps_30k_v6 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1718

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 1e-05
  • train_batch_size: 1
  • eval_batch_size: 1
  • seed: 42
  • distributed_type: multi-GPU
  • num_devices: 4
  • total_train_batch_size: 4
  • total_eval_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • num_epochs: 1

Training results

Training Loss Epoch Step Validation Loss
0.2769 0.0137 100 0.2641
0.2417 0.0274 200 0.2440
0.191 0.0410 300 0.2346
0.2466 0.0547 400 0.2327
0.2261 0.0684 500 0.2279
0.2394 0.0821 600 0.2231
0.228 0.0958 700 0.2237
0.1909 0.1094 800 0.2225
0.2277 0.1231 900 0.2201
0.2108 0.1368 1000 0.2182
0.1904 0.1505 1100 0.2172
0.2012 0.1642 1200 0.2130
0.2042 0.1778 1300 0.2143
0.2516 0.1915 1400 0.2161
0.2591 0.2052 1500 0.2122
0.2037 0.2189 1600 0.2097
0.2319 0.2326 1700 0.2108
0.2162 0.2462 1800 0.2093
0.2157 0.2599 1900 0.2022
0.2117 0.2736 2000 0.2046
0.2004 0.2873 2100 0.2018
0.2174 0.3010 2200 0.2039
0.2266 0.3146 2300 0.2030
0.2164 0.3283 2400 0.2006
0.211 0.3420 2500 0.1958
0.2614 0.3557 2600 0.1964
0.193 0.3694 2700 0.1935
0.1974 0.3830 2800 0.1949
0.206 0.3967 2900 0.1953
0.2133 0.4104 3000 0.1925
0.2151 0.4241 3100 0.1928
0.1837 0.4378 3200 0.1912
0.1663 0.4514 3300 0.1882
0.2099 0.4651 3400 0.1903
0.2328 0.4788 3500 0.1898
0.1812 0.4925 3600 0.1867
0.1645 0.5062 3700 0.1866
0.2001 0.5198 3800 0.1859
0.1751 0.5335 3900 0.1841
0.1873 0.5472 4000 0.1833
0.1578 0.5609 4100 0.1833
0.1765 0.5746 4200 0.1814
0.2 0.5882 4300 0.1819
0.1796 0.6019 4400 0.1820
0.1925 0.6156 4500 0.1808
0.183 0.6293 4600 0.1786
0.2281 0.6430 4700 0.1792
0.1815 0.6566 4800 0.1780
0.2287 0.6703 4900 0.1781
0.1469 0.6840 5000 0.1774
0.19 0.6977 5100 0.1769
0.2257 0.7114 5200 0.1765
0.2059 0.7250 5300 0.1757
0.1917 0.7387 5400 0.1759
0.1715 0.7524 5500 0.1753
0.173 0.7661 5600 0.1738
0.1404 0.7798 5700 0.1741
0.1819 0.7934 5800 0.1735
0.144 0.8071 5900 0.1731
0.1597 0.8208 6000 0.1729
0.2092 0.8345 6100 0.1731
0.1837 0.8482 6200 0.1726
0.1839 0.8618 6300 0.1723
0.1997 0.8755 6400 0.1725
0.1485 0.8892 6500 0.1723
0.1837 0.9029 6600 0.1721
0.1809 0.9166 6700 0.1720
0.1512 0.9302 6800 0.1720
0.1755 0.9439 6900 0.1721
0.183 0.9576 7000 0.1720
0.1727 0.9713 7100 0.1719
0.1811 0.9850 7200 0.1718
0.2091 0.9986 7300 0.1718

Framework versions

  • Transformers 4.46.1
  • Pytorch 2.4.0+cu121
  • Datasets 3.1.0
  • Tokenizers 0.20.3
Downloads last month
2
Safetensors
Model size
8B params
Tensor type
BF16
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for cutelemonlili/Qwen-7B-2and3_apps_30k_v6

Base model

Qwen/Qwen2.5-7B
Finetuned
(749)
this model