train_mrpc_1744902642

This model is a fine-tuned version of google/gemma-3-1b-it on the mrpc dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1207
  • Num Input Tokens Seen: 68544800

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.4056 0.9685 200 0.3008 342592
0.1848 1.9395 400 0.1800 685504
0.1562 2.9104 600 0.1656 1027680
0.1436 3.8814 800 0.1552 1371040
0.1833 4.8523 1000 0.1488 1713440
0.1358 5.8232 1200 0.1509 2056384
0.1514 6.7942 1400 0.1456 2400544
0.1143 7.7651 1600 0.1420 2741344
0.1293 8.7361 1800 0.1393 3083872
0.1703 9.7070 2000 0.1439 3425696
0.1385 10.6780 2200 0.1381 3769888
0.142 11.6489 2400 0.1370 4110336
0.1321 12.6199 2600 0.1357 4453600
0.121 13.5908 2800 0.1356 4796192
0.1476 14.5617 3000 0.1354 5138720
0.1422 15.5327 3200 0.1365 5480512
0.1113 16.5036 3400 0.1340 5822816
0.1423 17.4746 3600 0.1346 6165056
0.1381 18.4455 3800 0.1325 6507264
0.1132 19.4165 4000 0.1319 6849792
0.1327 20.3874 4200 0.1376 7192864
0.1329 21.3584 4400 0.1297 7534272
0.1378 22.3293 4600 0.1354 7877248
0.1202 23.3002 4800 0.1328 8220544
0.1239 24.2712 5000 0.1280 8562144
0.1184 25.2421 5200 0.1273 8905568
0.1179 26.2131 5400 0.1394 9248640
0.1244 27.1840 5600 0.1279 9592608
0.0975 28.1550 5800 0.1306 9933568
0.1339 29.1259 6000 0.1258 10277088
0.105 30.0969 6200 0.1385 10619488
0.1177 31.0678 6400 0.1239 10962112
0.0998 32.0387 6600 0.1287 11306080
0.164 33.0097 6800 0.1256 11649024
0.1316 33.9782 7000 0.1302 11992032
0.1155 34.9492 7200 0.1260 12334784
0.1429 35.9201 7400 0.1297 12677888
0.0814 36.8910 7600 0.1246 13020640
0.1411 37.8620 7800 0.1276 13363648
0.1252 38.8329 8000 0.1249 13706752
0.1082 39.8039 8200 0.1302 14048256
0.1274 40.7748 8400 0.1249 14392064
0.1065 41.7458 8600 0.1246 14733504
0.1198 42.7167 8800 0.1248 15076736
0.1398 43.6877 9000 0.1237 15418176
0.1192 44.6586 9200 0.1313 15762912
0.0976 45.6295 9400 0.1245 16105760
0.1305 46.6005 9600 0.1213 16448096
0.0933 47.5714 9800 0.1278 16790336
0.0932 48.5424 10000 0.1264 17132896
0.1225 49.5133 10200 0.1246 17477376
0.1043 50.4843 10400 0.1221 17817792
0.1161 51.4552 10600 0.1219 18160384
0.1284 52.4262 10800 0.1221 18502784
0.1002 53.3971 11000 0.1222 18845184
0.1067 54.3680 11200 0.1230 19187296
0.0992 55.3390 11400 0.1224 19529792
0.1048 56.3099 11600 0.1233 19873728
0.1164 57.2809 11800 0.1302 20215680
0.0746 58.2518 12000 0.1219 20558624
0.1142 59.2228 12200 0.1237 20901984
0.1172 60.1937 12400 0.1208 21244800
0.1339 61.1646 12600 0.1256 21588704
0.1044 62.1356 12800 0.1251 21931872
0.1076 63.1065 13000 0.1255 22274560
0.1079 64.0775 13200 0.1259 22618432
0.0865 65.0484 13400 0.1213 22961216
0.1344 66.0194 13600 0.1240 23304288
0.0954 66.9879 13800 0.1233 23646592
0.1178 67.9588 14000 0.1213 23989408
0.1126 68.9298 14200 0.1248 24332544
0.1225 69.9007 14400 0.1266 24675424
0.1219 70.8717 14600 0.1242 25017632
0.104 71.8426 14800 0.1234 25360352
0.119 72.8136 15000 0.1233 25701344
0.0915 73.7845 15200 0.1255 26046016
0.1078 74.7554 15400 0.1251 26388448
0.1094 75.7264 15600 0.1223 26729856
0.0836 76.6973 15800 0.1281 27072064
0.0737 77.6683 16000 0.1216 27415968
0.0996 78.6392 16200 0.1240 27759520
0.0971 79.6102 16400 0.1218 28101632
0.1068 80.5811 16600 0.1209 28446208
0.1143 81.5521 16800 0.1263 28787840
0.0955 82.5230 17000 0.1207 29129536
0.0705 83.4939 17200 0.1227 29473344
0.0781 84.4649 17400 0.1220 29815360
0.0781 85.4358 17600 0.1278 30157632
0.0938 86.4068 17800 0.1240 30501440
0.0599 87.3777 18000 0.1218 30843072
0.09 88.3487 18200 0.1321 31187360
0.09 89.3196 18400 0.1255 31528480
0.1267 90.2906 18600 0.1331 31872544
0.087 91.2615 18800 0.1244 32214560
0.0711 92.2324 19000 0.1243 32558112
0.0816 93.2034 19200 0.1246 32900448
0.0966 94.1743 19400 0.1256 33244800
0.0794 95.1453 19600 0.1329 33587168
0.1132 96.1162 19800 0.1289 33929248
0.0925 97.0872 20000 0.1278 34271648
0.0827 98.0581 20200 0.1305 34613344
0.0946 99.0291 20400 0.1283 34957056
0.0577 99.9976 20600 0.1285 35299200
0.0658 100.9685 20800 0.1333 35642464
0.1586 101.9395 21000 0.1272 35985280
0.0966 102.9104 21200 0.1280 36327840
0.0956 103.8814 21400 0.1302 36669664
0.0907 104.8523 21600 0.1281 37012960
0.0901 105.8232 21800 0.1301 37355968
0.0651 106.7942 22000 0.1338 37698112
0.1181 107.7651 22200 0.1291 38040768
0.0708 108.7361 22400 0.1332 38383744
0.0947 109.7070 22600 0.1311 38726880
0.0856 110.6780 22800 0.1378 39068512
0.0972 111.6489 23000 0.1316 39411712
0.1089 112.6199 23200 0.1364 39754784
0.0843 113.5908 23400 0.1318 40097568
0.0752 114.5617 23600 0.1284 40441152
0.1039 115.5327 23800 0.1301 40784672
0.1227 116.5036 24000 0.1299 41127232
0.0871 117.4746 24200 0.1309 41468768
0.0936 118.4455 24400 0.1326 41811328
0.0826 119.4165 24600 0.1317 42154688
0.093 120.3874 24800 0.1323 42497024
0.0875 121.3584 25000 0.1341 42838112
0.0909 122.3293 25200 0.1299 43181600
0.0631 123.3002 25400 0.1361 43524256
0.0791 124.2712 25600 0.1291 43867840
0.1008 125.2421 25800 0.1331 44207680
0.1234 126.2131 26000 0.1318 44551232
0.0854 127.1840 26200 0.1331 44894816
0.0865 128.1550 26400 0.1371 45236928
0.0711 129.1259 26600 0.1325 45579584
0.0617 130.0969 26800 0.1377 45923328
0.0661 131.0678 27000 0.1359 46264032
0.1072 132.0387 27200 0.1381 46607776
0.103 133.0097 27400 0.1320 46950752
0.1007 133.9782 27600 0.1375 47293824
0.0924 134.9492 27800 0.1332 47637248
0.0651 135.9201 28000 0.1346 47979552
0.1036 136.8910 28200 0.1364 48322528
0.0694 137.8620 28400 0.1341 48663488
0.0648 138.8329 28600 0.1317 49008000
0.0834 139.8039 28800 0.1337 49350304
0.0842 140.7748 29000 0.1396 49694528
0.0681 141.7458 29200 0.1332 50035616
0.0786 142.7167 29400 0.1367 50378912
0.0724 143.6877 29600 0.1325 50722400
0.0934 144.6586 29800 0.1333 51064768
0.1083 145.6295 30000 0.1334 51407840
0.0612 146.6005 30200 0.1372 51749792
0.1027 147.5714 30400 0.1362 52094304
0.0895 148.5424 30600 0.1375 52436000
0.0681 149.5133 30800 0.1353 52777984
0.0927 150.4843 31000 0.1360 53119904
0.0683 151.4552 31200 0.1349 53462560
0.0804 152.4262 31400 0.1340 53806272
0.0874 153.3971 31600 0.1346 54148640
0.0968 154.3680 31800 0.1335 54489984
0.0849 155.3390 32000 0.1371 54832032
0.0766 156.3099 32200 0.1369 55173664
0.0613 157.2809 32400 0.1381 55517376
0.0976 158.2518 32600 0.1433 55861088
0.0855 159.2228 32800 0.1354 56203392
0.0886 160.1937 33000 0.1375 56545632
0.0613 161.1646 33200 0.1362 56888352
0.0754 162.1356 33400 0.1395 57231584
0.0524 163.1065 33600 0.1364 57574112
0.0801 164.0775 33800 0.1352 57917728
0.0838 165.0484 34000 0.1398 58261184
0.0938 166.0194 34200 0.1410 58604352
0.0746 166.9879 34400 0.1370 58946112
0.0904 167.9588 34600 0.1359 59289344
0.0666 168.9298 34800 0.1345 59631584
0.0651 169.9007 35000 0.1402 59974880
0.089 170.8717 35200 0.1400 60318560
0.1112 171.8426 35400 0.1336 60662016
0.0487 172.8136 35600 0.1364 61004352
0.0908 173.7845 35800 0.1393 61347296
0.052 174.7554 36000 0.1397 61689824
0.073 175.7264 36200 0.1397 62033792
0.0799 176.6973 36400 0.1412 62376224
0.089 177.6683 36600 0.1378 62720096
0.065 178.6392 36800 0.1351 63062656
0.0633 179.6102 37000 0.1368 63405504
0.0958 180.5811 37200 0.1380 63748768
0.0625 181.5521 37400 0.1379 64092416
0.0688 182.5230 37600 0.1377 64436992
0.0564 183.4939 37800 0.1366 64777984
0.094 184.4649 38000 0.1387 65120224
0.063 185.4358 38200 0.1378 65462240
0.0582 186.4068 38400 0.1390 65805504
0.0598 187.3777 38600 0.1383 66148448
0.0557 188.3487 38800 0.1406 66490240
0.0998 189.3196 39000 0.1377 66832256
0.0808 190.2906 39200 0.1412 67174336
0.0612 191.2615 39400 0.1403 67517920
0.0611 192.2324 39600 0.1403 67860384
0.0797 193.2034 39800 0.1403 68203104
0.1037 194.1743 40000 0.1403 68544800

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
5
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mrpc_1744902642

Adapter
(152)
this model

Evaluation results