|
{ |
|
"best_global_step": null, |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 1.2404149751917004, |
|
"eval_steps": 500, |
|
"global_step": 5500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0022552999548940008, |
|
"grad_norm": 3.71875, |
|
"learning_rate": 1.9970000000000004e-05, |
|
"loss": 1.2486, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.0045105999097880016, |
|
"grad_norm": 2.9375, |
|
"learning_rate": 1.993666666666667e-05, |
|
"loss": 0.9533, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.006765899864682003, |
|
"grad_norm": 2.71875, |
|
"learning_rate": 1.9903333333333333e-05, |
|
"loss": 0.8758, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.009021199819576003, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 1.987e-05, |
|
"loss": 0.8479, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.011276499774470004, |
|
"grad_norm": 2.5625, |
|
"learning_rate": 1.983666666666667e-05, |
|
"loss": 0.8127, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.013531799729364006, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.9803333333333334e-05, |
|
"loss": 0.812, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.015787099684258007, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 1.9770000000000002e-05, |
|
"loss": 0.7799, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.018042399639152006, |
|
"grad_norm": 2.796875, |
|
"learning_rate": 1.9736666666666667e-05, |
|
"loss": 0.8005, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.02029769959404601, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 1.9703333333333335e-05, |
|
"loss": 0.7766, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.02255299954894001, |
|
"grad_norm": 2.578125, |
|
"learning_rate": 1.9670000000000003e-05, |
|
"loss": 0.7611, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.02480829950383401, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.9636666666666668e-05, |
|
"loss": 0.7492, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.02706359945872801, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 1.9603333333333333e-05, |
|
"loss": 0.7518, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.02931889941362201, |
|
"grad_norm": 2.296875, |
|
"learning_rate": 1.957e-05, |
|
"loss": 0.7677, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 0.031574199368516014, |
|
"grad_norm": 2.609375, |
|
"learning_rate": 1.953666666666667e-05, |
|
"loss": 0.7275, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.03382949932341001, |
|
"grad_norm": 2.65625, |
|
"learning_rate": 1.9503333333333334e-05, |
|
"loss": 0.7348, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.03608479927830401, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 1.947e-05, |
|
"loss": 0.7438, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.03834009923319801, |
|
"grad_norm": 2.203125, |
|
"learning_rate": 1.943666666666667e-05, |
|
"loss": 0.7227, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 0.04059539918809202, |
|
"grad_norm": 2.453125, |
|
"learning_rate": 1.9403333333333334e-05, |
|
"loss": 0.7117, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.04285069914298602, |
|
"grad_norm": 2.1875, |
|
"learning_rate": 1.9370000000000003e-05, |
|
"loss": 0.7232, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 0.04510599909788002, |
|
"grad_norm": 2.25, |
|
"learning_rate": 1.9336666666666667e-05, |
|
"loss": 0.7289, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.04736129905277402, |
|
"grad_norm": 2.265625, |
|
"learning_rate": 1.9303333333333335e-05, |
|
"loss": 0.6979, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 0.04961659900766802, |
|
"grad_norm": 2.25, |
|
"learning_rate": 1.9270000000000004e-05, |
|
"loss": 0.6891, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.05187189896256202, |
|
"grad_norm": 2.1875, |
|
"learning_rate": 1.9236666666666668e-05, |
|
"loss": 0.7168, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 0.05412719891745602, |
|
"grad_norm": 2.578125, |
|
"learning_rate": 1.9203333333333333e-05, |
|
"loss": 0.6879, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.05638249887235002, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 1.917e-05, |
|
"loss": 0.6775, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.05863779882724402, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 1.913666666666667e-05, |
|
"loss": 0.6832, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.06089309878213803, |
|
"grad_norm": 2.203125, |
|
"learning_rate": 1.9103333333333337e-05, |
|
"loss": 0.6553, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 0.06314839873703203, |
|
"grad_norm": 2.265625, |
|
"learning_rate": 1.9070000000000002e-05, |
|
"loss": 0.6733, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.06540369869192603, |
|
"grad_norm": 2.1875, |
|
"learning_rate": 1.9036666666666667e-05, |
|
"loss": 0.6811, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 0.06765899864682003, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 1.9003333333333335e-05, |
|
"loss": 0.668, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.06991429860171403, |
|
"grad_norm": 2.265625, |
|
"learning_rate": 1.8970000000000003e-05, |
|
"loss": 0.6659, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 0.07216959855660803, |
|
"grad_norm": 2.328125, |
|
"learning_rate": 1.8936666666666668e-05, |
|
"loss": 0.6776, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 0.07442489851150202, |
|
"grad_norm": 2.5625, |
|
"learning_rate": 1.8903333333333336e-05, |
|
"loss": 0.6605, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 0.07668019846639602, |
|
"grad_norm": 2.265625, |
|
"learning_rate": 1.887e-05, |
|
"loss": 0.6537, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 0.07893549842129004, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 1.883666666666667e-05, |
|
"loss": 0.6474, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.08119079837618404, |
|
"grad_norm": 2.390625, |
|
"learning_rate": 1.8803333333333337e-05, |
|
"loss": 0.6272, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 0.08344609833107804, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 1.877e-05, |
|
"loss": 0.6406, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 0.08570139828597204, |
|
"grad_norm": 2.296875, |
|
"learning_rate": 1.8736666666666666e-05, |
|
"loss": 0.6386, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 0.08795669824086604, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 1.8703333333333334e-05, |
|
"loss": 0.621, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 0.09021199819576003, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 1.8670000000000003e-05, |
|
"loss": 0.6657, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.09246729815065403, |
|
"grad_norm": 2.953125, |
|
"learning_rate": 1.8636666666666667e-05, |
|
"loss": 0.6331, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 0.09472259810554803, |
|
"grad_norm": 2.75, |
|
"learning_rate": 1.8603333333333335e-05, |
|
"loss": 0.6434, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 0.09697789806044203, |
|
"grad_norm": 2.328125, |
|
"learning_rate": 1.857e-05, |
|
"loss": 0.6152, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 0.09923319801533605, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 1.8536666666666668e-05, |
|
"loss": 0.6462, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 0.10148849797023005, |
|
"grad_norm": 2.8125, |
|
"learning_rate": 1.8503333333333336e-05, |
|
"loss": 0.5954, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.10374379792512405, |
|
"grad_norm": 2.140625, |
|
"learning_rate": 1.847e-05, |
|
"loss": 0.6304, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 0.10599909788001805, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 1.8436666666666666e-05, |
|
"loss": 0.6318, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 0.10825439783491204, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.8403333333333334e-05, |
|
"loss": 0.626, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 0.11050969778980604, |
|
"grad_norm": 2.53125, |
|
"learning_rate": 1.8370000000000002e-05, |
|
"loss": 0.6112, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 0.11276499774470004, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 1.8336666666666667e-05, |
|
"loss": 0.6057, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.11502029769959404, |
|
"grad_norm": 2.59375, |
|
"learning_rate": 1.8303333333333335e-05, |
|
"loss": 0.5819, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 0.11727559765448804, |
|
"grad_norm": 2.65625, |
|
"learning_rate": 1.827e-05, |
|
"loss": 0.6126, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 0.11953089760938204, |
|
"grad_norm": 2.34375, |
|
"learning_rate": 1.8236666666666668e-05, |
|
"loss": 0.6287, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 0.12178619756427606, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 1.8203333333333336e-05, |
|
"loss": 0.586, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 0.12404149751917005, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 1.817e-05, |
|
"loss": 0.6016, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.12629679747406405, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 1.813666666666667e-05, |
|
"loss": 0.582, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 0.12855209742895804, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.8103333333333333e-05, |
|
"loss": 0.5885, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 0.13080739738385205, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 1.807e-05, |
|
"loss": 0.584, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 0.13306269733874607, |
|
"grad_norm": 2.484375, |
|
"learning_rate": 1.803666666666667e-05, |
|
"loss": 0.5487, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 0.13531799729364005, |
|
"grad_norm": 2.5, |
|
"learning_rate": 1.8003333333333334e-05, |
|
"loss": 0.5923, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.13757329724853407, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.7970000000000002e-05, |
|
"loss": 0.5666, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 0.13982859720342805, |
|
"grad_norm": 3.09375, |
|
"learning_rate": 1.793666666666667e-05, |
|
"loss": 0.5466, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 0.14208389715832206, |
|
"grad_norm": 2.5, |
|
"learning_rate": 1.7903333333333335e-05, |
|
"loss": 0.5908, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 0.14433919711321605, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 1.787e-05, |
|
"loss": 0.5542, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 0.14659449706811006, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 1.7836666666666668e-05, |
|
"loss": 0.5659, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.14884979702300405, |
|
"grad_norm": 2.578125, |
|
"learning_rate": 1.7803333333333336e-05, |
|
"loss": 0.5361, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 0.15110509697789806, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 1.777e-05, |
|
"loss": 0.555, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 0.15336039693279205, |
|
"grad_norm": 2.609375, |
|
"learning_rate": 1.773666666666667e-05, |
|
"loss": 0.5435, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 0.15561569688768606, |
|
"grad_norm": 2.46875, |
|
"learning_rate": 1.7703333333333334e-05, |
|
"loss": 0.5713, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 0.15787099684258007, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 1.7670000000000002e-05, |
|
"loss": 0.559, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.16012629679747406, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 1.763666666666667e-05, |
|
"loss": 0.5696, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 0.16238159675236807, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 1.7603333333333335e-05, |
|
"loss": 0.5345, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 0.16463689670726206, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 1.757e-05, |
|
"loss": 0.5774, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 0.16689219666215607, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.7536666666666668e-05, |
|
"loss": 0.5448, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 0.16914749661705006, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 1.7503333333333336e-05, |
|
"loss": 0.5436, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 0.17140279657194407, |
|
"grad_norm": 2.34375, |
|
"learning_rate": 1.7470000000000004e-05, |
|
"loss": 0.5383, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 0.17365809652683806, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.743666666666667e-05, |
|
"loss": 0.5385, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 0.17591339648173207, |
|
"grad_norm": 2.734375, |
|
"learning_rate": 1.7403333333333333e-05, |
|
"loss": 0.5367, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 0.17816869643662608, |
|
"grad_norm": 2.46875, |
|
"learning_rate": 1.737e-05, |
|
"loss": 0.5622, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 0.18042399639152007, |
|
"grad_norm": 2.59375, |
|
"learning_rate": 1.733666666666667e-05, |
|
"loss": 0.5064, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.18267929634641408, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 1.7303333333333334e-05, |
|
"loss": 0.528, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 0.18493459630130807, |
|
"grad_norm": 2.53125, |
|
"learning_rate": 1.7270000000000002e-05, |
|
"loss": 0.5117, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 0.18718989625620208, |
|
"grad_norm": 2.625, |
|
"learning_rate": 1.7236666666666667e-05, |
|
"loss": 0.5477, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 0.18944519621109607, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 1.7203333333333335e-05, |
|
"loss": 0.5131, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 0.19170049616599008, |
|
"grad_norm": 2.96875, |
|
"learning_rate": 1.7170000000000003e-05, |
|
"loss": 0.4921, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 0.19395579612088407, |
|
"grad_norm": 2.5625, |
|
"learning_rate": 1.7136666666666668e-05, |
|
"loss": 0.4937, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 0.19621109607577808, |
|
"grad_norm": 2.53125, |
|
"learning_rate": 1.7103333333333333e-05, |
|
"loss": 0.508, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 0.1984663960306721, |
|
"grad_norm": 2.625, |
|
"learning_rate": 1.707e-05, |
|
"loss": 0.5266, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 0.20072169598556608, |
|
"grad_norm": 2.96875, |
|
"learning_rate": 1.703666666666667e-05, |
|
"loss": 0.5097, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 0.2029769959404601, |
|
"grad_norm": 2.390625, |
|
"learning_rate": 1.7003333333333334e-05, |
|
"loss": 0.4993, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.20523229589535408, |
|
"grad_norm": 2.65625, |
|
"learning_rate": 1.6970000000000002e-05, |
|
"loss": 0.482, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 0.2074875958502481, |
|
"grad_norm": 2.796875, |
|
"learning_rate": 1.6936666666666667e-05, |
|
"loss": 0.496, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 0.20974289580514208, |
|
"grad_norm": 2.734375, |
|
"learning_rate": 1.6903333333333335e-05, |
|
"loss": 0.4805, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 0.2119981957600361, |
|
"grad_norm": 2.609375, |
|
"learning_rate": 1.6870000000000003e-05, |
|
"loss": 0.5179, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 0.21425349571493008, |
|
"grad_norm": 2.5, |
|
"learning_rate": 1.6836666666666668e-05, |
|
"loss": 0.4581, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 0.2165087956698241, |
|
"grad_norm": 2.671875, |
|
"learning_rate": 1.6803333333333332e-05, |
|
"loss": 0.4656, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 0.21876409562471807, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 1.677e-05, |
|
"loss": 0.4973, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 0.2210193955796121, |
|
"grad_norm": 2.609375, |
|
"learning_rate": 1.673666666666667e-05, |
|
"loss": 0.4915, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 0.2232746955345061, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 1.6703333333333333e-05, |
|
"loss": 0.4807, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 0.2255299954894001, |
|
"grad_norm": 2.484375, |
|
"learning_rate": 1.667e-05, |
|
"loss": 0.5139, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.2277852954442941, |
|
"grad_norm": 2.703125, |
|
"learning_rate": 1.6636666666666666e-05, |
|
"loss": 0.4795, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 0.23004059539918809, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 1.6603333333333334e-05, |
|
"loss": 0.4759, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 0.2322958953540821, |
|
"grad_norm": 2.8125, |
|
"learning_rate": 1.6570000000000002e-05, |
|
"loss": 0.4646, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 0.23455119530897608, |
|
"grad_norm": 2.75, |
|
"learning_rate": 1.6536666666666667e-05, |
|
"loss": 0.4653, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 0.2368064952638701, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 1.6503333333333335e-05, |
|
"loss": 0.4609, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 0.23906179521876408, |
|
"grad_norm": 2.6875, |
|
"learning_rate": 1.647e-05, |
|
"loss": 0.4676, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 0.2413170951736581, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 1.6436666666666668e-05, |
|
"loss": 0.4495, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 0.2435723951285521, |
|
"grad_norm": 2.6875, |
|
"learning_rate": 1.6403333333333336e-05, |
|
"loss": 0.4443, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 0.2458276950834461, |
|
"grad_norm": 2.59375, |
|
"learning_rate": 1.637e-05, |
|
"loss": 0.4341, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 0.2480829950383401, |
|
"grad_norm": 2.84375, |
|
"learning_rate": 1.633666666666667e-05, |
|
"loss": 0.4294, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.2503382949932341, |
|
"grad_norm": 2.625, |
|
"learning_rate": 1.6303333333333337e-05, |
|
"loss": 0.439, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 0.2525935949481281, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 1.6270000000000002e-05, |
|
"loss": 0.443, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 0.2548488949030221, |
|
"grad_norm": 2.65625, |
|
"learning_rate": 1.6236666666666667e-05, |
|
"loss": 0.4389, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 0.2571041948579161, |
|
"grad_norm": 2.859375, |
|
"learning_rate": 1.6203333333333335e-05, |
|
"loss": 0.46, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 0.2593594948128101, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 1.6170000000000003e-05, |
|
"loss": 0.4469, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 0.2616147947677041, |
|
"grad_norm": 2.671875, |
|
"learning_rate": 1.6136666666666667e-05, |
|
"loss": 0.4485, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 0.2638700947225981, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 1.6103333333333336e-05, |
|
"loss": 0.4414, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 0.26612539467749213, |
|
"grad_norm": 2.84375, |
|
"learning_rate": 1.607e-05, |
|
"loss": 0.4126, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 0.2683806946323861, |
|
"grad_norm": 3.078125, |
|
"learning_rate": 1.603666666666667e-05, |
|
"loss": 0.433, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 0.2706359945872801, |
|
"grad_norm": 2.859375, |
|
"learning_rate": 1.6003333333333337e-05, |
|
"loss": 0.4404, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.2728912945421741, |
|
"grad_norm": 2.921875, |
|
"learning_rate": 1.597e-05, |
|
"loss": 0.4279, |
|
"step": 1210 |
|
}, |
|
{ |
|
"epoch": 0.27514659449706813, |
|
"grad_norm": 2.9375, |
|
"learning_rate": 1.5936666666666666e-05, |
|
"loss": 0.4333, |
|
"step": 1220 |
|
}, |
|
{ |
|
"epoch": 0.2774018944519621, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 1.5903333333333334e-05, |
|
"loss": 0.435, |
|
"step": 1230 |
|
}, |
|
{ |
|
"epoch": 0.2796571944068561, |
|
"grad_norm": 2.9375, |
|
"learning_rate": 1.5870000000000002e-05, |
|
"loss": 0.4123, |
|
"step": 1240 |
|
}, |
|
{ |
|
"epoch": 0.2819124943617501, |
|
"grad_norm": 3.03125, |
|
"learning_rate": 1.5836666666666667e-05, |
|
"loss": 0.4065, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 0.28416779431664413, |
|
"grad_norm": 3.21875, |
|
"learning_rate": 1.5803333333333335e-05, |
|
"loss": 0.4287, |
|
"step": 1260 |
|
}, |
|
{ |
|
"epoch": 0.2864230942715381, |
|
"grad_norm": 2.96875, |
|
"learning_rate": 1.577e-05, |
|
"loss": 0.4649, |
|
"step": 1270 |
|
}, |
|
{ |
|
"epoch": 0.2886783942264321, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 1.5736666666666668e-05, |
|
"loss": 0.4076, |
|
"step": 1280 |
|
}, |
|
{ |
|
"epoch": 0.29093369418132614, |
|
"grad_norm": 3.125, |
|
"learning_rate": 1.5703333333333336e-05, |
|
"loss": 0.421, |
|
"step": 1290 |
|
}, |
|
{ |
|
"epoch": 0.2931889941362201, |
|
"grad_norm": 3.5625, |
|
"learning_rate": 1.567e-05, |
|
"loss": 0.3982, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.2954442940911141, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 1.563666666666667e-05, |
|
"loss": 0.4121, |
|
"step": 1310 |
|
}, |
|
{ |
|
"epoch": 0.2976995940460081, |
|
"grad_norm": 3.0, |
|
"learning_rate": 1.5603333333333334e-05, |
|
"loss": 0.4032, |
|
"step": 1320 |
|
}, |
|
{ |
|
"epoch": 0.29995489400090214, |
|
"grad_norm": 2.890625, |
|
"learning_rate": 1.5570000000000002e-05, |
|
"loss": 0.423, |
|
"step": 1330 |
|
}, |
|
{ |
|
"epoch": 0.3022101939557961, |
|
"grad_norm": 2.875, |
|
"learning_rate": 1.553666666666667e-05, |
|
"loss": 0.4193, |
|
"step": 1340 |
|
}, |
|
{ |
|
"epoch": 0.3044654939106901, |
|
"grad_norm": 3.09375, |
|
"learning_rate": 1.5503333333333335e-05, |
|
"loss": 0.3834, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 0.3067207938655841, |
|
"grad_norm": 3.46875, |
|
"learning_rate": 1.547e-05, |
|
"loss": 0.4204, |
|
"step": 1360 |
|
}, |
|
{ |
|
"epoch": 0.30897609382047814, |
|
"grad_norm": 2.65625, |
|
"learning_rate": 1.5436666666666667e-05, |
|
"loss": 0.4036, |
|
"step": 1370 |
|
}, |
|
{ |
|
"epoch": 0.3112313937753721, |
|
"grad_norm": 2.8125, |
|
"learning_rate": 1.5403333333333335e-05, |
|
"loss": 0.3845, |
|
"step": 1380 |
|
}, |
|
{ |
|
"epoch": 0.3134866937302661, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 1.537e-05, |
|
"loss": 0.3615, |
|
"step": 1390 |
|
}, |
|
{ |
|
"epoch": 0.31574199368516015, |
|
"grad_norm": 2.6875, |
|
"learning_rate": 1.533666666666667e-05, |
|
"loss": 0.3754, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.31799729364005414, |
|
"grad_norm": 3.15625, |
|
"learning_rate": 1.5303333333333333e-05, |
|
"loss": 0.3984, |
|
"step": 1410 |
|
}, |
|
{ |
|
"epoch": 0.3202525935949481, |
|
"grad_norm": 3.515625, |
|
"learning_rate": 1.527e-05, |
|
"loss": 0.4009, |
|
"step": 1420 |
|
}, |
|
{ |
|
"epoch": 0.3225078935498421, |
|
"grad_norm": 3.171875, |
|
"learning_rate": 1.523666666666667e-05, |
|
"loss": 0.3939, |
|
"step": 1430 |
|
}, |
|
{ |
|
"epoch": 0.32476319350473615, |
|
"grad_norm": 3.34375, |
|
"learning_rate": 1.5203333333333334e-05, |
|
"loss": 0.3621, |
|
"step": 1440 |
|
}, |
|
{ |
|
"epoch": 0.32701849345963013, |
|
"grad_norm": 3.71875, |
|
"learning_rate": 1.517e-05, |
|
"loss": 0.3901, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 0.3292737934145241, |
|
"grad_norm": 3.015625, |
|
"learning_rate": 1.5136666666666669e-05, |
|
"loss": 0.3602, |
|
"step": 1460 |
|
}, |
|
{ |
|
"epoch": 0.33152909336941816, |
|
"grad_norm": 2.75, |
|
"learning_rate": 1.5103333333333335e-05, |
|
"loss": 0.3793, |
|
"step": 1470 |
|
}, |
|
{ |
|
"epoch": 0.33378439332431215, |
|
"grad_norm": 3.140625, |
|
"learning_rate": 1.507e-05, |
|
"loss": 0.3698, |
|
"step": 1480 |
|
}, |
|
{ |
|
"epoch": 0.33603969327920613, |
|
"grad_norm": 3.03125, |
|
"learning_rate": 1.5036666666666668e-05, |
|
"loss": 0.3785, |
|
"step": 1490 |
|
}, |
|
{ |
|
"epoch": 0.3382949932341001, |
|
"grad_norm": 3.265625, |
|
"learning_rate": 1.5003333333333334e-05, |
|
"loss": 0.378, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.34055029318899416, |
|
"grad_norm": 3.515625, |
|
"learning_rate": 1.4970000000000002e-05, |
|
"loss": 0.3588, |
|
"step": 1510 |
|
}, |
|
{ |
|
"epoch": 0.34280559314388814, |
|
"grad_norm": 3.125, |
|
"learning_rate": 1.4936666666666669e-05, |
|
"loss": 0.3602, |
|
"step": 1520 |
|
}, |
|
{ |
|
"epoch": 0.34506089309878213, |
|
"grad_norm": 3.40625, |
|
"learning_rate": 1.4903333333333334e-05, |
|
"loss": 0.3342, |
|
"step": 1530 |
|
}, |
|
{ |
|
"epoch": 0.3473161930536761, |
|
"grad_norm": 3.203125, |
|
"learning_rate": 1.4870000000000002e-05, |
|
"loss": 0.3603, |
|
"step": 1540 |
|
}, |
|
{ |
|
"epoch": 0.34957149300857016, |
|
"grad_norm": 3.078125, |
|
"learning_rate": 1.4836666666666668e-05, |
|
"loss": 0.3346, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 0.35182679296346414, |
|
"grad_norm": 2.9375, |
|
"learning_rate": 1.4803333333333334e-05, |
|
"loss": 0.3419, |
|
"step": 1560 |
|
}, |
|
{ |
|
"epoch": 0.3540820929183581, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 1.4770000000000003e-05, |
|
"loss": 0.3459, |
|
"step": 1570 |
|
}, |
|
{ |
|
"epoch": 0.35633739287325217, |
|
"grad_norm": 2.890625, |
|
"learning_rate": 1.4736666666666667e-05, |
|
"loss": 0.3671, |
|
"step": 1580 |
|
}, |
|
{ |
|
"epoch": 0.35859269282814615, |
|
"grad_norm": 3.328125, |
|
"learning_rate": 1.4703333333333334e-05, |
|
"loss": 0.3479, |
|
"step": 1590 |
|
}, |
|
{ |
|
"epoch": 0.36084799278304014, |
|
"grad_norm": 3.125, |
|
"learning_rate": 1.4670000000000002e-05, |
|
"loss": 0.3564, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.3631032927379341, |
|
"grad_norm": 3.171875, |
|
"learning_rate": 1.4636666666666668e-05, |
|
"loss": 0.3432, |
|
"step": 1610 |
|
}, |
|
{ |
|
"epoch": 0.36535859269282817, |
|
"grad_norm": 3.15625, |
|
"learning_rate": 1.4603333333333333e-05, |
|
"loss": 0.3485, |
|
"step": 1620 |
|
}, |
|
{ |
|
"epoch": 0.36761389264772215, |
|
"grad_norm": 3.265625, |
|
"learning_rate": 1.4570000000000001e-05, |
|
"loss": 0.3608, |
|
"step": 1630 |
|
}, |
|
{ |
|
"epoch": 0.36986919260261614, |
|
"grad_norm": 3.0625, |
|
"learning_rate": 1.4536666666666668e-05, |
|
"loss": 0.3593, |
|
"step": 1640 |
|
}, |
|
{ |
|
"epoch": 0.3721244925575101, |
|
"grad_norm": 3.0, |
|
"learning_rate": 1.4503333333333334e-05, |
|
"loss": 0.3225, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 0.37437979251240416, |
|
"grad_norm": 3.078125, |
|
"learning_rate": 1.4470000000000002e-05, |
|
"loss": 0.3608, |
|
"step": 1660 |
|
}, |
|
{ |
|
"epoch": 0.37663509246729815, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 1.4436666666666668e-05, |
|
"loss": 0.3625, |
|
"step": 1670 |
|
}, |
|
{ |
|
"epoch": 0.37889039242219213, |
|
"grad_norm": 3.25, |
|
"learning_rate": 1.4403333333333333e-05, |
|
"loss": 0.342, |
|
"step": 1680 |
|
}, |
|
{ |
|
"epoch": 0.3811456923770862, |
|
"grad_norm": 3.453125, |
|
"learning_rate": 1.4370000000000001e-05, |
|
"loss": 0.3633, |
|
"step": 1690 |
|
}, |
|
{ |
|
"epoch": 0.38340099233198016, |
|
"grad_norm": 3.21875, |
|
"learning_rate": 1.4336666666666668e-05, |
|
"loss": 0.3485, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 0.38565629228687415, |
|
"grad_norm": 4.0, |
|
"learning_rate": 1.4303333333333334e-05, |
|
"loss": 0.3415, |
|
"step": 1710 |
|
}, |
|
{ |
|
"epoch": 0.38791159224176813, |
|
"grad_norm": 3.609375, |
|
"learning_rate": 1.4270000000000002e-05, |
|
"loss": 0.3303, |
|
"step": 1720 |
|
}, |
|
{ |
|
"epoch": 0.3901668921966622, |
|
"grad_norm": 3.71875, |
|
"learning_rate": 1.4236666666666667e-05, |
|
"loss": 0.3049, |
|
"step": 1730 |
|
}, |
|
{ |
|
"epoch": 0.39242219215155616, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 1.4203333333333333e-05, |
|
"loss": 0.3412, |
|
"step": 1740 |
|
}, |
|
{ |
|
"epoch": 0.39467749210645015, |
|
"grad_norm": 3.125, |
|
"learning_rate": 1.4170000000000002e-05, |
|
"loss": 0.3199, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 0.3969327920613442, |
|
"grad_norm": 4.5, |
|
"learning_rate": 1.4136666666666668e-05, |
|
"loss": 0.3247, |
|
"step": 1760 |
|
}, |
|
{ |
|
"epoch": 0.39918809201623817, |
|
"grad_norm": 3.671875, |
|
"learning_rate": 1.4103333333333336e-05, |
|
"loss": 0.3338, |
|
"step": 1770 |
|
}, |
|
{ |
|
"epoch": 0.40144339197113216, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 1.407e-05, |
|
"loss": 0.3122, |
|
"step": 1780 |
|
}, |
|
{ |
|
"epoch": 0.40369869192602614, |
|
"grad_norm": 3.71875, |
|
"learning_rate": 1.4036666666666667e-05, |
|
"loss": 0.3121, |
|
"step": 1790 |
|
}, |
|
{ |
|
"epoch": 0.4059539918809202, |
|
"grad_norm": 3.03125, |
|
"learning_rate": 1.4003333333333335e-05, |
|
"loss": 0.3229, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 0.40820929183581417, |
|
"grad_norm": 3.390625, |
|
"learning_rate": 1.3970000000000002e-05, |
|
"loss": 0.2885, |
|
"step": 1810 |
|
}, |
|
{ |
|
"epoch": 0.41046459179070816, |
|
"grad_norm": 3.125, |
|
"learning_rate": 1.3936666666666666e-05, |
|
"loss": 0.2934, |
|
"step": 1820 |
|
}, |
|
{ |
|
"epoch": 0.41271989174560214, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 1.3903333333333335e-05, |
|
"loss": 0.2783, |
|
"step": 1830 |
|
}, |
|
{ |
|
"epoch": 0.4149751917004962, |
|
"grad_norm": 3.921875, |
|
"learning_rate": 1.3870000000000001e-05, |
|
"loss": 0.3128, |
|
"step": 1840 |
|
}, |
|
{ |
|
"epoch": 0.41723049165539017, |
|
"grad_norm": 3.078125, |
|
"learning_rate": 1.3836666666666667e-05, |
|
"loss": 0.3074, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 0.41948579161028415, |
|
"grad_norm": 3.40625, |
|
"learning_rate": 1.3803333333333336e-05, |
|
"loss": 0.2985, |
|
"step": 1860 |
|
}, |
|
{ |
|
"epoch": 0.4217410915651782, |
|
"grad_norm": 3.40625, |
|
"learning_rate": 1.377e-05, |
|
"loss": 0.2824, |
|
"step": 1870 |
|
}, |
|
{ |
|
"epoch": 0.4239963915200722, |
|
"grad_norm": 3.453125, |
|
"learning_rate": 1.3736666666666667e-05, |
|
"loss": 0.2961, |
|
"step": 1880 |
|
}, |
|
{ |
|
"epoch": 0.42625169147496617, |
|
"grad_norm": 3.5, |
|
"learning_rate": 1.3703333333333335e-05, |
|
"loss": 0.2968, |
|
"step": 1890 |
|
}, |
|
{ |
|
"epoch": 0.42850699142986015, |
|
"grad_norm": 4.09375, |
|
"learning_rate": 1.3670000000000001e-05, |
|
"loss": 0.3198, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 0.4307622913847542, |
|
"grad_norm": 3.296875, |
|
"learning_rate": 1.3636666666666668e-05, |
|
"loss": 0.2763, |
|
"step": 1910 |
|
}, |
|
{ |
|
"epoch": 0.4330175913396482, |
|
"grad_norm": 3.40625, |
|
"learning_rate": 1.3603333333333336e-05, |
|
"loss": 0.2945, |
|
"step": 1920 |
|
}, |
|
{ |
|
"epoch": 0.43527289129454216, |
|
"grad_norm": 3.140625, |
|
"learning_rate": 1.357e-05, |
|
"loss": 0.3013, |
|
"step": 1930 |
|
}, |
|
{ |
|
"epoch": 0.43752819124943615, |
|
"grad_norm": 3.453125, |
|
"learning_rate": 1.3536666666666667e-05, |
|
"loss": 0.2897, |
|
"step": 1940 |
|
}, |
|
{ |
|
"epoch": 0.4397834912043302, |
|
"grad_norm": 3.203125, |
|
"learning_rate": 1.3503333333333335e-05, |
|
"loss": 0.2591, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 0.4420387911592242, |
|
"grad_norm": 3.15625, |
|
"learning_rate": 1.3470000000000001e-05, |
|
"loss": 0.3079, |
|
"step": 1960 |
|
}, |
|
{ |
|
"epoch": 0.44429409111411816, |
|
"grad_norm": 3.65625, |
|
"learning_rate": 1.3436666666666666e-05, |
|
"loss": 0.2955, |
|
"step": 1970 |
|
}, |
|
{ |
|
"epoch": 0.4465493910690122, |
|
"grad_norm": 3.1875, |
|
"learning_rate": 1.3403333333333334e-05, |
|
"loss": 0.2737, |
|
"step": 1980 |
|
}, |
|
{ |
|
"epoch": 0.4488046910239062, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 1.337e-05, |
|
"loss": 0.2929, |
|
"step": 1990 |
|
}, |
|
{ |
|
"epoch": 0.4510599909788002, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 1.3336666666666667e-05, |
|
"loss": 0.2924, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.45331529093369416, |
|
"grad_norm": 4.3125, |
|
"learning_rate": 1.3303333333333335e-05, |
|
"loss": 0.2744, |
|
"step": 2010 |
|
}, |
|
{ |
|
"epoch": 0.4555705908885882, |
|
"grad_norm": 3.15625, |
|
"learning_rate": 1.327e-05, |
|
"loss": 0.275, |
|
"step": 2020 |
|
}, |
|
{ |
|
"epoch": 0.4578258908434822, |
|
"grad_norm": 3.578125, |
|
"learning_rate": 1.3236666666666668e-05, |
|
"loss": 0.2695, |
|
"step": 2030 |
|
}, |
|
{ |
|
"epoch": 0.46008119079837617, |
|
"grad_norm": 3.421875, |
|
"learning_rate": 1.3203333333333335e-05, |
|
"loss": 0.2761, |
|
"step": 2040 |
|
}, |
|
{ |
|
"epoch": 0.46233649075327016, |
|
"grad_norm": 3.375, |
|
"learning_rate": 1.3170000000000001e-05, |
|
"loss": 0.2953, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 0.4645917907081642, |
|
"grad_norm": 3.8125, |
|
"learning_rate": 1.3136666666666669e-05, |
|
"loss": 0.2901, |
|
"step": 2060 |
|
}, |
|
{ |
|
"epoch": 0.4668470906630582, |
|
"grad_norm": 3.359375, |
|
"learning_rate": 1.3103333333333334e-05, |
|
"loss": 0.2906, |
|
"step": 2070 |
|
}, |
|
{ |
|
"epoch": 0.46910239061795217, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 1.307e-05, |
|
"loss": 0.2747, |
|
"step": 2080 |
|
}, |
|
{ |
|
"epoch": 0.4713576905728462, |
|
"grad_norm": 3.59375, |
|
"learning_rate": 1.3036666666666668e-05, |
|
"loss": 0.2728, |
|
"step": 2090 |
|
}, |
|
{ |
|
"epoch": 0.4736129905277402, |
|
"grad_norm": 3.0, |
|
"learning_rate": 1.3003333333333335e-05, |
|
"loss": 0.2464, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 0.4758682904826342, |
|
"grad_norm": 4.15625, |
|
"learning_rate": 1.2970000000000001e-05, |
|
"loss": 0.2853, |
|
"step": 2110 |
|
}, |
|
{ |
|
"epoch": 0.47812359043752817, |
|
"grad_norm": 3.078125, |
|
"learning_rate": 1.293666666666667e-05, |
|
"loss": 0.2751, |
|
"step": 2120 |
|
}, |
|
{ |
|
"epoch": 0.4803788903924222, |
|
"grad_norm": 3.109375, |
|
"learning_rate": 1.2903333333333334e-05, |
|
"loss": 0.2579, |
|
"step": 2130 |
|
}, |
|
{ |
|
"epoch": 0.4826341903473162, |
|
"grad_norm": 3.109375, |
|
"learning_rate": 1.287e-05, |
|
"loss": 0.2758, |
|
"step": 2140 |
|
}, |
|
{ |
|
"epoch": 0.4848894903022102, |
|
"grad_norm": 4.5, |
|
"learning_rate": 1.2836666666666669e-05, |
|
"loss": 0.2691, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 0.4871447902571042, |
|
"grad_norm": 3.90625, |
|
"learning_rate": 1.2803333333333335e-05, |
|
"loss": 0.2439, |
|
"step": 2160 |
|
}, |
|
{ |
|
"epoch": 0.4894000902119982, |
|
"grad_norm": 3.59375, |
|
"learning_rate": 1.277e-05, |
|
"loss": 0.2501, |
|
"step": 2170 |
|
}, |
|
{ |
|
"epoch": 0.4916553901668922, |
|
"grad_norm": 2.953125, |
|
"learning_rate": 1.2736666666666668e-05, |
|
"loss": 0.2561, |
|
"step": 2180 |
|
}, |
|
{ |
|
"epoch": 0.4939106901217862, |
|
"grad_norm": 3.296875, |
|
"learning_rate": 1.2703333333333334e-05, |
|
"loss": 0.2318, |
|
"step": 2190 |
|
}, |
|
{ |
|
"epoch": 0.4961659900766802, |
|
"grad_norm": 3.328125, |
|
"learning_rate": 1.267e-05, |
|
"loss": 0.2397, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 0.4984212900315742, |
|
"grad_norm": 3.6875, |
|
"learning_rate": 1.2636666666666669e-05, |
|
"loss": 0.2504, |
|
"step": 2210 |
|
}, |
|
{ |
|
"epoch": 0.5006765899864682, |
|
"grad_norm": 3.6875, |
|
"learning_rate": 1.2603333333333334e-05, |
|
"loss": 0.257, |
|
"step": 2220 |
|
}, |
|
{ |
|
"epoch": 0.5029318899413622, |
|
"grad_norm": 3.34375, |
|
"learning_rate": 1.257e-05, |
|
"loss": 0.2578, |
|
"step": 2230 |
|
}, |
|
{ |
|
"epoch": 0.5051871898962562, |
|
"grad_norm": 3.578125, |
|
"learning_rate": 1.2536666666666668e-05, |
|
"loss": 0.2626, |
|
"step": 2240 |
|
}, |
|
{ |
|
"epoch": 0.5074424898511503, |
|
"grad_norm": 3.609375, |
|
"learning_rate": 1.2503333333333334e-05, |
|
"loss": 0.2523, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 0.5096977898060442, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 1.2470000000000003e-05, |
|
"loss": 0.2452, |
|
"step": 2260 |
|
}, |
|
{ |
|
"epoch": 0.5119530897609382, |
|
"grad_norm": 5.125, |
|
"learning_rate": 1.2436666666666667e-05, |
|
"loss": 0.2278, |
|
"step": 2270 |
|
}, |
|
{ |
|
"epoch": 0.5142083897158322, |
|
"grad_norm": 3.46875, |
|
"learning_rate": 1.2403333333333334e-05, |
|
"loss": 0.235, |
|
"step": 2280 |
|
}, |
|
{ |
|
"epoch": 0.5164636896707262, |
|
"grad_norm": 3.78125, |
|
"learning_rate": 1.2370000000000002e-05, |
|
"loss": 0.2427, |
|
"step": 2290 |
|
}, |
|
{ |
|
"epoch": 0.5187189896256202, |
|
"grad_norm": 3.328125, |
|
"learning_rate": 1.2336666666666668e-05, |
|
"loss": 0.2522, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 0.5209742895805142, |
|
"grad_norm": 3.296875, |
|
"learning_rate": 1.2303333333333333e-05, |
|
"loss": 0.2325, |
|
"step": 2310 |
|
}, |
|
{ |
|
"epoch": 0.5232295895354082, |
|
"grad_norm": 3.21875, |
|
"learning_rate": 1.2270000000000001e-05, |
|
"loss": 0.2595, |
|
"step": 2320 |
|
}, |
|
{ |
|
"epoch": 0.5254848894903023, |
|
"grad_norm": 3.3125, |
|
"learning_rate": 1.2236666666666668e-05, |
|
"loss": 0.2683, |
|
"step": 2330 |
|
}, |
|
{ |
|
"epoch": 0.5277401894451962, |
|
"grad_norm": 3.515625, |
|
"learning_rate": 1.2203333333333334e-05, |
|
"loss": 0.2327, |
|
"step": 2340 |
|
}, |
|
{ |
|
"epoch": 0.5299954894000902, |
|
"grad_norm": 3.359375, |
|
"learning_rate": 1.2170000000000002e-05, |
|
"loss": 0.2305, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 0.5322507893549843, |
|
"grad_norm": 4.03125, |
|
"learning_rate": 1.2136666666666668e-05, |
|
"loss": 0.24, |
|
"step": 2360 |
|
}, |
|
{ |
|
"epoch": 0.5345060893098782, |
|
"grad_norm": 3.171875, |
|
"learning_rate": 1.2103333333333333e-05, |
|
"loss": 0.2226, |
|
"step": 2370 |
|
}, |
|
{ |
|
"epoch": 0.5367613892647722, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 1.2070000000000001e-05, |
|
"loss": 0.2288, |
|
"step": 2380 |
|
}, |
|
{ |
|
"epoch": 0.5390166892196662, |
|
"grad_norm": 3.46875, |
|
"learning_rate": 1.2036666666666668e-05, |
|
"loss": 0.2564, |
|
"step": 2390 |
|
}, |
|
{ |
|
"epoch": 0.5412719891745602, |
|
"grad_norm": 3.703125, |
|
"learning_rate": 1.2003333333333334e-05, |
|
"loss": 0.2115, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 0.5435272891294542, |
|
"grad_norm": 3.46875, |
|
"learning_rate": 1.1970000000000002e-05, |
|
"loss": 0.2255, |
|
"step": 2410 |
|
}, |
|
{ |
|
"epoch": 0.5457825890843482, |
|
"grad_norm": 3.765625, |
|
"learning_rate": 1.1936666666666667e-05, |
|
"loss": 0.2214, |
|
"step": 2420 |
|
}, |
|
{ |
|
"epoch": 0.5480378890392422, |
|
"grad_norm": 3.9375, |
|
"learning_rate": 1.1903333333333333e-05, |
|
"loss": 0.2212, |
|
"step": 2430 |
|
}, |
|
{ |
|
"epoch": 0.5502931889941363, |
|
"grad_norm": 3.796875, |
|
"learning_rate": 1.1870000000000002e-05, |
|
"loss": 0.2266, |
|
"step": 2440 |
|
}, |
|
{ |
|
"epoch": 0.5525484889490302, |
|
"grad_norm": 3.203125, |
|
"learning_rate": 1.1836666666666668e-05, |
|
"loss": 0.2291, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 0.5548037889039242, |
|
"grad_norm": 4.6875, |
|
"learning_rate": 1.1803333333333333e-05, |
|
"loss": 0.212, |
|
"step": 2460 |
|
}, |
|
{ |
|
"epoch": 0.5570590888588183, |
|
"grad_norm": 2.953125, |
|
"learning_rate": 1.177e-05, |
|
"loss": 0.2133, |
|
"step": 2470 |
|
}, |
|
{ |
|
"epoch": 0.5593143888137122, |
|
"grad_norm": 4.1875, |
|
"learning_rate": 1.1736666666666667e-05, |
|
"loss": 0.2606, |
|
"step": 2480 |
|
}, |
|
{ |
|
"epoch": 0.5615696887686062, |
|
"grad_norm": 3.53125, |
|
"learning_rate": 1.1703333333333334e-05, |
|
"loss": 0.2446, |
|
"step": 2490 |
|
}, |
|
{ |
|
"epoch": 0.5638249887235002, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 1.1670000000000002e-05, |
|
"loss": 0.2264, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.5660802886783942, |
|
"grad_norm": 3.921875, |
|
"learning_rate": 1.1636666666666666e-05, |
|
"loss": 0.2218, |
|
"step": 2510 |
|
}, |
|
{ |
|
"epoch": 0.5683355886332883, |
|
"grad_norm": 3.015625, |
|
"learning_rate": 1.1603333333333335e-05, |
|
"loss": 0.196, |
|
"step": 2520 |
|
}, |
|
{ |
|
"epoch": 0.5705908885881822, |
|
"grad_norm": 3.59375, |
|
"learning_rate": 1.1570000000000001e-05, |
|
"loss": 0.2327, |
|
"step": 2530 |
|
}, |
|
{ |
|
"epoch": 0.5728461885430762, |
|
"grad_norm": 3.125, |
|
"learning_rate": 1.1536666666666667e-05, |
|
"loss": 0.2224, |
|
"step": 2540 |
|
}, |
|
{ |
|
"epoch": 0.5751014884979703, |
|
"grad_norm": 3.765625, |
|
"learning_rate": 1.1503333333333336e-05, |
|
"loss": 0.2198, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 0.5773567884528642, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 1.147e-05, |
|
"loss": 0.2146, |
|
"step": 2560 |
|
}, |
|
{ |
|
"epoch": 0.5796120884077582, |
|
"grad_norm": 4.0625, |
|
"learning_rate": 1.1436666666666667e-05, |
|
"loss": 0.2217, |
|
"step": 2570 |
|
}, |
|
{ |
|
"epoch": 0.5818673883626523, |
|
"grad_norm": 3.515625, |
|
"learning_rate": 1.1403333333333335e-05, |
|
"loss": 0.2039, |
|
"step": 2580 |
|
}, |
|
{ |
|
"epoch": 0.5841226883175462, |
|
"grad_norm": 3.484375, |
|
"learning_rate": 1.1370000000000001e-05, |
|
"loss": 0.218, |
|
"step": 2590 |
|
}, |
|
{ |
|
"epoch": 0.5863779882724403, |
|
"grad_norm": 3.921875, |
|
"learning_rate": 1.1336666666666668e-05, |
|
"loss": 0.2031, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 0.5886332882273342, |
|
"grad_norm": 3.796875, |
|
"learning_rate": 1.1303333333333336e-05, |
|
"loss": 0.1942, |
|
"step": 2610 |
|
}, |
|
{ |
|
"epoch": 0.5908885881822282, |
|
"grad_norm": 4.03125, |
|
"learning_rate": 1.127e-05, |
|
"loss": 0.203, |
|
"step": 2620 |
|
}, |
|
{ |
|
"epoch": 0.5931438881371223, |
|
"grad_norm": 3.25, |
|
"learning_rate": 1.1236666666666667e-05, |
|
"loss": 0.2204, |
|
"step": 2630 |
|
}, |
|
{ |
|
"epoch": 0.5953991880920162, |
|
"grad_norm": 3.53125, |
|
"learning_rate": 1.1203333333333335e-05, |
|
"loss": 0.2046, |
|
"step": 2640 |
|
}, |
|
{ |
|
"epoch": 0.5976544880469102, |
|
"grad_norm": 4.0, |
|
"learning_rate": 1.1170000000000001e-05, |
|
"loss": 0.2083, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 0.5999097880018043, |
|
"grad_norm": 4.15625, |
|
"learning_rate": 1.1136666666666666e-05, |
|
"loss": 0.2206, |
|
"step": 2660 |
|
}, |
|
{ |
|
"epoch": 0.6021650879566982, |
|
"grad_norm": 4.0625, |
|
"learning_rate": 1.1103333333333334e-05, |
|
"loss": 0.2108, |
|
"step": 2670 |
|
}, |
|
{ |
|
"epoch": 0.6044203879115922, |
|
"grad_norm": 3.90625, |
|
"learning_rate": 1.107e-05, |
|
"loss": 0.1931, |
|
"step": 2680 |
|
}, |
|
{ |
|
"epoch": 0.6066756878664863, |
|
"grad_norm": 4.8125, |
|
"learning_rate": 1.1036666666666667e-05, |
|
"loss": 0.1909, |
|
"step": 2690 |
|
}, |
|
{ |
|
"epoch": 0.6089309878213802, |
|
"grad_norm": 3.328125, |
|
"learning_rate": 1.1003333333333335e-05, |
|
"loss": 0.1994, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 0.6111862877762743, |
|
"grad_norm": 3.0625, |
|
"learning_rate": 1.097e-05, |
|
"loss": 0.1967, |
|
"step": 2710 |
|
}, |
|
{ |
|
"epoch": 0.6134415877311682, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 1.0936666666666666e-05, |
|
"loss": 0.2082, |
|
"step": 2720 |
|
}, |
|
{ |
|
"epoch": 0.6156968876860622, |
|
"grad_norm": 3.03125, |
|
"learning_rate": 1.0903333333333335e-05, |
|
"loss": 0.2245, |
|
"step": 2730 |
|
}, |
|
{ |
|
"epoch": 0.6179521876409563, |
|
"grad_norm": 3.25, |
|
"learning_rate": 1.0870000000000001e-05, |
|
"loss": 0.1893, |
|
"step": 2740 |
|
}, |
|
{ |
|
"epoch": 0.6202074875958502, |
|
"grad_norm": 3.671875, |
|
"learning_rate": 1.0836666666666666e-05, |
|
"loss": 0.2133, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 0.6224627875507442, |
|
"grad_norm": 3.625, |
|
"learning_rate": 1.0803333333333334e-05, |
|
"loss": 0.1912, |
|
"step": 2760 |
|
}, |
|
{ |
|
"epoch": 0.6247180875056383, |
|
"grad_norm": 3.609375, |
|
"learning_rate": 1.077e-05, |
|
"loss": 0.1967, |
|
"step": 2770 |
|
}, |
|
{ |
|
"epoch": 0.6269733874605322, |
|
"grad_norm": 3.1875, |
|
"learning_rate": 1.0736666666666668e-05, |
|
"loss": 0.1858, |
|
"step": 2780 |
|
}, |
|
{ |
|
"epoch": 0.6292286874154263, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 1.0703333333333335e-05, |
|
"loss": 0.1995, |
|
"step": 2790 |
|
}, |
|
{ |
|
"epoch": 0.6314839873703203, |
|
"grad_norm": 4.875, |
|
"learning_rate": 1.0670000000000001e-05, |
|
"loss": 0.1911, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 0.6337392873252142, |
|
"grad_norm": 4.3125, |
|
"learning_rate": 1.063666666666667e-05, |
|
"loss": 0.1938, |
|
"step": 2810 |
|
}, |
|
{ |
|
"epoch": 0.6359945872801083, |
|
"grad_norm": 4.625, |
|
"learning_rate": 1.0603333333333334e-05, |
|
"loss": 0.215, |
|
"step": 2820 |
|
}, |
|
{ |
|
"epoch": 0.6382498872350022, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 1.057e-05, |
|
"loss": 0.2065, |
|
"step": 2830 |
|
}, |
|
{ |
|
"epoch": 0.6405051871898962, |
|
"grad_norm": 3.0625, |
|
"learning_rate": 1.0536666666666669e-05, |
|
"loss": 0.1796, |
|
"step": 2840 |
|
}, |
|
{ |
|
"epoch": 0.6427604871447903, |
|
"grad_norm": 3.796875, |
|
"learning_rate": 1.0503333333333335e-05, |
|
"loss": 0.1766, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 0.6450157870996842, |
|
"grad_norm": 4.5, |
|
"learning_rate": 1.047e-05, |
|
"loss": 0.1652, |
|
"step": 2860 |
|
}, |
|
{ |
|
"epoch": 0.6472710870545783, |
|
"grad_norm": 3.421875, |
|
"learning_rate": 1.0436666666666668e-05, |
|
"loss": 0.1858, |
|
"step": 2870 |
|
}, |
|
{ |
|
"epoch": 0.6495263870094723, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 1.0403333333333334e-05, |
|
"loss": 0.1756, |
|
"step": 2880 |
|
}, |
|
{ |
|
"epoch": 0.6517816869643662, |
|
"grad_norm": 3.265625, |
|
"learning_rate": 1.037e-05, |
|
"loss": 0.176, |
|
"step": 2890 |
|
}, |
|
{ |
|
"epoch": 0.6540369869192603, |
|
"grad_norm": 3.203125, |
|
"learning_rate": 1.0336666666666669e-05, |
|
"loss": 0.1903, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 0.6562922868741543, |
|
"grad_norm": 4.0, |
|
"learning_rate": 1.0303333333333334e-05, |
|
"loss": 0.1878, |
|
"step": 2910 |
|
}, |
|
{ |
|
"epoch": 0.6585475868290482, |
|
"grad_norm": 4.21875, |
|
"learning_rate": 1.027e-05, |
|
"loss": 0.1806, |
|
"step": 2920 |
|
}, |
|
{ |
|
"epoch": 0.6608028867839423, |
|
"grad_norm": 3.109375, |
|
"learning_rate": 1.0236666666666668e-05, |
|
"loss": 0.1777, |
|
"step": 2930 |
|
}, |
|
{ |
|
"epoch": 0.6630581867388363, |
|
"grad_norm": 4.0625, |
|
"learning_rate": 1.0203333333333334e-05, |
|
"loss": 0.1851, |
|
"step": 2940 |
|
}, |
|
{ |
|
"epoch": 0.6653134866937302, |
|
"grad_norm": 2.90625, |
|
"learning_rate": 1.017e-05, |
|
"loss": 0.1684, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 0.6675687866486243, |
|
"grad_norm": 3.625, |
|
"learning_rate": 1.0136666666666667e-05, |
|
"loss": 0.1687, |
|
"step": 2960 |
|
}, |
|
{ |
|
"epoch": 0.6698240866035182, |
|
"grad_norm": 3.375, |
|
"learning_rate": 1.0103333333333334e-05, |
|
"loss": 0.1723, |
|
"step": 2970 |
|
}, |
|
{ |
|
"epoch": 0.6720793865584123, |
|
"grad_norm": 2.96875, |
|
"learning_rate": 1.007e-05, |
|
"loss": 0.1795, |
|
"step": 2980 |
|
}, |
|
{ |
|
"epoch": 0.6743346865133063, |
|
"grad_norm": 3.484375, |
|
"learning_rate": 1.0036666666666668e-05, |
|
"loss": 0.1718, |
|
"step": 2990 |
|
}, |
|
{ |
|
"epoch": 0.6765899864682002, |
|
"grad_norm": 3.5625, |
|
"learning_rate": 1.0003333333333333e-05, |
|
"loss": 0.1691, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.6788452864230943, |
|
"grad_norm": 3.203125, |
|
"learning_rate": 9.970000000000001e-06, |
|
"loss": 0.1805, |
|
"step": 3010 |
|
}, |
|
{ |
|
"epoch": 0.6811005863779883, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 9.936666666666668e-06, |
|
"loss": 0.1844, |
|
"step": 3020 |
|
}, |
|
{ |
|
"epoch": 0.6833558863328822, |
|
"grad_norm": 4.21875, |
|
"learning_rate": 9.903333333333334e-06, |
|
"loss": 0.1612, |
|
"step": 3030 |
|
}, |
|
{ |
|
"epoch": 0.6856111862877763, |
|
"grad_norm": 3.140625, |
|
"learning_rate": 9.87e-06, |
|
"loss": 0.1719, |
|
"step": 3040 |
|
}, |
|
{ |
|
"epoch": 0.6878664862426703, |
|
"grad_norm": 3.78125, |
|
"learning_rate": 9.836666666666668e-06, |
|
"loss": 0.1639, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 0.6901217861975643, |
|
"grad_norm": 3.59375, |
|
"learning_rate": 9.803333333333333e-06, |
|
"loss": 0.1555, |
|
"step": 3060 |
|
}, |
|
{ |
|
"epoch": 0.6923770861524583, |
|
"grad_norm": 3.109375, |
|
"learning_rate": 9.770000000000001e-06, |
|
"loss": 0.1695, |
|
"step": 3070 |
|
}, |
|
{ |
|
"epoch": 0.6946323861073522, |
|
"grad_norm": 3.203125, |
|
"learning_rate": 9.736666666666668e-06, |
|
"loss": 0.1684, |
|
"step": 3080 |
|
}, |
|
{ |
|
"epoch": 0.6968876860622463, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 9.703333333333334e-06, |
|
"loss": 0.1669, |
|
"step": 3090 |
|
}, |
|
{ |
|
"epoch": 0.6991429860171403, |
|
"grad_norm": 3.6875, |
|
"learning_rate": 9.67e-06, |
|
"loss": 0.1789, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 0.7013982859720342, |
|
"grad_norm": 3.578125, |
|
"learning_rate": 9.636666666666667e-06, |
|
"loss": 0.1776, |
|
"step": 3110 |
|
}, |
|
{ |
|
"epoch": 0.7036535859269283, |
|
"grad_norm": 3.125, |
|
"learning_rate": 9.603333333333335e-06, |
|
"loss": 0.1561, |
|
"step": 3120 |
|
}, |
|
{ |
|
"epoch": 0.7059088858818223, |
|
"grad_norm": 3.125, |
|
"learning_rate": 9.57e-06, |
|
"loss": 0.1609, |
|
"step": 3130 |
|
}, |
|
{ |
|
"epoch": 0.7081641858367163, |
|
"grad_norm": 3.75, |
|
"learning_rate": 9.536666666666668e-06, |
|
"loss": 0.1398, |
|
"step": 3140 |
|
}, |
|
{ |
|
"epoch": 0.7104194857916103, |
|
"grad_norm": 3.3125, |
|
"learning_rate": 9.503333333333334e-06, |
|
"loss": 0.167, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 0.7126747857465043, |
|
"grad_norm": 3.75, |
|
"learning_rate": 9.47e-06, |
|
"loss": 0.1546, |
|
"step": 3160 |
|
}, |
|
{ |
|
"epoch": 0.7149300857013983, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 9.436666666666667e-06, |
|
"loss": 0.1555, |
|
"step": 3170 |
|
}, |
|
{ |
|
"epoch": 0.7171853856562923, |
|
"grad_norm": 3.15625, |
|
"learning_rate": 9.403333333333334e-06, |
|
"loss": 0.1766, |
|
"step": 3180 |
|
}, |
|
{ |
|
"epoch": 0.7194406856111862, |
|
"grad_norm": 3.390625, |
|
"learning_rate": 9.370000000000002e-06, |
|
"loss": 0.1705, |
|
"step": 3190 |
|
}, |
|
{ |
|
"epoch": 0.7216959855660803, |
|
"grad_norm": 3.671875, |
|
"learning_rate": 9.336666666666666e-06, |
|
"loss": 0.1784, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 0.7239512855209743, |
|
"grad_norm": 3.125, |
|
"learning_rate": 9.303333333333335e-06, |
|
"loss": 0.1705, |
|
"step": 3210 |
|
}, |
|
{ |
|
"epoch": 0.7262065854758682, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 9.270000000000001e-06, |
|
"loss": 0.1562, |
|
"step": 3220 |
|
}, |
|
{ |
|
"epoch": 0.7284618854307623, |
|
"grad_norm": 2.96875, |
|
"learning_rate": 9.236666666666667e-06, |
|
"loss": 0.1421, |
|
"step": 3230 |
|
}, |
|
{ |
|
"epoch": 0.7307171853856563, |
|
"grad_norm": 3.609375, |
|
"learning_rate": 9.203333333333334e-06, |
|
"loss": 0.1663, |
|
"step": 3240 |
|
}, |
|
{ |
|
"epoch": 0.7329724853405503, |
|
"grad_norm": 2.84375, |
|
"learning_rate": 9.17e-06, |
|
"loss": 0.1729, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 0.7352277852954443, |
|
"grad_norm": 2.921875, |
|
"learning_rate": 9.136666666666667e-06, |
|
"loss": 0.1572, |
|
"step": 3260 |
|
}, |
|
{ |
|
"epoch": 0.7374830852503383, |
|
"grad_norm": 2.75, |
|
"learning_rate": 9.103333333333335e-06, |
|
"loss": 0.1574, |
|
"step": 3270 |
|
}, |
|
{ |
|
"epoch": 0.7397383852052323, |
|
"grad_norm": 4.0, |
|
"learning_rate": 9.070000000000001e-06, |
|
"loss": 0.158, |
|
"step": 3280 |
|
}, |
|
{ |
|
"epoch": 0.7419936851601263, |
|
"grad_norm": 3.140625, |
|
"learning_rate": 9.036666666666668e-06, |
|
"loss": 0.1743, |
|
"step": 3290 |
|
}, |
|
{ |
|
"epoch": 0.7442489851150202, |
|
"grad_norm": 3.125, |
|
"learning_rate": 9.003333333333334e-06, |
|
"loss": 0.1492, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 0.7465042850699143, |
|
"grad_norm": 3.578125, |
|
"learning_rate": 8.97e-06, |
|
"loss": 0.1544, |
|
"step": 3310 |
|
}, |
|
{ |
|
"epoch": 0.7487595850248083, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 8.936666666666669e-06, |
|
"loss": 0.154, |
|
"step": 3320 |
|
}, |
|
{ |
|
"epoch": 0.7510148849797023, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 8.903333333333333e-06, |
|
"loss": 0.1515, |
|
"step": 3330 |
|
}, |
|
{ |
|
"epoch": 0.7532701849345963, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 8.870000000000001e-06, |
|
"loss": 0.1601, |
|
"step": 3340 |
|
}, |
|
{ |
|
"epoch": 0.7555254848894903, |
|
"grad_norm": 5.375, |
|
"learning_rate": 8.836666666666668e-06, |
|
"loss": 0.1541, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 0.7577807848443843, |
|
"grad_norm": 3.0, |
|
"learning_rate": 8.803333333333334e-06, |
|
"loss": 0.137, |
|
"step": 3360 |
|
}, |
|
{ |
|
"epoch": 0.7600360847992783, |
|
"grad_norm": 4.3125, |
|
"learning_rate": 8.77e-06, |
|
"loss": 0.1518, |
|
"step": 3370 |
|
}, |
|
{ |
|
"epoch": 0.7622913847541724, |
|
"grad_norm": 2.96875, |
|
"learning_rate": 8.736666666666667e-06, |
|
"loss": 0.1557, |
|
"step": 3380 |
|
}, |
|
{ |
|
"epoch": 0.7645466847090663, |
|
"grad_norm": 3.171875, |
|
"learning_rate": 8.703333333333334e-06, |
|
"loss": 0.1459, |
|
"step": 3390 |
|
}, |
|
{ |
|
"epoch": 0.7668019846639603, |
|
"grad_norm": 3.390625, |
|
"learning_rate": 8.67e-06, |
|
"loss": 0.1457, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 0.7690572846188543, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 8.636666666666668e-06, |
|
"loss": 0.1437, |
|
"step": 3410 |
|
}, |
|
{ |
|
"epoch": 0.7713125845737483, |
|
"grad_norm": 3.53125, |
|
"learning_rate": 8.603333333333333e-06, |
|
"loss": 0.1575, |
|
"step": 3420 |
|
}, |
|
{ |
|
"epoch": 0.7735678845286423, |
|
"grad_norm": 2.765625, |
|
"learning_rate": 8.570000000000001e-06, |
|
"loss": 0.1405, |
|
"step": 3430 |
|
}, |
|
{ |
|
"epoch": 0.7758231844835363, |
|
"grad_norm": 2.46875, |
|
"learning_rate": 8.536666666666667e-06, |
|
"loss": 0.1479, |
|
"step": 3440 |
|
}, |
|
{ |
|
"epoch": 0.7780784844384303, |
|
"grad_norm": 3.140625, |
|
"learning_rate": 8.503333333333334e-06, |
|
"loss": 0.1513, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 0.7803337843933243, |
|
"grad_norm": 3.3125, |
|
"learning_rate": 8.47e-06, |
|
"loss": 0.1437, |
|
"step": 3460 |
|
}, |
|
{ |
|
"epoch": 0.7825890843482183, |
|
"grad_norm": 2.875, |
|
"learning_rate": 8.436666666666667e-06, |
|
"loss": 0.1434, |
|
"step": 3470 |
|
}, |
|
{ |
|
"epoch": 0.7848443843031123, |
|
"grad_norm": 2.34375, |
|
"learning_rate": 8.403333333333335e-06, |
|
"loss": 0.1442, |
|
"step": 3480 |
|
}, |
|
{ |
|
"epoch": 0.7870996842580064, |
|
"grad_norm": 3.578125, |
|
"learning_rate": 8.370000000000001e-06, |
|
"loss": 0.1449, |
|
"step": 3490 |
|
}, |
|
{ |
|
"epoch": 0.7893549842129003, |
|
"grad_norm": 3.453125, |
|
"learning_rate": 8.336666666666668e-06, |
|
"loss": 0.151, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 0.7916102841677943, |
|
"grad_norm": 2.796875, |
|
"learning_rate": 8.303333333333334e-06, |
|
"loss": 0.1407, |
|
"step": 3510 |
|
}, |
|
{ |
|
"epoch": 0.7938655841226884, |
|
"grad_norm": 3.015625, |
|
"learning_rate": 8.27e-06, |
|
"loss": 0.1566, |
|
"step": 3520 |
|
}, |
|
{ |
|
"epoch": 0.7961208840775823, |
|
"grad_norm": 3.328125, |
|
"learning_rate": 8.236666666666667e-06, |
|
"loss": 0.1574, |
|
"step": 3530 |
|
}, |
|
{ |
|
"epoch": 0.7983761840324763, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 8.203333333333335e-06, |
|
"loss": 0.1434, |
|
"step": 3540 |
|
}, |
|
{ |
|
"epoch": 0.8006314839873703, |
|
"grad_norm": 2.671875, |
|
"learning_rate": 8.17e-06, |
|
"loss": 0.1379, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 0.8028867839422643, |
|
"grad_norm": 2.984375, |
|
"learning_rate": 8.136666666666668e-06, |
|
"loss": 0.1685, |
|
"step": 3560 |
|
}, |
|
{ |
|
"epoch": 0.8051420838971584, |
|
"grad_norm": 2.875, |
|
"learning_rate": 8.103333333333334e-06, |
|
"loss": 0.1564, |
|
"step": 3570 |
|
}, |
|
{ |
|
"epoch": 0.8073973838520523, |
|
"grad_norm": 3.765625, |
|
"learning_rate": 8.07e-06, |
|
"loss": 0.1399, |
|
"step": 3580 |
|
}, |
|
{ |
|
"epoch": 0.8096526838069463, |
|
"grad_norm": 3.71875, |
|
"learning_rate": 8.036666666666667e-06, |
|
"loss": 0.1422, |
|
"step": 3590 |
|
}, |
|
{ |
|
"epoch": 0.8119079837618404, |
|
"grad_norm": 3.015625, |
|
"learning_rate": 8.003333333333334e-06, |
|
"loss": 0.1439, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 0.8141632837167343, |
|
"grad_norm": 3.3125, |
|
"learning_rate": 7.970000000000002e-06, |
|
"loss": 0.1473, |
|
"step": 3610 |
|
}, |
|
{ |
|
"epoch": 0.8164185836716283, |
|
"grad_norm": 3.484375, |
|
"learning_rate": 7.936666666666666e-06, |
|
"loss": 0.1598, |
|
"step": 3620 |
|
}, |
|
{ |
|
"epoch": 0.8186738836265224, |
|
"grad_norm": 3.671875, |
|
"learning_rate": 7.903333333333334e-06, |
|
"loss": 0.1431, |
|
"step": 3630 |
|
}, |
|
{ |
|
"epoch": 0.8209291835814163, |
|
"grad_norm": 3.375, |
|
"learning_rate": 7.870000000000001e-06, |
|
"loss": 0.1338, |
|
"step": 3640 |
|
}, |
|
{ |
|
"epoch": 0.8231844835363104, |
|
"grad_norm": 4.34375, |
|
"learning_rate": 7.836666666666667e-06, |
|
"loss": 0.1437, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 0.8254397834912043, |
|
"grad_norm": 4.5625, |
|
"learning_rate": 7.803333333333334e-06, |
|
"loss": 0.1383, |
|
"step": 3660 |
|
}, |
|
{ |
|
"epoch": 0.8276950834460983, |
|
"grad_norm": 2.84375, |
|
"learning_rate": 7.77e-06, |
|
"loss": 0.1452, |
|
"step": 3670 |
|
}, |
|
{ |
|
"epoch": 0.8299503834009924, |
|
"grad_norm": 3.6875, |
|
"learning_rate": 7.736666666666667e-06, |
|
"loss": 0.1566, |
|
"step": 3680 |
|
}, |
|
{ |
|
"epoch": 0.8322056833558863, |
|
"grad_norm": 3.4375, |
|
"learning_rate": 7.703333333333333e-06, |
|
"loss": 0.1416, |
|
"step": 3690 |
|
}, |
|
{ |
|
"epoch": 0.8344609833107803, |
|
"grad_norm": 3.21875, |
|
"learning_rate": 7.670000000000001e-06, |
|
"loss": 0.1296, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 0.8367162832656744, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 7.636666666666668e-06, |
|
"loss": 0.1422, |
|
"step": 3710 |
|
}, |
|
{ |
|
"epoch": 0.8389715832205683, |
|
"grad_norm": 3.765625, |
|
"learning_rate": 7.603333333333334e-06, |
|
"loss": 0.1448, |
|
"step": 3720 |
|
}, |
|
{ |
|
"epoch": 0.8412268831754623, |
|
"grad_norm": 2.859375, |
|
"learning_rate": 7.57e-06, |
|
"loss": 0.135, |
|
"step": 3730 |
|
}, |
|
{ |
|
"epoch": 0.8434821831303564, |
|
"grad_norm": 3.0, |
|
"learning_rate": 7.536666666666668e-06, |
|
"loss": 0.1428, |
|
"step": 3740 |
|
}, |
|
{ |
|
"epoch": 0.8457374830852503, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 7.503333333333333e-06, |
|
"loss": 0.138, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 0.8479927830401444, |
|
"grad_norm": 3.375, |
|
"learning_rate": 7.4700000000000005e-06, |
|
"loss": 0.125, |
|
"step": 3760 |
|
}, |
|
{ |
|
"epoch": 0.8502480829950383, |
|
"grad_norm": 2.296875, |
|
"learning_rate": 7.436666666666668e-06, |
|
"loss": 0.1317, |
|
"step": 3770 |
|
}, |
|
{ |
|
"epoch": 0.8525033829499323, |
|
"grad_norm": 3.296875, |
|
"learning_rate": 7.403333333333333e-06, |
|
"loss": 0.1258, |
|
"step": 3780 |
|
}, |
|
{ |
|
"epoch": 0.8547586829048264, |
|
"grad_norm": 2.671875, |
|
"learning_rate": 7.370000000000001e-06, |
|
"loss": 0.1403, |
|
"step": 3790 |
|
}, |
|
{ |
|
"epoch": 0.8570139828597203, |
|
"grad_norm": 4.03125, |
|
"learning_rate": 7.336666666666668e-06, |
|
"loss": 0.1466, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 0.8592692828146143, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 7.3033333333333334e-06, |
|
"loss": 0.1262, |
|
"step": 3810 |
|
}, |
|
{ |
|
"epoch": 0.8615245827695084, |
|
"grad_norm": 1.9921875, |
|
"learning_rate": 7.270000000000001e-06, |
|
"loss": 0.1427, |
|
"step": 3820 |
|
}, |
|
{ |
|
"epoch": 0.8637798827244023, |
|
"grad_norm": 3.546875, |
|
"learning_rate": 7.236666666666667e-06, |
|
"loss": 0.1193, |
|
"step": 3830 |
|
}, |
|
{ |
|
"epoch": 0.8660351826792964, |
|
"grad_norm": 4.1875, |
|
"learning_rate": 7.203333333333334e-06, |
|
"loss": 0.1337, |
|
"step": 3840 |
|
}, |
|
{ |
|
"epoch": 0.8682904826341904, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 7.17e-06, |
|
"loss": 0.1472, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 0.8705457825890843, |
|
"grad_norm": 2.75, |
|
"learning_rate": 7.136666666666667e-06, |
|
"loss": 0.1531, |
|
"step": 3860 |
|
}, |
|
{ |
|
"epoch": 0.8728010825439784, |
|
"grad_norm": 2.296875, |
|
"learning_rate": 7.1033333333333345e-06, |
|
"loss": 0.1334, |
|
"step": 3870 |
|
}, |
|
{ |
|
"epoch": 0.8750563824988723, |
|
"grad_norm": 2.765625, |
|
"learning_rate": 7.07e-06, |
|
"loss": 0.1339, |
|
"step": 3880 |
|
}, |
|
{ |
|
"epoch": 0.8773116824537663, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 7.036666666666667e-06, |
|
"loss": 0.1369, |
|
"step": 3890 |
|
}, |
|
{ |
|
"epoch": 0.8795669824086604, |
|
"grad_norm": 3.765625, |
|
"learning_rate": 7.003333333333335e-06, |
|
"loss": 0.1214, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 0.8818222823635543, |
|
"grad_norm": 2.734375, |
|
"learning_rate": 6.97e-06, |
|
"loss": 0.1387, |
|
"step": 3910 |
|
}, |
|
{ |
|
"epoch": 0.8840775823184484, |
|
"grad_norm": 3.125, |
|
"learning_rate": 6.9366666666666675e-06, |
|
"loss": 0.1469, |
|
"step": 3920 |
|
}, |
|
{ |
|
"epoch": 0.8863328822733424, |
|
"grad_norm": 2.5, |
|
"learning_rate": 6.903333333333334e-06, |
|
"loss": 0.1432, |
|
"step": 3930 |
|
}, |
|
{ |
|
"epoch": 0.8885881822282363, |
|
"grad_norm": 2.984375, |
|
"learning_rate": 6.870000000000001e-06, |
|
"loss": 0.1337, |
|
"step": 3940 |
|
}, |
|
{ |
|
"epoch": 0.8908434821831304, |
|
"grad_norm": 2.6875, |
|
"learning_rate": 6.836666666666667e-06, |
|
"loss": 0.131, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 0.8930987821380244, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 6.803333333333334e-06, |
|
"loss": 0.1385, |
|
"step": 3960 |
|
}, |
|
{ |
|
"epoch": 0.8953540820929183, |
|
"grad_norm": 2.1875, |
|
"learning_rate": 6.770000000000001e-06, |
|
"loss": 0.1379, |
|
"step": 3970 |
|
}, |
|
{ |
|
"epoch": 0.8976093820478124, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 6.736666666666667e-06, |
|
"loss": 0.1307, |
|
"step": 3980 |
|
}, |
|
{ |
|
"epoch": 0.8998646820027063, |
|
"grad_norm": 3.109375, |
|
"learning_rate": 6.703333333333334e-06, |
|
"loss": 0.1199, |
|
"step": 3990 |
|
}, |
|
{ |
|
"epoch": 0.9021199819576003, |
|
"grad_norm": 3.109375, |
|
"learning_rate": 6.6700000000000005e-06, |
|
"loss": 0.1262, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 0.9043752819124944, |
|
"grad_norm": 3.453125, |
|
"learning_rate": 6.636666666666667e-06, |
|
"loss": 0.1275, |
|
"step": 4010 |
|
}, |
|
{ |
|
"epoch": 0.9066305818673883, |
|
"grad_norm": 3.21875, |
|
"learning_rate": 6.603333333333334e-06, |
|
"loss": 0.1321, |
|
"step": 4020 |
|
}, |
|
{ |
|
"epoch": 0.9088858818222824, |
|
"grad_norm": 2.71875, |
|
"learning_rate": 6.570000000000001e-06, |
|
"loss": 0.1275, |
|
"step": 4030 |
|
}, |
|
{ |
|
"epoch": 0.9111411817771764, |
|
"grad_norm": 3.375, |
|
"learning_rate": 6.536666666666667e-06, |
|
"loss": 0.1068, |
|
"step": 4040 |
|
}, |
|
{ |
|
"epoch": 0.9133964817320703, |
|
"grad_norm": 2.984375, |
|
"learning_rate": 6.5033333333333335e-06, |
|
"loss": 0.1214, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 0.9156517816869644, |
|
"grad_norm": 3.28125, |
|
"learning_rate": 6.470000000000001e-06, |
|
"loss": 0.1306, |
|
"step": 4060 |
|
}, |
|
{ |
|
"epoch": 0.9179070816418584, |
|
"grad_norm": 3.40625, |
|
"learning_rate": 6.436666666666668e-06, |
|
"loss": 0.1331, |
|
"step": 4070 |
|
}, |
|
{ |
|
"epoch": 0.9201623815967523, |
|
"grad_norm": 3.578125, |
|
"learning_rate": 6.403333333333334e-06, |
|
"loss": 0.1334, |
|
"step": 4080 |
|
}, |
|
{ |
|
"epoch": 0.9224176815516464, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 6.370000000000001e-06, |
|
"loss": 0.1352, |
|
"step": 4090 |
|
}, |
|
{ |
|
"epoch": 0.9246729815065403, |
|
"grad_norm": 2.734375, |
|
"learning_rate": 6.336666666666667e-06, |
|
"loss": 0.1138, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 0.9269282814614344, |
|
"grad_norm": 2.984375, |
|
"learning_rate": 6.303333333333334e-06, |
|
"loss": 0.1163, |
|
"step": 4110 |
|
}, |
|
{ |
|
"epoch": 0.9291835814163284, |
|
"grad_norm": 3.21875, |
|
"learning_rate": 6.27e-06, |
|
"loss": 0.1235, |
|
"step": 4120 |
|
}, |
|
{ |
|
"epoch": 0.9314388813712223, |
|
"grad_norm": 3.40625, |
|
"learning_rate": 6.236666666666667e-06, |
|
"loss": 0.128, |
|
"step": 4130 |
|
}, |
|
{ |
|
"epoch": 0.9336941813261164, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 6.203333333333334e-06, |
|
"loss": 0.1254, |
|
"step": 4140 |
|
}, |
|
{ |
|
"epoch": 0.9359494812810104, |
|
"grad_norm": 2.78125, |
|
"learning_rate": 6.17e-06, |
|
"loss": 0.1272, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 0.9382047812359043, |
|
"grad_norm": 2.390625, |
|
"learning_rate": 6.1366666666666675e-06, |
|
"loss": 0.1294, |
|
"step": 4160 |
|
}, |
|
{ |
|
"epoch": 0.9404600811907984, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 6.103333333333333e-06, |
|
"loss": 0.1231, |
|
"step": 4170 |
|
}, |
|
{ |
|
"epoch": 0.9427153811456924, |
|
"grad_norm": 2.6875, |
|
"learning_rate": 6.07e-06, |
|
"loss": 0.1424, |
|
"step": 4180 |
|
}, |
|
{ |
|
"epoch": 0.9449706811005864, |
|
"grad_norm": 2.71875, |
|
"learning_rate": 6.036666666666668e-06, |
|
"loss": 0.1214, |
|
"step": 4190 |
|
}, |
|
{ |
|
"epoch": 0.9472259810554804, |
|
"grad_norm": 3.15625, |
|
"learning_rate": 6.003333333333334e-06, |
|
"loss": 0.1147, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 0.9494812810103744, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 5.9700000000000004e-06, |
|
"loss": 0.1256, |
|
"step": 4210 |
|
}, |
|
{ |
|
"epoch": 0.9517365809652684, |
|
"grad_norm": 2.796875, |
|
"learning_rate": 5.936666666666667e-06, |
|
"loss": 0.1232, |
|
"step": 4220 |
|
}, |
|
{ |
|
"epoch": 0.9539918809201624, |
|
"grad_norm": 2.765625, |
|
"learning_rate": 5.903333333333334e-06, |
|
"loss": 0.1103, |
|
"step": 4230 |
|
}, |
|
{ |
|
"epoch": 0.9562471808750563, |
|
"grad_norm": 4.09375, |
|
"learning_rate": 5.8700000000000005e-06, |
|
"loss": 0.1294, |
|
"step": 4240 |
|
}, |
|
{ |
|
"epoch": 0.9585024808299504, |
|
"grad_norm": 2.46875, |
|
"learning_rate": 5.836666666666667e-06, |
|
"loss": 0.1243, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 0.9607577807848444, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 5.803333333333334e-06, |
|
"loss": 0.1165, |
|
"step": 4260 |
|
}, |
|
{ |
|
"epoch": 0.9630130807397383, |
|
"grad_norm": 3.4375, |
|
"learning_rate": 5.77e-06, |
|
"loss": 0.1192, |
|
"step": 4270 |
|
}, |
|
{ |
|
"epoch": 0.9652683806946324, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 5.736666666666667e-06, |
|
"loss": 0.1175, |
|
"step": 4280 |
|
}, |
|
{ |
|
"epoch": 0.9675236806495264, |
|
"grad_norm": 2.328125, |
|
"learning_rate": 5.703333333333334e-06, |
|
"loss": 0.1214, |
|
"step": 4290 |
|
}, |
|
{ |
|
"epoch": 0.9697789806044204, |
|
"grad_norm": 2.765625, |
|
"learning_rate": 5.67e-06, |
|
"loss": 0.1162, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 0.9720342805593144, |
|
"grad_norm": 2.765625, |
|
"learning_rate": 5.636666666666667e-06, |
|
"loss": 0.1221, |
|
"step": 4310 |
|
}, |
|
{ |
|
"epoch": 0.9742895805142084, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 5.603333333333334e-06, |
|
"loss": 0.1135, |
|
"step": 4320 |
|
}, |
|
{ |
|
"epoch": 0.9765448804691024, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 5.570000000000001e-06, |
|
"loss": 0.1137, |
|
"step": 4330 |
|
}, |
|
{ |
|
"epoch": 0.9788001804239964, |
|
"grad_norm": 2.71875, |
|
"learning_rate": 5.5366666666666665e-06, |
|
"loss": 0.1209, |
|
"step": 4340 |
|
}, |
|
{ |
|
"epoch": 0.9810554803788903, |
|
"grad_norm": 2.203125, |
|
"learning_rate": 5.503333333333334e-06, |
|
"loss": 0.1373, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 0.9833107803337844, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 5.470000000000001e-06, |
|
"loss": 0.1196, |
|
"step": 4360 |
|
}, |
|
{ |
|
"epoch": 0.9855660802886784, |
|
"grad_norm": 3.0625, |
|
"learning_rate": 5.4366666666666666e-06, |
|
"loss": 0.1194, |
|
"step": 4370 |
|
}, |
|
{ |
|
"epoch": 0.9878213802435724, |
|
"grad_norm": 3.3125, |
|
"learning_rate": 5.403333333333334e-06, |
|
"loss": 0.1098, |
|
"step": 4380 |
|
}, |
|
{ |
|
"epoch": 0.9900766801984664, |
|
"grad_norm": 2.59375, |
|
"learning_rate": 5.370000000000001e-06, |
|
"loss": 0.1192, |
|
"step": 4390 |
|
}, |
|
{ |
|
"epoch": 0.9923319801533604, |
|
"grad_norm": 2.734375, |
|
"learning_rate": 5.336666666666667e-06, |
|
"loss": 0.1077, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 0.9945872801082544, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 5.303333333333334e-06, |
|
"loss": 0.126, |
|
"step": 4410 |
|
}, |
|
{ |
|
"epoch": 0.9968425800631484, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 5.27e-06, |
|
"loss": 0.1223, |
|
"step": 4420 |
|
}, |
|
{ |
|
"epoch": 0.9990978800180425, |
|
"grad_norm": 3.515625, |
|
"learning_rate": 5.236666666666667e-06, |
|
"loss": 0.1176, |
|
"step": 4430 |
|
}, |
|
{ |
|
"epoch": 1.0013531799729365, |
|
"grad_norm": 2.640625, |
|
"learning_rate": 5.203333333333333e-06, |
|
"loss": 0.1064, |
|
"step": 4440 |
|
}, |
|
{ |
|
"epoch": 1.0036084799278304, |
|
"grad_norm": 1.5625, |
|
"learning_rate": 5.1700000000000005e-06, |
|
"loss": 0.1128, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 1.0058637798827244, |
|
"grad_norm": 2.078125, |
|
"learning_rate": 5.136666666666668e-06, |
|
"loss": 0.0987, |
|
"step": 4460 |
|
}, |
|
{ |
|
"epoch": 1.0081190798376185, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 5.103333333333333e-06, |
|
"loss": 0.1084, |
|
"step": 4470 |
|
}, |
|
{ |
|
"epoch": 1.0103743797925124, |
|
"grad_norm": 2.0, |
|
"learning_rate": 5.070000000000001e-06, |
|
"loss": 0.1035, |
|
"step": 4480 |
|
}, |
|
{ |
|
"epoch": 1.0126296797474064, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 5.036666666666668e-06, |
|
"loss": 0.1083, |
|
"step": 4490 |
|
}, |
|
{ |
|
"epoch": 1.0148849797023005, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 5.0033333333333334e-06, |
|
"loss": 0.117, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 1.0171402796571944, |
|
"grad_norm": 3.234375, |
|
"learning_rate": 4.970000000000001e-06, |
|
"loss": 0.0979, |
|
"step": 4510 |
|
}, |
|
{ |
|
"epoch": 1.0193955796120884, |
|
"grad_norm": 1.9765625, |
|
"learning_rate": 4.936666666666667e-06, |
|
"loss": 0.0954, |
|
"step": 4520 |
|
}, |
|
{ |
|
"epoch": 1.0216508795669823, |
|
"grad_norm": 2.890625, |
|
"learning_rate": 4.9033333333333335e-06, |
|
"loss": 0.0957, |
|
"step": 4530 |
|
}, |
|
{ |
|
"epoch": 1.0239061795218765, |
|
"grad_norm": 3.046875, |
|
"learning_rate": 4.87e-06, |
|
"loss": 0.1065, |
|
"step": 4540 |
|
}, |
|
{ |
|
"epoch": 1.0261614794767704, |
|
"grad_norm": 2.046875, |
|
"learning_rate": 4.836666666666667e-06, |
|
"loss": 0.0878, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 1.0284167794316643, |
|
"grad_norm": 2.390625, |
|
"learning_rate": 4.803333333333334e-06, |
|
"loss": 0.1011, |
|
"step": 4560 |
|
}, |
|
{ |
|
"epoch": 1.0306720793865585, |
|
"grad_norm": 2.828125, |
|
"learning_rate": 4.77e-06, |
|
"loss": 0.0977, |
|
"step": 4570 |
|
}, |
|
{ |
|
"epoch": 1.0329273793414524, |
|
"grad_norm": 2.59375, |
|
"learning_rate": 4.736666666666667e-06, |
|
"loss": 0.1086, |
|
"step": 4580 |
|
}, |
|
{ |
|
"epoch": 1.0351826792963463, |
|
"grad_norm": 2.203125, |
|
"learning_rate": 4.703333333333334e-06, |
|
"loss": 0.1006, |
|
"step": 4590 |
|
}, |
|
{ |
|
"epoch": 1.0374379792512405, |
|
"grad_norm": 3.65625, |
|
"learning_rate": 4.670000000000001e-06, |
|
"loss": 0.1144, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 1.0396932792061344, |
|
"grad_norm": 2.40625, |
|
"learning_rate": 4.6366666666666674e-06, |
|
"loss": 0.101, |
|
"step": 4610 |
|
}, |
|
{ |
|
"epoch": 1.0419485791610283, |
|
"grad_norm": 2.171875, |
|
"learning_rate": 4.603333333333334e-06, |
|
"loss": 0.0841, |
|
"step": 4620 |
|
}, |
|
{ |
|
"epoch": 1.0442038791159225, |
|
"grad_norm": 3.921875, |
|
"learning_rate": 4.57e-06, |
|
"loss": 0.1046, |
|
"step": 4630 |
|
}, |
|
{ |
|
"epoch": 1.0464591790708164, |
|
"grad_norm": 2.4375, |
|
"learning_rate": 4.536666666666667e-06, |
|
"loss": 0.0975, |
|
"step": 4640 |
|
}, |
|
{ |
|
"epoch": 1.0487144790257104, |
|
"grad_norm": 3.171875, |
|
"learning_rate": 4.503333333333333e-06, |
|
"loss": 0.0955, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 1.0509697789806045, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 4.47e-06, |
|
"loss": 0.1083, |
|
"step": 4660 |
|
}, |
|
{ |
|
"epoch": 1.0532250789354984, |
|
"grad_norm": 2.078125, |
|
"learning_rate": 4.436666666666667e-06, |
|
"loss": 0.1139, |
|
"step": 4670 |
|
}, |
|
{ |
|
"epoch": 1.0554803788903924, |
|
"grad_norm": 2.421875, |
|
"learning_rate": 4.403333333333334e-06, |
|
"loss": 0.1052, |
|
"step": 4680 |
|
}, |
|
{ |
|
"epoch": 1.0577356788452865, |
|
"grad_norm": 2.09375, |
|
"learning_rate": 4.3700000000000005e-06, |
|
"loss": 0.0956, |
|
"step": 4690 |
|
}, |
|
{ |
|
"epoch": 1.0599909788001805, |
|
"grad_norm": 2.578125, |
|
"learning_rate": 4.336666666666667e-06, |
|
"loss": 0.0991, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 1.0622462787550744, |
|
"grad_norm": 2.15625, |
|
"learning_rate": 4.303333333333334e-06, |
|
"loss": 0.1256, |
|
"step": 4710 |
|
}, |
|
{ |
|
"epoch": 1.0645015787099683, |
|
"grad_norm": 2.34375, |
|
"learning_rate": 4.270000000000001e-06, |
|
"loss": 0.1075, |
|
"step": 4720 |
|
}, |
|
{ |
|
"epoch": 1.0667568786648625, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 4.236666666666667e-06, |
|
"loss": 0.0935, |
|
"step": 4730 |
|
}, |
|
{ |
|
"epoch": 1.0690121786197564, |
|
"grad_norm": 1.78125, |
|
"learning_rate": 4.2033333333333335e-06, |
|
"loss": 0.1012, |
|
"step": 4740 |
|
}, |
|
{ |
|
"epoch": 1.0712674785746503, |
|
"grad_norm": 2.0625, |
|
"learning_rate": 4.17e-06, |
|
"loss": 0.1035, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 1.0735227785295445, |
|
"grad_norm": 3.328125, |
|
"learning_rate": 4.136666666666667e-06, |
|
"loss": 0.1075, |
|
"step": 4760 |
|
}, |
|
{ |
|
"epoch": 1.0757780784844384, |
|
"grad_norm": 1.9296875, |
|
"learning_rate": 4.1033333333333336e-06, |
|
"loss": 0.1054, |
|
"step": 4770 |
|
}, |
|
{ |
|
"epoch": 1.0780333784393323, |
|
"grad_norm": 2.265625, |
|
"learning_rate": 4.07e-06, |
|
"loss": 0.0883, |
|
"step": 4780 |
|
}, |
|
{ |
|
"epoch": 1.0802886783942265, |
|
"grad_norm": 2.390625, |
|
"learning_rate": 4.036666666666667e-06, |
|
"loss": 0.0988, |
|
"step": 4790 |
|
}, |
|
{ |
|
"epoch": 1.0825439783491204, |
|
"grad_norm": 3.078125, |
|
"learning_rate": 4.003333333333334e-06, |
|
"loss": 0.1047, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 1.0847992783040143, |
|
"grad_norm": 2.84375, |
|
"learning_rate": 3.97e-06, |
|
"loss": 0.123, |
|
"step": 4810 |
|
}, |
|
{ |
|
"epoch": 1.0870545782589085, |
|
"grad_norm": 2.671875, |
|
"learning_rate": 3.936666666666667e-06, |
|
"loss": 0.0982, |
|
"step": 4820 |
|
}, |
|
{ |
|
"epoch": 1.0893098782138024, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 3.903333333333334e-06, |
|
"loss": 0.1112, |
|
"step": 4830 |
|
}, |
|
{ |
|
"epoch": 1.0915651781686964, |
|
"grad_norm": 2.59375, |
|
"learning_rate": 3.87e-06, |
|
"loss": 0.119, |
|
"step": 4840 |
|
}, |
|
{ |
|
"epoch": 1.0938204781235905, |
|
"grad_norm": 1.9765625, |
|
"learning_rate": 3.836666666666667e-06, |
|
"loss": 0.0939, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 1.0960757780784844, |
|
"grad_norm": 2.734375, |
|
"learning_rate": 3.803333333333334e-06, |
|
"loss": 0.0933, |
|
"step": 4860 |
|
}, |
|
{ |
|
"epoch": 1.0983310780333784, |
|
"grad_norm": 3.265625, |
|
"learning_rate": 3.7700000000000003e-06, |
|
"loss": 0.0983, |
|
"step": 4870 |
|
}, |
|
{ |
|
"epoch": 1.1005863779882725, |
|
"grad_norm": 1.8203125, |
|
"learning_rate": 3.7366666666666667e-06, |
|
"loss": 0.1099, |
|
"step": 4880 |
|
}, |
|
{ |
|
"epoch": 1.1028416779431665, |
|
"grad_norm": 2.203125, |
|
"learning_rate": 3.7033333333333336e-06, |
|
"loss": 0.0952, |
|
"step": 4890 |
|
}, |
|
{ |
|
"epoch": 1.1050969778980604, |
|
"grad_norm": 2.0625, |
|
"learning_rate": 3.6700000000000004e-06, |
|
"loss": 0.0789, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 1.1073522778529545, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 3.6366666666666673e-06, |
|
"loss": 0.1048, |
|
"step": 4910 |
|
}, |
|
{ |
|
"epoch": 1.1096075778078485, |
|
"grad_norm": 2.765625, |
|
"learning_rate": 3.6033333333333337e-06, |
|
"loss": 0.1165, |
|
"step": 4920 |
|
}, |
|
{ |
|
"epoch": 1.1118628777627424, |
|
"grad_norm": 3.46875, |
|
"learning_rate": 3.57e-06, |
|
"loss": 0.1013, |
|
"step": 4930 |
|
}, |
|
{ |
|
"epoch": 1.1141181777176365, |
|
"grad_norm": 2.609375, |
|
"learning_rate": 3.536666666666667e-06, |
|
"loss": 0.1291, |
|
"step": 4940 |
|
}, |
|
{ |
|
"epoch": 1.1163734776725305, |
|
"grad_norm": 2.3125, |
|
"learning_rate": 3.5033333333333334e-06, |
|
"loss": 0.1018, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 1.1186287776274244, |
|
"grad_norm": 2.890625, |
|
"learning_rate": 3.4700000000000002e-06, |
|
"loss": 0.1039, |
|
"step": 4960 |
|
}, |
|
{ |
|
"epoch": 1.1208840775823186, |
|
"grad_norm": 2.65625, |
|
"learning_rate": 3.436666666666667e-06, |
|
"loss": 0.0958, |
|
"step": 4970 |
|
}, |
|
{ |
|
"epoch": 1.1231393775372125, |
|
"grad_norm": 2.140625, |
|
"learning_rate": 3.4033333333333335e-06, |
|
"loss": 0.0811, |
|
"step": 4980 |
|
}, |
|
{ |
|
"epoch": 1.1253946774921064, |
|
"grad_norm": 2.078125, |
|
"learning_rate": 3.3700000000000003e-06, |
|
"loss": 0.1002, |
|
"step": 4990 |
|
}, |
|
{ |
|
"epoch": 1.1276499774470006, |
|
"grad_norm": 2.53125, |
|
"learning_rate": 3.3366666666666668e-06, |
|
"loss": 0.1201, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 1.1299052774018945, |
|
"grad_norm": 2.109375, |
|
"learning_rate": 3.303333333333333e-06, |
|
"loss": 0.1172, |
|
"step": 5010 |
|
}, |
|
{ |
|
"epoch": 1.1321605773567884, |
|
"grad_norm": 2.109375, |
|
"learning_rate": 3.2700000000000005e-06, |
|
"loss": 0.1013, |
|
"step": 5020 |
|
}, |
|
{ |
|
"epoch": 1.1344158773116824, |
|
"grad_norm": 2.859375, |
|
"learning_rate": 3.236666666666667e-06, |
|
"loss": 0.0815, |
|
"step": 5030 |
|
}, |
|
{ |
|
"epoch": 1.1366711772665765, |
|
"grad_norm": 1.859375, |
|
"learning_rate": 3.2033333333333337e-06, |
|
"loss": 0.1105, |
|
"step": 5040 |
|
}, |
|
{ |
|
"epoch": 1.1389264772214704, |
|
"grad_norm": 2.078125, |
|
"learning_rate": 3.17e-06, |
|
"loss": 0.1004, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 1.1411817771763644, |
|
"grad_norm": 2.515625, |
|
"learning_rate": 3.1366666666666666e-06, |
|
"loss": 0.0956, |
|
"step": 5060 |
|
}, |
|
{ |
|
"epoch": 1.1434370771312585, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 3.103333333333334e-06, |
|
"loss": 0.0966, |
|
"step": 5070 |
|
}, |
|
{ |
|
"epoch": 1.1456923770861525, |
|
"grad_norm": 1.671875, |
|
"learning_rate": 3.0700000000000003e-06, |
|
"loss": 0.1093, |
|
"step": 5080 |
|
}, |
|
{ |
|
"epoch": 1.1479476770410464, |
|
"grad_norm": 1.8984375, |
|
"learning_rate": 3.0366666666666667e-06, |
|
"loss": 0.1048, |
|
"step": 5090 |
|
}, |
|
{ |
|
"epoch": 1.1502029769959405, |
|
"grad_norm": 2.46875, |
|
"learning_rate": 3.0033333333333335e-06, |
|
"loss": 0.096, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 1.1524582769508345, |
|
"grad_norm": 2.1875, |
|
"learning_rate": 2.97e-06, |
|
"loss": 0.1086, |
|
"step": 5110 |
|
}, |
|
{ |
|
"epoch": 1.1547135769057284, |
|
"grad_norm": 2.265625, |
|
"learning_rate": 2.936666666666667e-06, |
|
"loss": 0.107, |
|
"step": 5120 |
|
}, |
|
{ |
|
"epoch": 1.1569688768606226, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 2.9033333333333336e-06, |
|
"loss": 0.101, |
|
"step": 5130 |
|
}, |
|
{ |
|
"epoch": 1.1592241768155165, |
|
"grad_norm": 1.9140625, |
|
"learning_rate": 2.87e-06, |
|
"loss": 0.0915, |
|
"step": 5140 |
|
}, |
|
{ |
|
"epoch": 1.1614794767704104, |
|
"grad_norm": 2.328125, |
|
"learning_rate": 2.836666666666667e-06, |
|
"loss": 0.1138, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 1.1637347767253043, |
|
"grad_norm": 2.328125, |
|
"learning_rate": 2.8033333333333333e-06, |
|
"loss": 0.1046, |
|
"step": 5160 |
|
}, |
|
{ |
|
"epoch": 1.1659900766801985, |
|
"grad_norm": 2.953125, |
|
"learning_rate": 2.7700000000000006e-06, |
|
"loss": 0.1082, |
|
"step": 5170 |
|
}, |
|
{ |
|
"epoch": 1.1682453766350924, |
|
"grad_norm": 1.75, |
|
"learning_rate": 2.736666666666667e-06, |
|
"loss": 0.102, |
|
"step": 5180 |
|
}, |
|
{ |
|
"epoch": 1.1705006765899864, |
|
"grad_norm": 2.296875, |
|
"learning_rate": 2.7033333333333334e-06, |
|
"loss": 0.0988, |
|
"step": 5190 |
|
}, |
|
{ |
|
"epoch": 1.1727559765448805, |
|
"grad_norm": 3.015625, |
|
"learning_rate": 2.6700000000000003e-06, |
|
"loss": 0.1008, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 1.1750112764997744, |
|
"grad_norm": 2.0625, |
|
"learning_rate": 2.6366666666666667e-06, |
|
"loss": 0.1001, |
|
"step": 5210 |
|
}, |
|
{ |
|
"epoch": 1.1772665764546684, |
|
"grad_norm": 1.765625, |
|
"learning_rate": 2.603333333333334e-06, |
|
"loss": 0.102, |
|
"step": 5220 |
|
}, |
|
{ |
|
"epoch": 1.1795218764095625, |
|
"grad_norm": 2.1875, |
|
"learning_rate": 2.5700000000000004e-06, |
|
"loss": 0.0954, |
|
"step": 5230 |
|
}, |
|
{ |
|
"epoch": 1.1817771763644564, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 2.536666666666667e-06, |
|
"loss": 0.1014, |
|
"step": 5240 |
|
}, |
|
{ |
|
"epoch": 1.1840324763193504, |
|
"grad_norm": 1.6875, |
|
"learning_rate": 2.5033333333333336e-06, |
|
"loss": 0.1032, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 1.1862877762742445, |
|
"grad_norm": 2.078125, |
|
"learning_rate": 2.47e-06, |
|
"loss": 0.1037, |
|
"step": 5260 |
|
}, |
|
{ |
|
"epoch": 1.1885430762291385, |
|
"grad_norm": 2.171875, |
|
"learning_rate": 2.436666666666667e-06, |
|
"loss": 0.0912, |
|
"step": 5270 |
|
}, |
|
{ |
|
"epoch": 1.1907983761840324, |
|
"grad_norm": 2.546875, |
|
"learning_rate": 2.4033333333333338e-06, |
|
"loss": 0.0874, |
|
"step": 5280 |
|
}, |
|
{ |
|
"epoch": 1.1930536761389265, |
|
"grad_norm": 2.296875, |
|
"learning_rate": 2.37e-06, |
|
"loss": 0.0877, |
|
"step": 5290 |
|
}, |
|
{ |
|
"epoch": 1.1953089760938205, |
|
"grad_norm": 2.875, |
|
"learning_rate": 2.3366666666666666e-06, |
|
"loss": 0.0966, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 1.1975642760487144, |
|
"grad_norm": 1.9921875, |
|
"learning_rate": 2.3033333333333334e-06, |
|
"loss": 0.096, |
|
"step": 5310 |
|
}, |
|
{ |
|
"epoch": 1.1998195760036086, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 2.2700000000000003e-06, |
|
"loss": 0.1119, |
|
"step": 5320 |
|
}, |
|
{ |
|
"epoch": 1.2020748759585025, |
|
"grad_norm": 2.078125, |
|
"learning_rate": 2.236666666666667e-06, |
|
"loss": 0.0967, |
|
"step": 5330 |
|
}, |
|
{ |
|
"epoch": 1.2043301759133964, |
|
"grad_norm": 1.921875, |
|
"learning_rate": 2.2033333333333336e-06, |
|
"loss": 0.1065, |
|
"step": 5340 |
|
}, |
|
{ |
|
"epoch": 1.2065854758682906, |
|
"grad_norm": 3.65625, |
|
"learning_rate": 2.17e-06, |
|
"loss": 0.1093, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 1.2088407758231845, |
|
"grad_norm": 2.28125, |
|
"learning_rate": 2.136666666666667e-06, |
|
"loss": 0.1131, |
|
"step": 5360 |
|
}, |
|
{ |
|
"epoch": 1.2110960757780784, |
|
"grad_norm": 2.25, |
|
"learning_rate": 2.1033333333333337e-06, |
|
"loss": 0.0938, |
|
"step": 5370 |
|
}, |
|
{ |
|
"epoch": 1.2133513757329726, |
|
"grad_norm": 2.203125, |
|
"learning_rate": 2.07e-06, |
|
"loss": 0.0951, |
|
"step": 5380 |
|
}, |
|
{ |
|
"epoch": 1.2156066756878665, |
|
"grad_norm": 2.09375, |
|
"learning_rate": 2.036666666666667e-06, |
|
"loss": 0.1138, |
|
"step": 5390 |
|
}, |
|
{ |
|
"epoch": 1.2178619756427604, |
|
"grad_norm": 2.34375, |
|
"learning_rate": 2.0033333333333334e-06, |
|
"loss": 0.0944, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 1.2201172755976546, |
|
"grad_norm": 1.9296875, |
|
"learning_rate": 1.97e-06, |
|
"loss": 0.0991, |
|
"step": 5410 |
|
}, |
|
{ |
|
"epoch": 1.2223725755525485, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 1.9366666666666666e-06, |
|
"loss": 0.1096, |
|
"step": 5420 |
|
}, |
|
{ |
|
"epoch": 1.2246278755074425, |
|
"grad_norm": 2.03125, |
|
"learning_rate": 1.9033333333333335e-06, |
|
"loss": 0.1197, |
|
"step": 5430 |
|
}, |
|
{ |
|
"epoch": 1.2268831754623366, |
|
"grad_norm": 2.15625, |
|
"learning_rate": 1.87e-06, |
|
"loss": 0.1, |
|
"step": 5440 |
|
}, |
|
{ |
|
"epoch": 1.2291384754172305, |
|
"grad_norm": 2.15625, |
|
"learning_rate": 1.836666666666667e-06, |
|
"loss": 0.1017, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 1.2313937753721245, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 1.8033333333333336e-06, |
|
"loss": 0.1099, |
|
"step": 5460 |
|
}, |
|
{ |
|
"epoch": 1.2336490753270186, |
|
"grad_norm": 2.109375, |
|
"learning_rate": 1.77e-06, |
|
"loss": 0.1058, |
|
"step": 5470 |
|
}, |
|
{ |
|
"epoch": 1.2359043752819125, |
|
"grad_norm": 2.171875, |
|
"learning_rate": 1.7366666666666668e-06, |
|
"loss": 0.1007, |
|
"step": 5480 |
|
}, |
|
{ |
|
"epoch": 1.2381596752368065, |
|
"grad_norm": 2.375, |
|
"learning_rate": 1.7033333333333335e-06, |
|
"loss": 0.0947, |
|
"step": 5490 |
|
}, |
|
{ |
|
"epoch": 1.2404149751917004, |
|
"grad_norm": 2.125, |
|
"learning_rate": 1.6700000000000003e-06, |
|
"loss": 0.0936, |
|
"step": 5500 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 6000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 2, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 4.057702632259584e+18, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|