patient-V2.0 / checkpoint-5500 /trainer_state.json
CodCodingCode's picture
Upload folder using huggingface_hub
0aa9a61 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.2404149751917004,
"eval_steps": 500,
"global_step": 5500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0022552999548940008,
"grad_norm": 3.71875,
"learning_rate": 1.9970000000000004e-05,
"loss": 1.2486,
"step": 10
},
{
"epoch": 0.0045105999097880016,
"grad_norm": 2.9375,
"learning_rate": 1.993666666666667e-05,
"loss": 0.9533,
"step": 20
},
{
"epoch": 0.006765899864682003,
"grad_norm": 2.71875,
"learning_rate": 1.9903333333333333e-05,
"loss": 0.8758,
"step": 30
},
{
"epoch": 0.009021199819576003,
"grad_norm": 2.640625,
"learning_rate": 1.987e-05,
"loss": 0.8479,
"step": 40
},
{
"epoch": 0.011276499774470004,
"grad_norm": 2.5625,
"learning_rate": 1.983666666666667e-05,
"loss": 0.8127,
"step": 50
},
{
"epoch": 0.013531799729364006,
"grad_norm": 2.375,
"learning_rate": 1.9803333333333334e-05,
"loss": 0.812,
"step": 60
},
{
"epoch": 0.015787099684258007,
"grad_norm": 2.421875,
"learning_rate": 1.9770000000000002e-05,
"loss": 0.7799,
"step": 70
},
{
"epoch": 0.018042399639152006,
"grad_norm": 2.796875,
"learning_rate": 1.9736666666666667e-05,
"loss": 0.8005,
"step": 80
},
{
"epoch": 0.02029769959404601,
"grad_norm": 2.40625,
"learning_rate": 1.9703333333333335e-05,
"loss": 0.7766,
"step": 90
},
{
"epoch": 0.02255299954894001,
"grad_norm": 2.578125,
"learning_rate": 1.9670000000000003e-05,
"loss": 0.7611,
"step": 100
},
{
"epoch": 0.02480829950383401,
"grad_norm": 2.375,
"learning_rate": 1.9636666666666668e-05,
"loss": 0.7492,
"step": 110
},
{
"epoch": 0.02706359945872801,
"grad_norm": 2.421875,
"learning_rate": 1.9603333333333333e-05,
"loss": 0.7518,
"step": 120
},
{
"epoch": 0.02931889941362201,
"grad_norm": 2.296875,
"learning_rate": 1.957e-05,
"loss": 0.7677,
"step": 130
},
{
"epoch": 0.031574199368516014,
"grad_norm": 2.609375,
"learning_rate": 1.953666666666667e-05,
"loss": 0.7275,
"step": 140
},
{
"epoch": 0.03382949932341001,
"grad_norm": 2.65625,
"learning_rate": 1.9503333333333334e-05,
"loss": 0.7348,
"step": 150
},
{
"epoch": 0.03608479927830401,
"grad_norm": 2.421875,
"learning_rate": 1.947e-05,
"loss": 0.7438,
"step": 160
},
{
"epoch": 0.03834009923319801,
"grad_norm": 2.203125,
"learning_rate": 1.943666666666667e-05,
"loss": 0.7227,
"step": 170
},
{
"epoch": 0.04059539918809202,
"grad_norm": 2.453125,
"learning_rate": 1.9403333333333334e-05,
"loss": 0.7117,
"step": 180
},
{
"epoch": 0.04285069914298602,
"grad_norm": 2.1875,
"learning_rate": 1.9370000000000003e-05,
"loss": 0.7232,
"step": 190
},
{
"epoch": 0.04510599909788002,
"grad_norm": 2.25,
"learning_rate": 1.9336666666666667e-05,
"loss": 0.7289,
"step": 200
},
{
"epoch": 0.04736129905277402,
"grad_norm": 2.265625,
"learning_rate": 1.9303333333333335e-05,
"loss": 0.6979,
"step": 210
},
{
"epoch": 0.04961659900766802,
"grad_norm": 2.25,
"learning_rate": 1.9270000000000004e-05,
"loss": 0.6891,
"step": 220
},
{
"epoch": 0.05187189896256202,
"grad_norm": 2.1875,
"learning_rate": 1.9236666666666668e-05,
"loss": 0.7168,
"step": 230
},
{
"epoch": 0.05412719891745602,
"grad_norm": 2.578125,
"learning_rate": 1.9203333333333333e-05,
"loss": 0.6879,
"step": 240
},
{
"epoch": 0.05638249887235002,
"grad_norm": 2.4375,
"learning_rate": 1.917e-05,
"loss": 0.6775,
"step": 250
},
{
"epoch": 0.05863779882724402,
"grad_norm": 2.28125,
"learning_rate": 1.913666666666667e-05,
"loss": 0.6832,
"step": 260
},
{
"epoch": 0.06089309878213803,
"grad_norm": 2.203125,
"learning_rate": 1.9103333333333337e-05,
"loss": 0.6553,
"step": 270
},
{
"epoch": 0.06314839873703203,
"grad_norm": 2.265625,
"learning_rate": 1.9070000000000002e-05,
"loss": 0.6733,
"step": 280
},
{
"epoch": 0.06540369869192603,
"grad_norm": 2.1875,
"learning_rate": 1.9036666666666667e-05,
"loss": 0.6811,
"step": 290
},
{
"epoch": 0.06765899864682003,
"grad_norm": 2.40625,
"learning_rate": 1.9003333333333335e-05,
"loss": 0.668,
"step": 300
},
{
"epoch": 0.06991429860171403,
"grad_norm": 2.265625,
"learning_rate": 1.8970000000000003e-05,
"loss": 0.6659,
"step": 310
},
{
"epoch": 0.07216959855660803,
"grad_norm": 2.328125,
"learning_rate": 1.8936666666666668e-05,
"loss": 0.6776,
"step": 320
},
{
"epoch": 0.07442489851150202,
"grad_norm": 2.5625,
"learning_rate": 1.8903333333333336e-05,
"loss": 0.6605,
"step": 330
},
{
"epoch": 0.07668019846639602,
"grad_norm": 2.265625,
"learning_rate": 1.887e-05,
"loss": 0.6537,
"step": 340
},
{
"epoch": 0.07893549842129004,
"grad_norm": 2.28125,
"learning_rate": 1.883666666666667e-05,
"loss": 0.6474,
"step": 350
},
{
"epoch": 0.08119079837618404,
"grad_norm": 2.390625,
"learning_rate": 1.8803333333333337e-05,
"loss": 0.6272,
"step": 360
},
{
"epoch": 0.08344609833107804,
"grad_norm": 2.28125,
"learning_rate": 1.877e-05,
"loss": 0.6406,
"step": 370
},
{
"epoch": 0.08570139828597204,
"grad_norm": 2.296875,
"learning_rate": 1.8736666666666666e-05,
"loss": 0.6386,
"step": 380
},
{
"epoch": 0.08795669824086604,
"grad_norm": 2.359375,
"learning_rate": 1.8703333333333334e-05,
"loss": 0.621,
"step": 390
},
{
"epoch": 0.09021199819576003,
"grad_norm": 2.28125,
"learning_rate": 1.8670000000000003e-05,
"loss": 0.6657,
"step": 400
},
{
"epoch": 0.09246729815065403,
"grad_norm": 2.953125,
"learning_rate": 1.8636666666666667e-05,
"loss": 0.6331,
"step": 410
},
{
"epoch": 0.09472259810554803,
"grad_norm": 2.75,
"learning_rate": 1.8603333333333335e-05,
"loss": 0.6434,
"step": 420
},
{
"epoch": 0.09697789806044203,
"grad_norm": 2.328125,
"learning_rate": 1.857e-05,
"loss": 0.6152,
"step": 430
},
{
"epoch": 0.09923319801533605,
"grad_norm": 2.40625,
"learning_rate": 1.8536666666666668e-05,
"loss": 0.6462,
"step": 440
},
{
"epoch": 0.10148849797023005,
"grad_norm": 2.8125,
"learning_rate": 1.8503333333333336e-05,
"loss": 0.5954,
"step": 450
},
{
"epoch": 0.10374379792512405,
"grad_norm": 2.140625,
"learning_rate": 1.847e-05,
"loss": 0.6304,
"step": 460
},
{
"epoch": 0.10599909788001805,
"grad_norm": 2.359375,
"learning_rate": 1.8436666666666666e-05,
"loss": 0.6318,
"step": 470
},
{
"epoch": 0.10825439783491204,
"grad_norm": 2.375,
"learning_rate": 1.8403333333333334e-05,
"loss": 0.626,
"step": 480
},
{
"epoch": 0.11050969778980604,
"grad_norm": 2.53125,
"learning_rate": 1.8370000000000002e-05,
"loss": 0.6112,
"step": 490
},
{
"epoch": 0.11276499774470004,
"grad_norm": 2.359375,
"learning_rate": 1.8336666666666667e-05,
"loss": 0.6057,
"step": 500
},
{
"epoch": 0.11502029769959404,
"grad_norm": 2.59375,
"learning_rate": 1.8303333333333335e-05,
"loss": 0.5819,
"step": 510
},
{
"epoch": 0.11727559765448804,
"grad_norm": 2.65625,
"learning_rate": 1.827e-05,
"loss": 0.6126,
"step": 520
},
{
"epoch": 0.11953089760938204,
"grad_norm": 2.34375,
"learning_rate": 1.8236666666666668e-05,
"loss": 0.6287,
"step": 530
},
{
"epoch": 0.12178619756427606,
"grad_norm": 2.4375,
"learning_rate": 1.8203333333333336e-05,
"loss": 0.586,
"step": 540
},
{
"epoch": 0.12404149751917005,
"grad_norm": 2.28125,
"learning_rate": 1.817e-05,
"loss": 0.6016,
"step": 550
},
{
"epoch": 0.12629679747406405,
"grad_norm": 2.421875,
"learning_rate": 1.813666666666667e-05,
"loss": 0.582,
"step": 560
},
{
"epoch": 0.12855209742895804,
"grad_norm": 2.375,
"learning_rate": 1.8103333333333333e-05,
"loss": 0.5885,
"step": 570
},
{
"epoch": 0.13080739738385205,
"grad_norm": 2.515625,
"learning_rate": 1.807e-05,
"loss": 0.584,
"step": 580
},
{
"epoch": 0.13306269733874607,
"grad_norm": 2.484375,
"learning_rate": 1.803666666666667e-05,
"loss": 0.5487,
"step": 590
},
{
"epoch": 0.13531799729364005,
"grad_norm": 2.5,
"learning_rate": 1.8003333333333334e-05,
"loss": 0.5923,
"step": 600
},
{
"epoch": 0.13757329724853407,
"grad_norm": 2.375,
"learning_rate": 1.7970000000000002e-05,
"loss": 0.5666,
"step": 610
},
{
"epoch": 0.13982859720342805,
"grad_norm": 3.09375,
"learning_rate": 1.793666666666667e-05,
"loss": 0.5466,
"step": 620
},
{
"epoch": 0.14208389715832206,
"grad_norm": 2.5,
"learning_rate": 1.7903333333333335e-05,
"loss": 0.5908,
"step": 630
},
{
"epoch": 0.14433919711321605,
"grad_norm": 2.515625,
"learning_rate": 1.787e-05,
"loss": 0.5542,
"step": 640
},
{
"epoch": 0.14659449706811006,
"grad_norm": 2.515625,
"learning_rate": 1.7836666666666668e-05,
"loss": 0.5659,
"step": 650
},
{
"epoch": 0.14884979702300405,
"grad_norm": 2.578125,
"learning_rate": 1.7803333333333336e-05,
"loss": 0.5361,
"step": 660
},
{
"epoch": 0.15110509697789806,
"grad_norm": 2.4375,
"learning_rate": 1.777e-05,
"loss": 0.555,
"step": 670
},
{
"epoch": 0.15336039693279205,
"grad_norm": 2.609375,
"learning_rate": 1.773666666666667e-05,
"loss": 0.5435,
"step": 680
},
{
"epoch": 0.15561569688768606,
"grad_norm": 2.46875,
"learning_rate": 1.7703333333333334e-05,
"loss": 0.5713,
"step": 690
},
{
"epoch": 0.15787099684258007,
"grad_norm": 2.40625,
"learning_rate": 1.7670000000000002e-05,
"loss": 0.559,
"step": 700
},
{
"epoch": 0.16012629679747406,
"grad_norm": 2.421875,
"learning_rate": 1.763666666666667e-05,
"loss": 0.5696,
"step": 710
},
{
"epoch": 0.16238159675236807,
"grad_norm": 2.640625,
"learning_rate": 1.7603333333333335e-05,
"loss": 0.5345,
"step": 720
},
{
"epoch": 0.16463689670726206,
"grad_norm": 2.4375,
"learning_rate": 1.757e-05,
"loss": 0.5774,
"step": 730
},
{
"epoch": 0.16689219666215607,
"grad_norm": 2.375,
"learning_rate": 1.7536666666666668e-05,
"loss": 0.5448,
"step": 740
},
{
"epoch": 0.16914749661705006,
"grad_norm": 2.515625,
"learning_rate": 1.7503333333333336e-05,
"loss": 0.5436,
"step": 750
},
{
"epoch": 0.17140279657194407,
"grad_norm": 2.34375,
"learning_rate": 1.7470000000000004e-05,
"loss": 0.5383,
"step": 760
},
{
"epoch": 0.17365809652683806,
"grad_norm": 2.375,
"learning_rate": 1.743666666666667e-05,
"loss": 0.5385,
"step": 770
},
{
"epoch": 0.17591339648173207,
"grad_norm": 2.734375,
"learning_rate": 1.7403333333333333e-05,
"loss": 0.5367,
"step": 780
},
{
"epoch": 0.17816869643662608,
"grad_norm": 2.46875,
"learning_rate": 1.737e-05,
"loss": 0.5622,
"step": 790
},
{
"epoch": 0.18042399639152007,
"grad_norm": 2.59375,
"learning_rate": 1.733666666666667e-05,
"loss": 0.5064,
"step": 800
},
{
"epoch": 0.18267929634641408,
"grad_norm": 2.4375,
"learning_rate": 1.7303333333333334e-05,
"loss": 0.528,
"step": 810
},
{
"epoch": 0.18493459630130807,
"grad_norm": 2.53125,
"learning_rate": 1.7270000000000002e-05,
"loss": 0.5117,
"step": 820
},
{
"epoch": 0.18718989625620208,
"grad_norm": 2.625,
"learning_rate": 1.7236666666666667e-05,
"loss": 0.5477,
"step": 830
},
{
"epoch": 0.18944519621109607,
"grad_norm": 2.421875,
"learning_rate": 1.7203333333333335e-05,
"loss": 0.5131,
"step": 840
},
{
"epoch": 0.19170049616599008,
"grad_norm": 2.96875,
"learning_rate": 1.7170000000000003e-05,
"loss": 0.4921,
"step": 850
},
{
"epoch": 0.19395579612088407,
"grad_norm": 2.5625,
"learning_rate": 1.7136666666666668e-05,
"loss": 0.4937,
"step": 860
},
{
"epoch": 0.19621109607577808,
"grad_norm": 2.53125,
"learning_rate": 1.7103333333333333e-05,
"loss": 0.508,
"step": 870
},
{
"epoch": 0.1984663960306721,
"grad_norm": 2.625,
"learning_rate": 1.707e-05,
"loss": 0.5266,
"step": 880
},
{
"epoch": 0.20072169598556608,
"grad_norm": 2.96875,
"learning_rate": 1.703666666666667e-05,
"loss": 0.5097,
"step": 890
},
{
"epoch": 0.2029769959404601,
"grad_norm": 2.390625,
"learning_rate": 1.7003333333333334e-05,
"loss": 0.4993,
"step": 900
},
{
"epoch": 0.20523229589535408,
"grad_norm": 2.65625,
"learning_rate": 1.6970000000000002e-05,
"loss": 0.482,
"step": 910
},
{
"epoch": 0.2074875958502481,
"grad_norm": 2.796875,
"learning_rate": 1.6936666666666667e-05,
"loss": 0.496,
"step": 920
},
{
"epoch": 0.20974289580514208,
"grad_norm": 2.734375,
"learning_rate": 1.6903333333333335e-05,
"loss": 0.4805,
"step": 930
},
{
"epoch": 0.2119981957600361,
"grad_norm": 2.609375,
"learning_rate": 1.6870000000000003e-05,
"loss": 0.5179,
"step": 940
},
{
"epoch": 0.21425349571493008,
"grad_norm": 2.5,
"learning_rate": 1.6836666666666668e-05,
"loss": 0.4581,
"step": 950
},
{
"epoch": 0.2165087956698241,
"grad_norm": 2.671875,
"learning_rate": 1.6803333333333332e-05,
"loss": 0.4656,
"step": 960
},
{
"epoch": 0.21876409562471807,
"grad_norm": 2.640625,
"learning_rate": 1.677e-05,
"loss": 0.4973,
"step": 970
},
{
"epoch": 0.2210193955796121,
"grad_norm": 2.609375,
"learning_rate": 1.673666666666667e-05,
"loss": 0.4915,
"step": 980
},
{
"epoch": 0.2232746955345061,
"grad_norm": 2.546875,
"learning_rate": 1.6703333333333333e-05,
"loss": 0.4807,
"step": 990
},
{
"epoch": 0.2255299954894001,
"grad_norm": 2.484375,
"learning_rate": 1.667e-05,
"loss": 0.5139,
"step": 1000
},
{
"epoch": 0.2277852954442941,
"grad_norm": 2.703125,
"learning_rate": 1.6636666666666666e-05,
"loss": 0.4795,
"step": 1010
},
{
"epoch": 0.23004059539918809,
"grad_norm": 2.640625,
"learning_rate": 1.6603333333333334e-05,
"loss": 0.4759,
"step": 1020
},
{
"epoch": 0.2322958953540821,
"grad_norm": 2.8125,
"learning_rate": 1.6570000000000002e-05,
"loss": 0.4646,
"step": 1030
},
{
"epoch": 0.23455119530897608,
"grad_norm": 2.75,
"learning_rate": 1.6536666666666667e-05,
"loss": 0.4653,
"step": 1040
},
{
"epoch": 0.2368064952638701,
"grad_norm": 2.640625,
"learning_rate": 1.6503333333333335e-05,
"loss": 0.4609,
"step": 1050
},
{
"epoch": 0.23906179521876408,
"grad_norm": 2.6875,
"learning_rate": 1.647e-05,
"loss": 0.4676,
"step": 1060
},
{
"epoch": 0.2413170951736581,
"grad_norm": 2.78125,
"learning_rate": 1.6436666666666668e-05,
"loss": 0.4495,
"step": 1070
},
{
"epoch": 0.2435723951285521,
"grad_norm": 2.6875,
"learning_rate": 1.6403333333333336e-05,
"loss": 0.4443,
"step": 1080
},
{
"epoch": 0.2458276950834461,
"grad_norm": 2.59375,
"learning_rate": 1.637e-05,
"loss": 0.4341,
"step": 1090
},
{
"epoch": 0.2480829950383401,
"grad_norm": 2.84375,
"learning_rate": 1.633666666666667e-05,
"loss": 0.4294,
"step": 1100
},
{
"epoch": 0.2503382949932341,
"grad_norm": 2.625,
"learning_rate": 1.6303333333333337e-05,
"loss": 0.439,
"step": 1110
},
{
"epoch": 0.2525935949481281,
"grad_norm": 3.046875,
"learning_rate": 1.6270000000000002e-05,
"loss": 0.443,
"step": 1120
},
{
"epoch": 0.2548488949030221,
"grad_norm": 2.65625,
"learning_rate": 1.6236666666666667e-05,
"loss": 0.4389,
"step": 1130
},
{
"epoch": 0.2571041948579161,
"grad_norm": 2.859375,
"learning_rate": 1.6203333333333335e-05,
"loss": 0.46,
"step": 1140
},
{
"epoch": 0.2593594948128101,
"grad_norm": 2.78125,
"learning_rate": 1.6170000000000003e-05,
"loss": 0.4469,
"step": 1150
},
{
"epoch": 0.2616147947677041,
"grad_norm": 2.671875,
"learning_rate": 1.6136666666666667e-05,
"loss": 0.4485,
"step": 1160
},
{
"epoch": 0.2638700947225981,
"grad_norm": 3.046875,
"learning_rate": 1.6103333333333336e-05,
"loss": 0.4414,
"step": 1170
},
{
"epoch": 0.26612539467749213,
"grad_norm": 2.84375,
"learning_rate": 1.607e-05,
"loss": 0.4126,
"step": 1180
},
{
"epoch": 0.2683806946323861,
"grad_norm": 3.078125,
"learning_rate": 1.603666666666667e-05,
"loss": 0.433,
"step": 1190
},
{
"epoch": 0.2706359945872801,
"grad_norm": 2.859375,
"learning_rate": 1.6003333333333337e-05,
"loss": 0.4404,
"step": 1200
},
{
"epoch": 0.2728912945421741,
"grad_norm": 2.921875,
"learning_rate": 1.597e-05,
"loss": 0.4279,
"step": 1210
},
{
"epoch": 0.27514659449706813,
"grad_norm": 2.9375,
"learning_rate": 1.5936666666666666e-05,
"loss": 0.4333,
"step": 1220
},
{
"epoch": 0.2774018944519621,
"grad_norm": 2.828125,
"learning_rate": 1.5903333333333334e-05,
"loss": 0.435,
"step": 1230
},
{
"epoch": 0.2796571944068561,
"grad_norm": 2.9375,
"learning_rate": 1.5870000000000002e-05,
"loss": 0.4123,
"step": 1240
},
{
"epoch": 0.2819124943617501,
"grad_norm": 3.03125,
"learning_rate": 1.5836666666666667e-05,
"loss": 0.4065,
"step": 1250
},
{
"epoch": 0.28416779431664413,
"grad_norm": 3.21875,
"learning_rate": 1.5803333333333335e-05,
"loss": 0.4287,
"step": 1260
},
{
"epoch": 0.2864230942715381,
"grad_norm": 2.96875,
"learning_rate": 1.577e-05,
"loss": 0.4649,
"step": 1270
},
{
"epoch": 0.2886783942264321,
"grad_norm": 3.046875,
"learning_rate": 1.5736666666666668e-05,
"loss": 0.4076,
"step": 1280
},
{
"epoch": 0.29093369418132614,
"grad_norm": 3.125,
"learning_rate": 1.5703333333333336e-05,
"loss": 0.421,
"step": 1290
},
{
"epoch": 0.2931889941362201,
"grad_norm": 3.5625,
"learning_rate": 1.567e-05,
"loss": 0.3982,
"step": 1300
},
{
"epoch": 0.2954442940911141,
"grad_norm": 2.828125,
"learning_rate": 1.563666666666667e-05,
"loss": 0.4121,
"step": 1310
},
{
"epoch": 0.2976995940460081,
"grad_norm": 3.0,
"learning_rate": 1.5603333333333334e-05,
"loss": 0.4032,
"step": 1320
},
{
"epoch": 0.29995489400090214,
"grad_norm": 2.890625,
"learning_rate": 1.5570000000000002e-05,
"loss": 0.423,
"step": 1330
},
{
"epoch": 0.3022101939557961,
"grad_norm": 2.875,
"learning_rate": 1.553666666666667e-05,
"loss": 0.4193,
"step": 1340
},
{
"epoch": 0.3044654939106901,
"grad_norm": 3.09375,
"learning_rate": 1.5503333333333335e-05,
"loss": 0.3834,
"step": 1350
},
{
"epoch": 0.3067207938655841,
"grad_norm": 3.46875,
"learning_rate": 1.547e-05,
"loss": 0.4204,
"step": 1360
},
{
"epoch": 0.30897609382047814,
"grad_norm": 2.65625,
"learning_rate": 1.5436666666666667e-05,
"loss": 0.4036,
"step": 1370
},
{
"epoch": 0.3112313937753721,
"grad_norm": 2.8125,
"learning_rate": 1.5403333333333335e-05,
"loss": 0.3845,
"step": 1380
},
{
"epoch": 0.3134866937302661,
"grad_norm": 3.234375,
"learning_rate": 1.537e-05,
"loss": 0.3615,
"step": 1390
},
{
"epoch": 0.31574199368516015,
"grad_norm": 2.6875,
"learning_rate": 1.533666666666667e-05,
"loss": 0.3754,
"step": 1400
},
{
"epoch": 0.31799729364005414,
"grad_norm": 3.15625,
"learning_rate": 1.5303333333333333e-05,
"loss": 0.3984,
"step": 1410
},
{
"epoch": 0.3202525935949481,
"grad_norm": 3.515625,
"learning_rate": 1.527e-05,
"loss": 0.4009,
"step": 1420
},
{
"epoch": 0.3225078935498421,
"grad_norm": 3.171875,
"learning_rate": 1.523666666666667e-05,
"loss": 0.3939,
"step": 1430
},
{
"epoch": 0.32476319350473615,
"grad_norm": 3.34375,
"learning_rate": 1.5203333333333334e-05,
"loss": 0.3621,
"step": 1440
},
{
"epoch": 0.32701849345963013,
"grad_norm": 3.71875,
"learning_rate": 1.517e-05,
"loss": 0.3901,
"step": 1450
},
{
"epoch": 0.3292737934145241,
"grad_norm": 3.015625,
"learning_rate": 1.5136666666666669e-05,
"loss": 0.3602,
"step": 1460
},
{
"epoch": 0.33152909336941816,
"grad_norm": 2.75,
"learning_rate": 1.5103333333333335e-05,
"loss": 0.3793,
"step": 1470
},
{
"epoch": 0.33378439332431215,
"grad_norm": 3.140625,
"learning_rate": 1.507e-05,
"loss": 0.3698,
"step": 1480
},
{
"epoch": 0.33603969327920613,
"grad_norm": 3.03125,
"learning_rate": 1.5036666666666668e-05,
"loss": 0.3785,
"step": 1490
},
{
"epoch": 0.3382949932341001,
"grad_norm": 3.265625,
"learning_rate": 1.5003333333333334e-05,
"loss": 0.378,
"step": 1500
},
{
"epoch": 0.34055029318899416,
"grad_norm": 3.515625,
"learning_rate": 1.4970000000000002e-05,
"loss": 0.3588,
"step": 1510
},
{
"epoch": 0.34280559314388814,
"grad_norm": 3.125,
"learning_rate": 1.4936666666666669e-05,
"loss": 0.3602,
"step": 1520
},
{
"epoch": 0.34506089309878213,
"grad_norm": 3.40625,
"learning_rate": 1.4903333333333334e-05,
"loss": 0.3342,
"step": 1530
},
{
"epoch": 0.3473161930536761,
"grad_norm": 3.203125,
"learning_rate": 1.4870000000000002e-05,
"loss": 0.3603,
"step": 1540
},
{
"epoch": 0.34957149300857016,
"grad_norm": 3.078125,
"learning_rate": 1.4836666666666668e-05,
"loss": 0.3346,
"step": 1550
},
{
"epoch": 0.35182679296346414,
"grad_norm": 2.9375,
"learning_rate": 1.4803333333333334e-05,
"loss": 0.3419,
"step": 1560
},
{
"epoch": 0.3540820929183581,
"grad_norm": 3.28125,
"learning_rate": 1.4770000000000003e-05,
"loss": 0.3459,
"step": 1570
},
{
"epoch": 0.35633739287325217,
"grad_norm": 2.890625,
"learning_rate": 1.4736666666666667e-05,
"loss": 0.3671,
"step": 1580
},
{
"epoch": 0.35859269282814615,
"grad_norm": 3.328125,
"learning_rate": 1.4703333333333334e-05,
"loss": 0.3479,
"step": 1590
},
{
"epoch": 0.36084799278304014,
"grad_norm": 3.125,
"learning_rate": 1.4670000000000002e-05,
"loss": 0.3564,
"step": 1600
},
{
"epoch": 0.3631032927379341,
"grad_norm": 3.171875,
"learning_rate": 1.4636666666666668e-05,
"loss": 0.3432,
"step": 1610
},
{
"epoch": 0.36535859269282817,
"grad_norm": 3.15625,
"learning_rate": 1.4603333333333333e-05,
"loss": 0.3485,
"step": 1620
},
{
"epoch": 0.36761389264772215,
"grad_norm": 3.265625,
"learning_rate": 1.4570000000000001e-05,
"loss": 0.3608,
"step": 1630
},
{
"epoch": 0.36986919260261614,
"grad_norm": 3.0625,
"learning_rate": 1.4536666666666668e-05,
"loss": 0.3593,
"step": 1640
},
{
"epoch": 0.3721244925575101,
"grad_norm": 3.0,
"learning_rate": 1.4503333333333334e-05,
"loss": 0.3225,
"step": 1650
},
{
"epoch": 0.37437979251240416,
"grad_norm": 3.078125,
"learning_rate": 1.4470000000000002e-05,
"loss": 0.3608,
"step": 1660
},
{
"epoch": 0.37663509246729815,
"grad_norm": 3.046875,
"learning_rate": 1.4436666666666668e-05,
"loss": 0.3625,
"step": 1670
},
{
"epoch": 0.37889039242219213,
"grad_norm": 3.25,
"learning_rate": 1.4403333333333333e-05,
"loss": 0.342,
"step": 1680
},
{
"epoch": 0.3811456923770862,
"grad_norm": 3.453125,
"learning_rate": 1.4370000000000001e-05,
"loss": 0.3633,
"step": 1690
},
{
"epoch": 0.38340099233198016,
"grad_norm": 3.21875,
"learning_rate": 1.4336666666666668e-05,
"loss": 0.3485,
"step": 1700
},
{
"epoch": 0.38565629228687415,
"grad_norm": 4.0,
"learning_rate": 1.4303333333333334e-05,
"loss": 0.3415,
"step": 1710
},
{
"epoch": 0.38791159224176813,
"grad_norm": 3.609375,
"learning_rate": 1.4270000000000002e-05,
"loss": 0.3303,
"step": 1720
},
{
"epoch": 0.3901668921966622,
"grad_norm": 3.71875,
"learning_rate": 1.4236666666666667e-05,
"loss": 0.3049,
"step": 1730
},
{
"epoch": 0.39242219215155616,
"grad_norm": 2.828125,
"learning_rate": 1.4203333333333333e-05,
"loss": 0.3412,
"step": 1740
},
{
"epoch": 0.39467749210645015,
"grad_norm": 3.125,
"learning_rate": 1.4170000000000002e-05,
"loss": 0.3199,
"step": 1750
},
{
"epoch": 0.3969327920613442,
"grad_norm": 4.5,
"learning_rate": 1.4136666666666668e-05,
"loss": 0.3247,
"step": 1760
},
{
"epoch": 0.39918809201623817,
"grad_norm": 3.671875,
"learning_rate": 1.4103333333333336e-05,
"loss": 0.3338,
"step": 1770
},
{
"epoch": 0.40144339197113216,
"grad_norm": 3.234375,
"learning_rate": 1.407e-05,
"loss": 0.3122,
"step": 1780
},
{
"epoch": 0.40369869192602614,
"grad_norm": 3.71875,
"learning_rate": 1.4036666666666667e-05,
"loss": 0.3121,
"step": 1790
},
{
"epoch": 0.4059539918809202,
"grad_norm": 3.03125,
"learning_rate": 1.4003333333333335e-05,
"loss": 0.3229,
"step": 1800
},
{
"epoch": 0.40820929183581417,
"grad_norm": 3.390625,
"learning_rate": 1.3970000000000002e-05,
"loss": 0.2885,
"step": 1810
},
{
"epoch": 0.41046459179070816,
"grad_norm": 3.125,
"learning_rate": 1.3936666666666666e-05,
"loss": 0.2934,
"step": 1820
},
{
"epoch": 0.41271989174560214,
"grad_norm": 3.234375,
"learning_rate": 1.3903333333333335e-05,
"loss": 0.2783,
"step": 1830
},
{
"epoch": 0.4149751917004962,
"grad_norm": 3.921875,
"learning_rate": 1.3870000000000001e-05,
"loss": 0.3128,
"step": 1840
},
{
"epoch": 0.41723049165539017,
"grad_norm": 3.078125,
"learning_rate": 1.3836666666666667e-05,
"loss": 0.3074,
"step": 1850
},
{
"epoch": 0.41948579161028415,
"grad_norm": 3.40625,
"learning_rate": 1.3803333333333336e-05,
"loss": 0.2985,
"step": 1860
},
{
"epoch": 0.4217410915651782,
"grad_norm": 3.40625,
"learning_rate": 1.377e-05,
"loss": 0.2824,
"step": 1870
},
{
"epoch": 0.4239963915200722,
"grad_norm": 3.453125,
"learning_rate": 1.3736666666666667e-05,
"loss": 0.2961,
"step": 1880
},
{
"epoch": 0.42625169147496617,
"grad_norm": 3.5,
"learning_rate": 1.3703333333333335e-05,
"loss": 0.2968,
"step": 1890
},
{
"epoch": 0.42850699142986015,
"grad_norm": 4.09375,
"learning_rate": 1.3670000000000001e-05,
"loss": 0.3198,
"step": 1900
},
{
"epoch": 0.4307622913847542,
"grad_norm": 3.296875,
"learning_rate": 1.3636666666666668e-05,
"loss": 0.2763,
"step": 1910
},
{
"epoch": 0.4330175913396482,
"grad_norm": 3.40625,
"learning_rate": 1.3603333333333336e-05,
"loss": 0.2945,
"step": 1920
},
{
"epoch": 0.43527289129454216,
"grad_norm": 3.140625,
"learning_rate": 1.357e-05,
"loss": 0.3013,
"step": 1930
},
{
"epoch": 0.43752819124943615,
"grad_norm": 3.453125,
"learning_rate": 1.3536666666666667e-05,
"loss": 0.2897,
"step": 1940
},
{
"epoch": 0.4397834912043302,
"grad_norm": 3.203125,
"learning_rate": 1.3503333333333335e-05,
"loss": 0.2591,
"step": 1950
},
{
"epoch": 0.4420387911592242,
"grad_norm": 3.15625,
"learning_rate": 1.3470000000000001e-05,
"loss": 0.3079,
"step": 1960
},
{
"epoch": 0.44429409111411816,
"grad_norm": 3.65625,
"learning_rate": 1.3436666666666666e-05,
"loss": 0.2955,
"step": 1970
},
{
"epoch": 0.4465493910690122,
"grad_norm": 3.1875,
"learning_rate": 1.3403333333333334e-05,
"loss": 0.2737,
"step": 1980
},
{
"epoch": 0.4488046910239062,
"grad_norm": 3.546875,
"learning_rate": 1.337e-05,
"loss": 0.2929,
"step": 1990
},
{
"epoch": 0.4510599909788002,
"grad_norm": 2.828125,
"learning_rate": 1.3336666666666667e-05,
"loss": 0.2924,
"step": 2000
},
{
"epoch": 0.45331529093369416,
"grad_norm": 4.3125,
"learning_rate": 1.3303333333333335e-05,
"loss": 0.2744,
"step": 2010
},
{
"epoch": 0.4555705908885882,
"grad_norm": 3.15625,
"learning_rate": 1.327e-05,
"loss": 0.275,
"step": 2020
},
{
"epoch": 0.4578258908434822,
"grad_norm": 3.578125,
"learning_rate": 1.3236666666666668e-05,
"loss": 0.2695,
"step": 2030
},
{
"epoch": 0.46008119079837617,
"grad_norm": 3.421875,
"learning_rate": 1.3203333333333335e-05,
"loss": 0.2761,
"step": 2040
},
{
"epoch": 0.46233649075327016,
"grad_norm": 3.375,
"learning_rate": 1.3170000000000001e-05,
"loss": 0.2953,
"step": 2050
},
{
"epoch": 0.4645917907081642,
"grad_norm": 3.8125,
"learning_rate": 1.3136666666666669e-05,
"loss": 0.2901,
"step": 2060
},
{
"epoch": 0.4668470906630582,
"grad_norm": 3.359375,
"learning_rate": 1.3103333333333334e-05,
"loss": 0.2906,
"step": 2070
},
{
"epoch": 0.46910239061795217,
"grad_norm": 3.546875,
"learning_rate": 1.307e-05,
"loss": 0.2747,
"step": 2080
},
{
"epoch": 0.4713576905728462,
"grad_norm": 3.59375,
"learning_rate": 1.3036666666666668e-05,
"loss": 0.2728,
"step": 2090
},
{
"epoch": 0.4736129905277402,
"grad_norm": 3.0,
"learning_rate": 1.3003333333333335e-05,
"loss": 0.2464,
"step": 2100
},
{
"epoch": 0.4758682904826342,
"grad_norm": 4.15625,
"learning_rate": 1.2970000000000001e-05,
"loss": 0.2853,
"step": 2110
},
{
"epoch": 0.47812359043752817,
"grad_norm": 3.078125,
"learning_rate": 1.293666666666667e-05,
"loss": 0.2751,
"step": 2120
},
{
"epoch": 0.4803788903924222,
"grad_norm": 3.109375,
"learning_rate": 1.2903333333333334e-05,
"loss": 0.2579,
"step": 2130
},
{
"epoch": 0.4826341903473162,
"grad_norm": 3.109375,
"learning_rate": 1.287e-05,
"loss": 0.2758,
"step": 2140
},
{
"epoch": 0.4848894903022102,
"grad_norm": 4.5,
"learning_rate": 1.2836666666666669e-05,
"loss": 0.2691,
"step": 2150
},
{
"epoch": 0.4871447902571042,
"grad_norm": 3.90625,
"learning_rate": 1.2803333333333335e-05,
"loss": 0.2439,
"step": 2160
},
{
"epoch": 0.4894000902119982,
"grad_norm": 3.59375,
"learning_rate": 1.277e-05,
"loss": 0.2501,
"step": 2170
},
{
"epoch": 0.4916553901668922,
"grad_norm": 2.953125,
"learning_rate": 1.2736666666666668e-05,
"loss": 0.2561,
"step": 2180
},
{
"epoch": 0.4939106901217862,
"grad_norm": 3.296875,
"learning_rate": 1.2703333333333334e-05,
"loss": 0.2318,
"step": 2190
},
{
"epoch": 0.4961659900766802,
"grad_norm": 3.328125,
"learning_rate": 1.267e-05,
"loss": 0.2397,
"step": 2200
},
{
"epoch": 0.4984212900315742,
"grad_norm": 3.6875,
"learning_rate": 1.2636666666666669e-05,
"loss": 0.2504,
"step": 2210
},
{
"epoch": 0.5006765899864682,
"grad_norm": 3.6875,
"learning_rate": 1.2603333333333334e-05,
"loss": 0.257,
"step": 2220
},
{
"epoch": 0.5029318899413622,
"grad_norm": 3.34375,
"learning_rate": 1.257e-05,
"loss": 0.2578,
"step": 2230
},
{
"epoch": 0.5051871898962562,
"grad_norm": 3.578125,
"learning_rate": 1.2536666666666668e-05,
"loss": 0.2626,
"step": 2240
},
{
"epoch": 0.5074424898511503,
"grad_norm": 3.609375,
"learning_rate": 1.2503333333333334e-05,
"loss": 0.2523,
"step": 2250
},
{
"epoch": 0.5096977898060442,
"grad_norm": 3.28125,
"learning_rate": 1.2470000000000003e-05,
"loss": 0.2452,
"step": 2260
},
{
"epoch": 0.5119530897609382,
"grad_norm": 5.125,
"learning_rate": 1.2436666666666667e-05,
"loss": 0.2278,
"step": 2270
},
{
"epoch": 0.5142083897158322,
"grad_norm": 3.46875,
"learning_rate": 1.2403333333333334e-05,
"loss": 0.235,
"step": 2280
},
{
"epoch": 0.5164636896707262,
"grad_norm": 3.78125,
"learning_rate": 1.2370000000000002e-05,
"loss": 0.2427,
"step": 2290
},
{
"epoch": 0.5187189896256202,
"grad_norm": 3.328125,
"learning_rate": 1.2336666666666668e-05,
"loss": 0.2522,
"step": 2300
},
{
"epoch": 0.5209742895805142,
"grad_norm": 3.296875,
"learning_rate": 1.2303333333333333e-05,
"loss": 0.2325,
"step": 2310
},
{
"epoch": 0.5232295895354082,
"grad_norm": 3.21875,
"learning_rate": 1.2270000000000001e-05,
"loss": 0.2595,
"step": 2320
},
{
"epoch": 0.5254848894903023,
"grad_norm": 3.3125,
"learning_rate": 1.2236666666666668e-05,
"loss": 0.2683,
"step": 2330
},
{
"epoch": 0.5277401894451962,
"grad_norm": 3.515625,
"learning_rate": 1.2203333333333334e-05,
"loss": 0.2327,
"step": 2340
},
{
"epoch": 0.5299954894000902,
"grad_norm": 3.359375,
"learning_rate": 1.2170000000000002e-05,
"loss": 0.2305,
"step": 2350
},
{
"epoch": 0.5322507893549843,
"grad_norm": 4.03125,
"learning_rate": 1.2136666666666668e-05,
"loss": 0.24,
"step": 2360
},
{
"epoch": 0.5345060893098782,
"grad_norm": 3.171875,
"learning_rate": 1.2103333333333333e-05,
"loss": 0.2226,
"step": 2370
},
{
"epoch": 0.5367613892647722,
"grad_norm": 3.046875,
"learning_rate": 1.2070000000000001e-05,
"loss": 0.2288,
"step": 2380
},
{
"epoch": 0.5390166892196662,
"grad_norm": 3.46875,
"learning_rate": 1.2036666666666668e-05,
"loss": 0.2564,
"step": 2390
},
{
"epoch": 0.5412719891745602,
"grad_norm": 3.703125,
"learning_rate": 1.2003333333333334e-05,
"loss": 0.2115,
"step": 2400
},
{
"epoch": 0.5435272891294542,
"grad_norm": 3.46875,
"learning_rate": 1.1970000000000002e-05,
"loss": 0.2255,
"step": 2410
},
{
"epoch": 0.5457825890843482,
"grad_norm": 3.765625,
"learning_rate": 1.1936666666666667e-05,
"loss": 0.2214,
"step": 2420
},
{
"epoch": 0.5480378890392422,
"grad_norm": 3.9375,
"learning_rate": 1.1903333333333333e-05,
"loss": 0.2212,
"step": 2430
},
{
"epoch": 0.5502931889941363,
"grad_norm": 3.796875,
"learning_rate": 1.1870000000000002e-05,
"loss": 0.2266,
"step": 2440
},
{
"epoch": 0.5525484889490302,
"grad_norm": 3.203125,
"learning_rate": 1.1836666666666668e-05,
"loss": 0.2291,
"step": 2450
},
{
"epoch": 0.5548037889039242,
"grad_norm": 4.6875,
"learning_rate": 1.1803333333333333e-05,
"loss": 0.212,
"step": 2460
},
{
"epoch": 0.5570590888588183,
"grad_norm": 2.953125,
"learning_rate": 1.177e-05,
"loss": 0.2133,
"step": 2470
},
{
"epoch": 0.5593143888137122,
"grad_norm": 4.1875,
"learning_rate": 1.1736666666666667e-05,
"loss": 0.2606,
"step": 2480
},
{
"epoch": 0.5615696887686062,
"grad_norm": 3.53125,
"learning_rate": 1.1703333333333334e-05,
"loss": 0.2446,
"step": 2490
},
{
"epoch": 0.5638249887235002,
"grad_norm": 3.546875,
"learning_rate": 1.1670000000000002e-05,
"loss": 0.2264,
"step": 2500
},
{
"epoch": 0.5660802886783942,
"grad_norm": 3.921875,
"learning_rate": 1.1636666666666666e-05,
"loss": 0.2218,
"step": 2510
},
{
"epoch": 0.5683355886332883,
"grad_norm": 3.015625,
"learning_rate": 1.1603333333333335e-05,
"loss": 0.196,
"step": 2520
},
{
"epoch": 0.5705908885881822,
"grad_norm": 3.59375,
"learning_rate": 1.1570000000000001e-05,
"loss": 0.2327,
"step": 2530
},
{
"epoch": 0.5728461885430762,
"grad_norm": 3.125,
"learning_rate": 1.1536666666666667e-05,
"loss": 0.2224,
"step": 2540
},
{
"epoch": 0.5751014884979703,
"grad_norm": 3.765625,
"learning_rate": 1.1503333333333336e-05,
"loss": 0.2198,
"step": 2550
},
{
"epoch": 0.5773567884528642,
"grad_norm": 3.28125,
"learning_rate": 1.147e-05,
"loss": 0.2146,
"step": 2560
},
{
"epoch": 0.5796120884077582,
"grad_norm": 4.0625,
"learning_rate": 1.1436666666666667e-05,
"loss": 0.2217,
"step": 2570
},
{
"epoch": 0.5818673883626523,
"grad_norm": 3.515625,
"learning_rate": 1.1403333333333335e-05,
"loss": 0.2039,
"step": 2580
},
{
"epoch": 0.5841226883175462,
"grad_norm": 3.484375,
"learning_rate": 1.1370000000000001e-05,
"loss": 0.218,
"step": 2590
},
{
"epoch": 0.5863779882724403,
"grad_norm": 3.921875,
"learning_rate": 1.1336666666666668e-05,
"loss": 0.2031,
"step": 2600
},
{
"epoch": 0.5886332882273342,
"grad_norm": 3.796875,
"learning_rate": 1.1303333333333336e-05,
"loss": 0.1942,
"step": 2610
},
{
"epoch": 0.5908885881822282,
"grad_norm": 4.03125,
"learning_rate": 1.127e-05,
"loss": 0.203,
"step": 2620
},
{
"epoch": 0.5931438881371223,
"grad_norm": 3.25,
"learning_rate": 1.1236666666666667e-05,
"loss": 0.2204,
"step": 2630
},
{
"epoch": 0.5953991880920162,
"grad_norm": 3.53125,
"learning_rate": 1.1203333333333335e-05,
"loss": 0.2046,
"step": 2640
},
{
"epoch": 0.5976544880469102,
"grad_norm": 4.0,
"learning_rate": 1.1170000000000001e-05,
"loss": 0.2083,
"step": 2650
},
{
"epoch": 0.5999097880018043,
"grad_norm": 4.15625,
"learning_rate": 1.1136666666666666e-05,
"loss": 0.2206,
"step": 2660
},
{
"epoch": 0.6021650879566982,
"grad_norm": 4.0625,
"learning_rate": 1.1103333333333334e-05,
"loss": 0.2108,
"step": 2670
},
{
"epoch": 0.6044203879115922,
"grad_norm": 3.90625,
"learning_rate": 1.107e-05,
"loss": 0.1931,
"step": 2680
},
{
"epoch": 0.6066756878664863,
"grad_norm": 4.8125,
"learning_rate": 1.1036666666666667e-05,
"loss": 0.1909,
"step": 2690
},
{
"epoch": 0.6089309878213802,
"grad_norm": 3.328125,
"learning_rate": 1.1003333333333335e-05,
"loss": 0.1994,
"step": 2700
},
{
"epoch": 0.6111862877762743,
"grad_norm": 3.0625,
"learning_rate": 1.097e-05,
"loss": 0.1967,
"step": 2710
},
{
"epoch": 0.6134415877311682,
"grad_norm": 3.546875,
"learning_rate": 1.0936666666666666e-05,
"loss": 0.2082,
"step": 2720
},
{
"epoch": 0.6156968876860622,
"grad_norm": 3.03125,
"learning_rate": 1.0903333333333335e-05,
"loss": 0.2245,
"step": 2730
},
{
"epoch": 0.6179521876409563,
"grad_norm": 3.25,
"learning_rate": 1.0870000000000001e-05,
"loss": 0.1893,
"step": 2740
},
{
"epoch": 0.6202074875958502,
"grad_norm": 3.671875,
"learning_rate": 1.0836666666666666e-05,
"loss": 0.2133,
"step": 2750
},
{
"epoch": 0.6224627875507442,
"grad_norm": 3.625,
"learning_rate": 1.0803333333333334e-05,
"loss": 0.1912,
"step": 2760
},
{
"epoch": 0.6247180875056383,
"grad_norm": 3.609375,
"learning_rate": 1.077e-05,
"loss": 0.1967,
"step": 2770
},
{
"epoch": 0.6269733874605322,
"grad_norm": 3.1875,
"learning_rate": 1.0736666666666668e-05,
"loss": 0.1858,
"step": 2780
},
{
"epoch": 0.6292286874154263,
"grad_norm": 3.546875,
"learning_rate": 1.0703333333333335e-05,
"loss": 0.1995,
"step": 2790
},
{
"epoch": 0.6314839873703203,
"grad_norm": 4.875,
"learning_rate": 1.0670000000000001e-05,
"loss": 0.1911,
"step": 2800
},
{
"epoch": 0.6337392873252142,
"grad_norm": 4.3125,
"learning_rate": 1.063666666666667e-05,
"loss": 0.1938,
"step": 2810
},
{
"epoch": 0.6359945872801083,
"grad_norm": 4.625,
"learning_rate": 1.0603333333333334e-05,
"loss": 0.215,
"step": 2820
},
{
"epoch": 0.6382498872350022,
"grad_norm": 2.78125,
"learning_rate": 1.057e-05,
"loss": 0.2065,
"step": 2830
},
{
"epoch": 0.6405051871898962,
"grad_norm": 3.0625,
"learning_rate": 1.0536666666666669e-05,
"loss": 0.1796,
"step": 2840
},
{
"epoch": 0.6427604871447903,
"grad_norm": 3.796875,
"learning_rate": 1.0503333333333335e-05,
"loss": 0.1766,
"step": 2850
},
{
"epoch": 0.6450157870996842,
"grad_norm": 4.5,
"learning_rate": 1.047e-05,
"loss": 0.1652,
"step": 2860
},
{
"epoch": 0.6472710870545783,
"grad_norm": 3.421875,
"learning_rate": 1.0436666666666668e-05,
"loss": 0.1858,
"step": 2870
},
{
"epoch": 0.6495263870094723,
"grad_norm": 3.28125,
"learning_rate": 1.0403333333333334e-05,
"loss": 0.1756,
"step": 2880
},
{
"epoch": 0.6517816869643662,
"grad_norm": 3.265625,
"learning_rate": 1.037e-05,
"loss": 0.176,
"step": 2890
},
{
"epoch": 0.6540369869192603,
"grad_norm": 3.203125,
"learning_rate": 1.0336666666666669e-05,
"loss": 0.1903,
"step": 2900
},
{
"epoch": 0.6562922868741543,
"grad_norm": 4.0,
"learning_rate": 1.0303333333333334e-05,
"loss": 0.1878,
"step": 2910
},
{
"epoch": 0.6585475868290482,
"grad_norm": 4.21875,
"learning_rate": 1.027e-05,
"loss": 0.1806,
"step": 2920
},
{
"epoch": 0.6608028867839423,
"grad_norm": 3.109375,
"learning_rate": 1.0236666666666668e-05,
"loss": 0.1777,
"step": 2930
},
{
"epoch": 0.6630581867388363,
"grad_norm": 4.0625,
"learning_rate": 1.0203333333333334e-05,
"loss": 0.1851,
"step": 2940
},
{
"epoch": 0.6653134866937302,
"grad_norm": 2.90625,
"learning_rate": 1.017e-05,
"loss": 0.1684,
"step": 2950
},
{
"epoch": 0.6675687866486243,
"grad_norm": 3.625,
"learning_rate": 1.0136666666666667e-05,
"loss": 0.1687,
"step": 2960
},
{
"epoch": 0.6698240866035182,
"grad_norm": 3.375,
"learning_rate": 1.0103333333333334e-05,
"loss": 0.1723,
"step": 2970
},
{
"epoch": 0.6720793865584123,
"grad_norm": 2.96875,
"learning_rate": 1.007e-05,
"loss": 0.1795,
"step": 2980
},
{
"epoch": 0.6743346865133063,
"grad_norm": 3.484375,
"learning_rate": 1.0036666666666668e-05,
"loss": 0.1718,
"step": 2990
},
{
"epoch": 0.6765899864682002,
"grad_norm": 3.5625,
"learning_rate": 1.0003333333333333e-05,
"loss": 0.1691,
"step": 3000
},
{
"epoch": 0.6788452864230943,
"grad_norm": 3.203125,
"learning_rate": 9.970000000000001e-06,
"loss": 0.1805,
"step": 3010
},
{
"epoch": 0.6811005863779883,
"grad_norm": 2.78125,
"learning_rate": 9.936666666666668e-06,
"loss": 0.1844,
"step": 3020
},
{
"epoch": 0.6833558863328822,
"grad_norm": 4.21875,
"learning_rate": 9.903333333333334e-06,
"loss": 0.1612,
"step": 3030
},
{
"epoch": 0.6856111862877763,
"grad_norm": 3.140625,
"learning_rate": 9.87e-06,
"loss": 0.1719,
"step": 3040
},
{
"epoch": 0.6878664862426703,
"grad_norm": 3.78125,
"learning_rate": 9.836666666666668e-06,
"loss": 0.1639,
"step": 3050
},
{
"epoch": 0.6901217861975643,
"grad_norm": 3.59375,
"learning_rate": 9.803333333333333e-06,
"loss": 0.1555,
"step": 3060
},
{
"epoch": 0.6923770861524583,
"grad_norm": 3.109375,
"learning_rate": 9.770000000000001e-06,
"loss": 0.1695,
"step": 3070
},
{
"epoch": 0.6946323861073522,
"grad_norm": 3.203125,
"learning_rate": 9.736666666666668e-06,
"loss": 0.1684,
"step": 3080
},
{
"epoch": 0.6968876860622463,
"grad_norm": 3.546875,
"learning_rate": 9.703333333333334e-06,
"loss": 0.1669,
"step": 3090
},
{
"epoch": 0.6991429860171403,
"grad_norm": 3.6875,
"learning_rate": 9.67e-06,
"loss": 0.1789,
"step": 3100
},
{
"epoch": 0.7013982859720342,
"grad_norm": 3.578125,
"learning_rate": 9.636666666666667e-06,
"loss": 0.1776,
"step": 3110
},
{
"epoch": 0.7036535859269283,
"grad_norm": 3.125,
"learning_rate": 9.603333333333335e-06,
"loss": 0.1561,
"step": 3120
},
{
"epoch": 0.7059088858818223,
"grad_norm": 3.125,
"learning_rate": 9.57e-06,
"loss": 0.1609,
"step": 3130
},
{
"epoch": 0.7081641858367163,
"grad_norm": 3.75,
"learning_rate": 9.536666666666668e-06,
"loss": 0.1398,
"step": 3140
},
{
"epoch": 0.7104194857916103,
"grad_norm": 3.3125,
"learning_rate": 9.503333333333334e-06,
"loss": 0.167,
"step": 3150
},
{
"epoch": 0.7126747857465043,
"grad_norm": 3.75,
"learning_rate": 9.47e-06,
"loss": 0.1546,
"step": 3160
},
{
"epoch": 0.7149300857013983,
"grad_norm": 3.546875,
"learning_rate": 9.436666666666667e-06,
"loss": 0.1555,
"step": 3170
},
{
"epoch": 0.7171853856562923,
"grad_norm": 3.15625,
"learning_rate": 9.403333333333334e-06,
"loss": 0.1766,
"step": 3180
},
{
"epoch": 0.7194406856111862,
"grad_norm": 3.390625,
"learning_rate": 9.370000000000002e-06,
"loss": 0.1705,
"step": 3190
},
{
"epoch": 0.7216959855660803,
"grad_norm": 3.671875,
"learning_rate": 9.336666666666666e-06,
"loss": 0.1784,
"step": 3200
},
{
"epoch": 0.7239512855209743,
"grad_norm": 3.125,
"learning_rate": 9.303333333333335e-06,
"loss": 0.1705,
"step": 3210
},
{
"epoch": 0.7262065854758682,
"grad_norm": 3.28125,
"learning_rate": 9.270000000000001e-06,
"loss": 0.1562,
"step": 3220
},
{
"epoch": 0.7284618854307623,
"grad_norm": 2.96875,
"learning_rate": 9.236666666666667e-06,
"loss": 0.1421,
"step": 3230
},
{
"epoch": 0.7307171853856563,
"grad_norm": 3.609375,
"learning_rate": 9.203333333333334e-06,
"loss": 0.1663,
"step": 3240
},
{
"epoch": 0.7329724853405503,
"grad_norm": 2.84375,
"learning_rate": 9.17e-06,
"loss": 0.1729,
"step": 3250
},
{
"epoch": 0.7352277852954443,
"grad_norm": 2.921875,
"learning_rate": 9.136666666666667e-06,
"loss": 0.1572,
"step": 3260
},
{
"epoch": 0.7374830852503383,
"grad_norm": 2.75,
"learning_rate": 9.103333333333335e-06,
"loss": 0.1574,
"step": 3270
},
{
"epoch": 0.7397383852052323,
"grad_norm": 4.0,
"learning_rate": 9.070000000000001e-06,
"loss": 0.158,
"step": 3280
},
{
"epoch": 0.7419936851601263,
"grad_norm": 3.140625,
"learning_rate": 9.036666666666668e-06,
"loss": 0.1743,
"step": 3290
},
{
"epoch": 0.7442489851150202,
"grad_norm": 3.125,
"learning_rate": 9.003333333333334e-06,
"loss": 0.1492,
"step": 3300
},
{
"epoch": 0.7465042850699143,
"grad_norm": 3.578125,
"learning_rate": 8.97e-06,
"loss": 0.1544,
"step": 3310
},
{
"epoch": 0.7487595850248083,
"grad_norm": 3.046875,
"learning_rate": 8.936666666666669e-06,
"loss": 0.154,
"step": 3320
},
{
"epoch": 0.7510148849797023,
"grad_norm": 3.234375,
"learning_rate": 8.903333333333333e-06,
"loss": 0.1515,
"step": 3330
},
{
"epoch": 0.7532701849345963,
"grad_norm": 3.234375,
"learning_rate": 8.870000000000001e-06,
"loss": 0.1601,
"step": 3340
},
{
"epoch": 0.7555254848894903,
"grad_norm": 5.375,
"learning_rate": 8.836666666666668e-06,
"loss": 0.1541,
"step": 3350
},
{
"epoch": 0.7577807848443843,
"grad_norm": 3.0,
"learning_rate": 8.803333333333334e-06,
"loss": 0.137,
"step": 3360
},
{
"epoch": 0.7600360847992783,
"grad_norm": 4.3125,
"learning_rate": 8.77e-06,
"loss": 0.1518,
"step": 3370
},
{
"epoch": 0.7622913847541724,
"grad_norm": 2.96875,
"learning_rate": 8.736666666666667e-06,
"loss": 0.1557,
"step": 3380
},
{
"epoch": 0.7645466847090663,
"grad_norm": 3.171875,
"learning_rate": 8.703333333333334e-06,
"loss": 0.1459,
"step": 3390
},
{
"epoch": 0.7668019846639603,
"grad_norm": 3.390625,
"learning_rate": 8.67e-06,
"loss": 0.1457,
"step": 3400
},
{
"epoch": 0.7690572846188543,
"grad_norm": 2.828125,
"learning_rate": 8.636666666666668e-06,
"loss": 0.1437,
"step": 3410
},
{
"epoch": 0.7713125845737483,
"grad_norm": 3.53125,
"learning_rate": 8.603333333333333e-06,
"loss": 0.1575,
"step": 3420
},
{
"epoch": 0.7735678845286423,
"grad_norm": 2.765625,
"learning_rate": 8.570000000000001e-06,
"loss": 0.1405,
"step": 3430
},
{
"epoch": 0.7758231844835363,
"grad_norm": 2.46875,
"learning_rate": 8.536666666666667e-06,
"loss": 0.1479,
"step": 3440
},
{
"epoch": 0.7780784844384303,
"grad_norm": 3.140625,
"learning_rate": 8.503333333333334e-06,
"loss": 0.1513,
"step": 3450
},
{
"epoch": 0.7803337843933243,
"grad_norm": 3.3125,
"learning_rate": 8.47e-06,
"loss": 0.1437,
"step": 3460
},
{
"epoch": 0.7825890843482183,
"grad_norm": 2.875,
"learning_rate": 8.436666666666667e-06,
"loss": 0.1434,
"step": 3470
},
{
"epoch": 0.7848443843031123,
"grad_norm": 2.34375,
"learning_rate": 8.403333333333335e-06,
"loss": 0.1442,
"step": 3480
},
{
"epoch": 0.7870996842580064,
"grad_norm": 3.578125,
"learning_rate": 8.370000000000001e-06,
"loss": 0.1449,
"step": 3490
},
{
"epoch": 0.7893549842129003,
"grad_norm": 3.453125,
"learning_rate": 8.336666666666668e-06,
"loss": 0.151,
"step": 3500
},
{
"epoch": 0.7916102841677943,
"grad_norm": 2.796875,
"learning_rate": 8.303333333333334e-06,
"loss": 0.1407,
"step": 3510
},
{
"epoch": 0.7938655841226884,
"grad_norm": 3.015625,
"learning_rate": 8.27e-06,
"loss": 0.1566,
"step": 3520
},
{
"epoch": 0.7961208840775823,
"grad_norm": 3.328125,
"learning_rate": 8.236666666666667e-06,
"loss": 0.1574,
"step": 3530
},
{
"epoch": 0.7983761840324763,
"grad_norm": 2.78125,
"learning_rate": 8.203333333333335e-06,
"loss": 0.1434,
"step": 3540
},
{
"epoch": 0.8006314839873703,
"grad_norm": 2.671875,
"learning_rate": 8.17e-06,
"loss": 0.1379,
"step": 3550
},
{
"epoch": 0.8028867839422643,
"grad_norm": 2.984375,
"learning_rate": 8.136666666666668e-06,
"loss": 0.1685,
"step": 3560
},
{
"epoch": 0.8051420838971584,
"grad_norm": 2.875,
"learning_rate": 8.103333333333334e-06,
"loss": 0.1564,
"step": 3570
},
{
"epoch": 0.8073973838520523,
"grad_norm": 3.765625,
"learning_rate": 8.07e-06,
"loss": 0.1399,
"step": 3580
},
{
"epoch": 0.8096526838069463,
"grad_norm": 3.71875,
"learning_rate": 8.036666666666667e-06,
"loss": 0.1422,
"step": 3590
},
{
"epoch": 0.8119079837618404,
"grad_norm": 3.015625,
"learning_rate": 8.003333333333334e-06,
"loss": 0.1439,
"step": 3600
},
{
"epoch": 0.8141632837167343,
"grad_norm": 3.3125,
"learning_rate": 7.970000000000002e-06,
"loss": 0.1473,
"step": 3610
},
{
"epoch": 0.8164185836716283,
"grad_norm": 3.484375,
"learning_rate": 7.936666666666666e-06,
"loss": 0.1598,
"step": 3620
},
{
"epoch": 0.8186738836265224,
"grad_norm": 3.671875,
"learning_rate": 7.903333333333334e-06,
"loss": 0.1431,
"step": 3630
},
{
"epoch": 0.8209291835814163,
"grad_norm": 3.375,
"learning_rate": 7.870000000000001e-06,
"loss": 0.1338,
"step": 3640
},
{
"epoch": 0.8231844835363104,
"grad_norm": 4.34375,
"learning_rate": 7.836666666666667e-06,
"loss": 0.1437,
"step": 3650
},
{
"epoch": 0.8254397834912043,
"grad_norm": 4.5625,
"learning_rate": 7.803333333333334e-06,
"loss": 0.1383,
"step": 3660
},
{
"epoch": 0.8276950834460983,
"grad_norm": 2.84375,
"learning_rate": 7.77e-06,
"loss": 0.1452,
"step": 3670
},
{
"epoch": 0.8299503834009924,
"grad_norm": 3.6875,
"learning_rate": 7.736666666666667e-06,
"loss": 0.1566,
"step": 3680
},
{
"epoch": 0.8322056833558863,
"grad_norm": 3.4375,
"learning_rate": 7.703333333333333e-06,
"loss": 0.1416,
"step": 3690
},
{
"epoch": 0.8344609833107803,
"grad_norm": 3.21875,
"learning_rate": 7.670000000000001e-06,
"loss": 0.1296,
"step": 3700
},
{
"epoch": 0.8367162832656744,
"grad_norm": 2.78125,
"learning_rate": 7.636666666666668e-06,
"loss": 0.1422,
"step": 3710
},
{
"epoch": 0.8389715832205683,
"grad_norm": 3.765625,
"learning_rate": 7.603333333333334e-06,
"loss": 0.1448,
"step": 3720
},
{
"epoch": 0.8412268831754623,
"grad_norm": 2.859375,
"learning_rate": 7.57e-06,
"loss": 0.135,
"step": 3730
},
{
"epoch": 0.8434821831303564,
"grad_norm": 3.0,
"learning_rate": 7.536666666666668e-06,
"loss": 0.1428,
"step": 3740
},
{
"epoch": 0.8457374830852503,
"grad_norm": 3.28125,
"learning_rate": 7.503333333333333e-06,
"loss": 0.138,
"step": 3750
},
{
"epoch": 0.8479927830401444,
"grad_norm": 3.375,
"learning_rate": 7.4700000000000005e-06,
"loss": 0.125,
"step": 3760
},
{
"epoch": 0.8502480829950383,
"grad_norm": 2.296875,
"learning_rate": 7.436666666666668e-06,
"loss": 0.1317,
"step": 3770
},
{
"epoch": 0.8525033829499323,
"grad_norm": 3.296875,
"learning_rate": 7.403333333333333e-06,
"loss": 0.1258,
"step": 3780
},
{
"epoch": 0.8547586829048264,
"grad_norm": 2.671875,
"learning_rate": 7.370000000000001e-06,
"loss": 0.1403,
"step": 3790
},
{
"epoch": 0.8570139828597203,
"grad_norm": 4.03125,
"learning_rate": 7.336666666666668e-06,
"loss": 0.1466,
"step": 3800
},
{
"epoch": 0.8592692828146143,
"grad_norm": 2.546875,
"learning_rate": 7.3033333333333334e-06,
"loss": 0.1262,
"step": 3810
},
{
"epoch": 0.8615245827695084,
"grad_norm": 1.9921875,
"learning_rate": 7.270000000000001e-06,
"loss": 0.1427,
"step": 3820
},
{
"epoch": 0.8637798827244023,
"grad_norm": 3.546875,
"learning_rate": 7.236666666666667e-06,
"loss": 0.1193,
"step": 3830
},
{
"epoch": 0.8660351826792964,
"grad_norm": 4.1875,
"learning_rate": 7.203333333333334e-06,
"loss": 0.1337,
"step": 3840
},
{
"epoch": 0.8682904826341904,
"grad_norm": 2.78125,
"learning_rate": 7.17e-06,
"loss": 0.1472,
"step": 3850
},
{
"epoch": 0.8705457825890843,
"grad_norm": 2.75,
"learning_rate": 7.136666666666667e-06,
"loss": 0.1531,
"step": 3860
},
{
"epoch": 0.8728010825439784,
"grad_norm": 2.296875,
"learning_rate": 7.1033333333333345e-06,
"loss": 0.1334,
"step": 3870
},
{
"epoch": 0.8750563824988723,
"grad_norm": 2.765625,
"learning_rate": 7.07e-06,
"loss": 0.1339,
"step": 3880
},
{
"epoch": 0.8773116824537663,
"grad_norm": 3.234375,
"learning_rate": 7.036666666666667e-06,
"loss": 0.1369,
"step": 3890
},
{
"epoch": 0.8795669824086604,
"grad_norm": 3.765625,
"learning_rate": 7.003333333333335e-06,
"loss": 0.1214,
"step": 3900
},
{
"epoch": 0.8818222823635543,
"grad_norm": 2.734375,
"learning_rate": 6.97e-06,
"loss": 0.1387,
"step": 3910
},
{
"epoch": 0.8840775823184484,
"grad_norm": 3.125,
"learning_rate": 6.9366666666666675e-06,
"loss": 0.1469,
"step": 3920
},
{
"epoch": 0.8863328822733424,
"grad_norm": 2.5,
"learning_rate": 6.903333333333334e-06,
"loss": 0.1432,
"step": 3930
},
{
"epoch": 0.8885881822282363,
"grad_norm": 2.984375,
"learning_rate": 6.870000000000001e-06,
"loss": 0.1337,
"step": 3940
},
{
"epoch": 0.8908434821831304,
"grad_norm": 2.6875,
"learning_rate": 6.836666666666667e-06,
"loss": 0.131,
"step": 3950
},
{
"epoch": 0.8930987821380244,
"grad_norm": 2.78125,
"learning_rate": 6.803333333333334e-06,
"loss": 0.1385,
"step": 3960
},
{
"epoch": 0.8953540820929183,
"grad_norm": 2.1875,
"learning_rate": 6.770000000000001e-06,
"loss": 0.1379,
"step": 3970
},
{
"epoch": 0.8976093820478124,
"grad_norm": 2.640625,
"learning_rate": 6.736666666666667e-06,
"loss": 0.1307,
"step": 3980
},
{
"epoch": 0.8998646820027063,
"grad_norm": 3.109375,
"learning_rate": 6.703333333333334e-06,
"loss": 0.1199,
"step": 3990
},
{
"epoch": 0.9021199819576003,
"grad_norm": 3.109375,
"learning_rate": 6.6700000000000005e-06,
"loss": 0.1262,
"step": 4000
},
{
"epoch": 0.9043752819124944,
"grad_norm": 3.453125,
"learning_rate": 6.636666666666667e-06,
"loss": 0.1275,
"step": 4010
},
{
"epoch": 0.9066305818673883,
"grad_norm": 3.21875,
"learning_rate": 6.603333333333334e-06,
"loss": 0.1321,
"step": 4020
},
{
"epoch": 0.9088858818222824,
"grad_norm": 2.71875,
"learning_rate": 6.570000000000001e-06,
"loss": 0.1275,
"step": 4030
},
{
"epoch": 0.9111411817771764,
"grad_norm": 3.375,
"learning_rate": 6.536666666666667e-06,
"loss": 0.1068,
"step": 4040
},
{
"epoch": 0.9133964817320703,
"grad_norm": 2.984375,
"learning_rate": 6.5033333333333335e-06,
"loss": 0.1214,
"step": 4050
},
{
"epoch": 0.9156517816869644,
"grad_norm": 3.28125,
"learning_rate": 6.470000000000001e-06,
"loss": 0.1306,
"step": 4060
},
{
"epoch": 0.9179070816418584,
"grad_norm": 3.40625,
"learning_rate": 6.436666666666668e-06,
"loss": 0.1331,
"step": 4070
},
{
"epoch": 0.9201623815967523,
"grad_norm": 3.578125,
"learning_rate": 6.403333333333334e-06,
"loss": 0.1334,
"step": 4080
},
{
"epoch": 0.9224176815516464,
"grad_norm": 2.40625,
"learning_rate": 6.370000000000001e-06,
"loss": 0.1352,
"step": 4090
},
{
"epoch": 0.9246729815065403,
"grad_norm": 2.734375,
"learning_rate": 6.336666666666667e-06,
"loss": 0.1138,
"step": 4100
},
{
"epoch": 0.9269282814614344,
"grad_norm": 2.984375,
"learning_rate": 6.303333333333334e-06,
"loss": 0.1163,
"step": 4110
},
{
"epoch": 0.9291835814163284,
"grad_norm": 3.21875,
"learning_rate": 6.27e-06,
"loss": 0.1235,
"step": 4120
},
{
"epoch": 0.9314388813712223,
"grad_norm": 3.40625,
"learning_rate": 6.236666666666667e-06,
"loss": 0.128,
"step": 4130
},
{
"epoch": 0.9336941813261164,
"grad_norm": 2.828125,
"learning_rate": 6.203333333333334e-06,
"loss": 0.1254,
"step": 4140
},
{
"epoch": 0.9359494812810104,
"grad_norm": 2.78125,
"learning_rate": 6.17e-06,
"loss": 0.1272,
"step": 4150
},
{
"epoch": 0.9382047812359043,
"grad_norm": 2.390625,
"learning_rate": 6.1366666666666675e-06,
"loss": 0.1294,
"step": 4160
},
{
"epoch": 0.9404600811907984,
"grad_norm": 2.515625,
"learning_rate": 6.103333333333333e-06,
"loss": 0.1231,
"step": 4170
},
{
"epoch": 0.9427153811456924,
"grad_norm": 2.6875,
"learning_rate": 6.07e-06,
"loss": 0.1424,
"step": 4180
},
{
"epoch": 0.9449706811005864,
"grad_norm": 2.71875,
"learning_rate": 6.036666666666668e-06,
"loss": 0.1214,
"step": 4190
},
{
"epoch": 0.9472259810554804,
"grad_norm": 3.15625,
"learning_rate": 6.003333333333334e-06,
"loss": 0.1147,
"step": 4200
},
{
"epoch": 0.9494812810103744,
"grad_norm": 2.546875,
"learning_rate": 5.9700000000000004e-06,
"loss": 0.1256,
"step": 4210
},
{
"epoch": 0.9517365809652684,
"grad_norm": 2.796875,
"learning_rate": 5.936666666666667e-06,
"loss": 0.1232,
"step": 4220
},
{
"epoch": 0.9539918809201624,
"grad_norm": 2.765625,
"learning_rate": 5.903333333333334e-06,
"loss": 0.1103,
"step": 4230
},
{
"epoch": 0.9562471808750563,
"grad_norm": 4.09375,
"learning_rate": 5.8700000000000005e-06,
"loss": 0.1294,
"step": 4240
},
{
"epoch": 0.9585024808299504,
"grad_norm": 2.46875,
"learning_rate": 5.836666666666667e-06,
"loss": 0.1243,
"step": 4250
},
{
"epoch": 0.9607577807848444,
"grad_norm": 2.4375,
"learning_rate": 5.803333333333334e-06,
"loss": 0.1165,
"step": 4260
},
{
"epoch": 0.9630130807397383,
"grad_norm": 3.4375,
"learning_rate": 5.77e-06,
"loss": 0.1192,
"step": 4270
},
{
"epoch": 0.9652683806946324,
"grad_norm": 2.28125,
"learning_rate": 5.736666666666667e-06,
"loss": 0.1175,
"step": 4280
},
{
"epoch": 0.9675236806495264,
"grad_norm": 2.328125,
"learning_rate": 5.703333333333334e-06,
"loss": 0.1214,
"step": 4290
},
{
"epoch": 0.9697789806044204,
"grad_norm": 2.765625,
"learning_rate": 5.67e-06,
"loss": 0.1162,
"step": 4300
},
{
"epoch": 0.9720342805593144,
"grad_norm": 2.765625,
"learning_rate": 5.636666666666667e-06,
"loss": 0.1221,
"step": 4310
},
{
"epoch": 0.9742895805142084,
"grad_norm": 2.828125,
"learning_rate": 5.603333333333334e-06,
"loss": 0.1135,
"step": 4320
},
{
"epoch": 0.9765448804691024,
"grad_norm": 2.40625,
"learning_rate": 5.570000000000001e-06,
"loss": 0.1137,
"step": 4330
},
{
"epoch": 0.9788001804239964,
"grad_norm": 2.71875,
"learning_rate": 5.5366666666666665e-06,
"loss": 0.1209,
"step": 4340
},
{
"epoch": 0.9810554803788903,
"grad_norm": 2.203125,
"learning_rate": 5.503333333333334e-06,
"loss": 0.1373,
"step": 4350
},
{
"epoch": 0.9833107803337844,
"grad_norm": 2.640625,
"learning_rate": 5.470000000000001e-06,
"loss": 0.1196,
"step": 4360
},
{
"epoch": 0.9855660802886784,
"grad_norm": 3.0625,
"learning_rate": 5.4366666666666666e-06,
"loss": 0.1194,
"step": 4370
},
{
"epoch": 0.9878213802435724,
"grad_norm": 3.3125,
"learning_rate": 5.403333333333334e-06,
"loss": 0.1098,
"step": 4380
},
{
"epoch": 0.9900766801984664,
"grad_norm": 2.59375,
"learning_rate": 5.370000000000001e-06,
"loss": 0.1192,
"step": 4390
},
{
"epoch": 0.9923319801533604,
"grad_norm": 2.734375,
"learning_rate": 5.336666666666667e-06,
"loss": 0.1077,
"step": 4400
},
{
"epoch": 0.9945872801082544,
"grad_norm": 2.546875,
"learning_rate": 5.303333333333334e-06,
"loss": 0.126,
"step": 4410
},
{
"epoch": 0.9968425800631484,
"grad_norm": 2.828125,
"learning_rate": 5.27e-06,
"loss": 0.1223,
"step": 4420
},
{
"epoch": 0.9990978800180425,
"grad_norm": 3.515625,
"learning_rate": 5.236666666666667e-06,
"loss": 0.1176,
"step": 4430
},
{
"epoch": 1.0013531799729365,
"grad_norm": 2.640625,
"learning_rate": 5.203333333333333e-06,
"loss": 0.1064,
"step": 4440
},
{
"epoch": 1.0036084799278304,
"grad_norm": 1.5625,
"learning_rate": 5.1700000000000005e-06,
"loss": 0.1128,
"step": 4450
},
{
"epoch": 1.0058637798827244,
"grad_norm": 2.078125,
"learning_rate": 5.136666666666668e-06,
"loss": 0.0987,
"step": 4460
},
{
"epoch": 1.0081190798376185,
"grad_norm": 2.359375,
"learning_rate": 5.103333333333333e-06,
"loss": 0.1084,
"step": 4470
},
{
"epoch": 1.0103743797925124,
"grad_norm": 2.0,
"learning_rate": 5.070000000000001e-06,
"loss": 0.1035,
"step": 4480
},
{
"epoch": 1.0126296797474064,
"grad_norm": 2.234375,
"learning_rate": 5.036666666666668e-06,
"loss": 0.1083,
"step": 4490
},
{
"epoch": 1.0148849797023005,
"grad_norm": 2.359375,
"learning_rate": 5.0033333333333334e-06,
"loss": 0.117,
"step": 4500
},
{
"epoch": 1.0171402796571944,
"grad_norm": 3.234375,
"learning_rate": 4.970000000000001e-06,
"loss": 0.0979,
"step": 4510
},
{
"epoch": 1.0193955796120884,
"grad_norm": 1.9765625,
"learning_rate": 4.936666666666667e-06,
"loss": 0.0954,
"step": 4520
},
{
"epoch": 1.0216508795669823,
"grad_norm": 2.890625,
"learning_rate": 4.9033333333333335e-06,
"loss": 0.0957,
"step": 4530
},
{
"epoch": 1.0239061795218765,
"grad_norm": 3.046875,
"learning_rate": 4.87e-06,
"loss": 0.1065,
"step": 4540
},
{
"epoch": 1.0261614794767704,
"grad_norm": 2.046875,
"learning_rate": 4.836666666666667e-06,
"loss": 0.0878,
"step": 4550
},
{
"epoch": 1.0284167794316643,
"grad_norm": 2.390625,
"learning_rate": 4.803333333333334e-06,
"loss": 0.1011,
"step": 4560
},
{
"epoch": 1.0306720793865585,
"grad_norm": 2.828125,
"learning_rate": 4.77e-06,
"loss": 0.0977,
"step": 4570
},
{
"epoch": 1.0329273793414524,
"grad_norm": 2.59375,
"learning_rate": 4.736666666666667e-06,
"loss": 0.1086,
"step": 4580
},
{
"epoch": 1.0351826792963463,
"grad_norm": 2.203125,
"learning_rate": 4.703333333333334e-06,
"loss": 0.1006,
"step": 4590
},
{
"epoch": 1.0374379792512405,
"grad_norm": 3.65625,
"learning_rate": 4.670000000000001e-06,
"loss": 0.1144,
"step": 4600
},
{
"epoch": 1.0396932792061344,
"grad_norm": 2.40625,
"learning_rate": 4.6366666666666674e-06,
"loss": 0.101,
"step": 4610
},
{
"epoch": 1.0419485791610283,
"grad_norm": 2.171875,
"learning_rate": 4.603333333333334e-06,
"loss": 0.0841,
"step": 4620
},
{
"epoch": 1.0442038791159225,
"grad_norm": 3.921875,
"learning_rate": 4.57e-06,
"loss": 0.1046,
"step": 4630
},
{
"epoch": 1.0464591790708164,
"grad_norm": 2.4375,
"learning_rate": 4.536666666666667e-06,
"loss": 0.0975,
"step": 4640
},
{
"epoch": 1.0487144790257104,
"grad_norm": 3.171875,
"learning_rate": 4.503333333333333e-06,
"loss": 0.0955,
"step": 4650
},
{
"epoch": 1.0509697789806045,
"grad_norm": 2.546875,
"learning_rate": 4.47e-06,
"loss": 0.1083,
"step": 4660
},
{
"epoch": 1.0532250789354984,
"grad_norm": 2.078125,
"learning_rate": 4.436666666666667e-06,
"loss": 0.1139,
"step": 4670
},
{
"epoch": 1.0554803788903924,
"grad_norm": 2.421875,
"learning_rate": 4.403333333333334e-06,
"loss": 0.1052,
"step": 4680
},
{
"epoch": 1.0577356788452865,
"grad_norm": 2.09375,
"learning_rate": 4.3700000000000005e-06,
"loss": 0.0956,
"step": 4690
},
{
"epoch": 1.0599909788001805,
"grad_norm": 2.578125,
"learning_rate": 4.336666666666667e-06,
"loss": 0.0991,
"step": 4700
},
{
"epoch": 1.0622462787550744,
"grad_norm": 2.15625,
"learning_rate": 4.303333333333334e-06,
"loss": 0.1256,
"step": 4710
},
{
"epoch": 1.0645015787099683,
"grad_norm": 2.34375,
"learning_rate": 4.270000000000001e-06,
"loss": 0.1075,
"step": 4720
},
{
"epoch": 1.0667568786648625,
"grad_norm": 2.234375,
"learning_rate": 4.236666666666667e-06,
"loss": 0.0935,
"step": 4730
},
{
"epoch": 1.0690121786197564,
"grad_norm": 1.78125,
"learning_rate": 4.2033333333333335e-06,
"loss": 0.1012,
"step": 4740
},
{
"epoch": 1.0712674785746503,
"grad_norm": 2.0625,
"learning_rate": 4.17e-06,
"loss": 0.1035,
"step": 4750
},
{
"epoch": 1.0735227785295445,
"grad_norm": 3.328125,
"learning_rate": 4.136666666666667e-06,
"loss": 0.1075,
"step": 4760
},
{
"epoch": 1.0757780784844384,
"grad_norm": 1.9296875,
"learning_rate": 4.1033333333333336e-06,
"loss": 0.1054,
"step": 4770
},
{
"epoch": 1.0780333784393323,
"grad_norm": 2.265625,
"learning_rate": 4.07e-06,
"loss": 0.0883,
"step": 4780
},
{
"epoch": 1.0802886783942265,
"grad_norm": 2.390625,
"learning_rate": 4.036666666666667e-06,
"loss": 0.0988,
"step": 4790
},
{
"epoch": 1.0825439783491204,
"grad_norm": 3.078125,
"learning_rate": 4.003333333333334e-06,
"loss": 0.1047,
"step": 4800
},
{
"epoch": 1.0847992783040143,
"grad_norm": 2.84375,
"learning_rate": 3.97e-06,
"loss": 0.123,
"step": 4810
},
{
"epoch": 1.0870545782589085,
"grad_norm": 2.671875,
"learning_rate": 3.936666666666667e-06,
"loss": 0.0982,
"step": 4820
},
{
"epoch": 1.0893098782138024,
"grad_norm": 2.515625,
"learning_rate": 3.903333333333334e-06,
"loss": 0.1112,
"step": 4830
},
{
"epoch": 1.0915651781686964,
"grad_norm": 2.59375,
"learning_rate": 3.87e-06,
"loss": 0.119,
"step": 4840
},
{
"epoch": 1.0938204781235905,
"grad_norm": 1.9765625,
"learning_rate": 3.836666666666667e-06,
"loss": 0.0939,
"step": 4850
},
{
"epoch": 1.0960757780784844,
"grad_norm": 2.734375,
"learning_rate": 3.803333333333334e-06,
"loss": 0.0933,
"step": 4860
},
{
"epoch": 1.0983310780333784,
"grad_norm": 3.265625,
"learning_rate": 3.7700000000000003e-06,
"loss": 0.0983,
"step": 4870
},
{
"epoch": 1.1005863779882725,
"grad_norm": 1.8203125,
"learning_rate": 3.7366666666666667e-06,
"loss": 0.1099,
"step": 4880
},
{
"epoch": 1.1028416779431665,
"grad_norm": 2.203125,
"learning_rate": 3.7033333333333336e-06,
"loss": 0.0952,
"step": 4890
},
{
"epoch": 1.1050969778980604,
"grad_norm": 2.0625,
"learning_rate": 3.6700000000000004e-06,
"loss": 0.0789,
"step": 4900
},
{
"epoch": 1.1073522778529545,
"grad_norm": 2.234375,
"learning_rate": 3.6366666666666673e-06,
"loss": 0.1048,
"step": 4910
},
{
"epoch": 1.1096075778078485,
"grad_norm": 2.765625,
"learning_rate": 3.6033333333333337e-06,
"loss": 0.1165,
"step": 4920
},
{
"epoch": 1.1118628777627424,
"grad_norm": 3.46875,
"learning_rate": 3.57e-06,
"loss": 0.1013,
"step": 4930
},
{
"epoch": 1.1141181777176365,
"grad_norm": 2.609375,
"learning_rate": 3.536666666666667e-06,
"loss": 0.1291,
"step": 4940
},
{
"epoch": 1.1163734776725305,
"grad_norm": 2.3125,
"learning_rate": 3.5033333333333334e-06,
"loss": 0.1018,
"step": 4950
},
{
"epoch": 1.1186287776274244,
"grad_norm": 2.890625,
"learning_rate": 3.4700000000000002e-06,
"loss": 0.1039,
"step": 4960
},
{
"epoch": 1.1208840775823186,
"grad_norm": 2.65625,
"learning_rate": 3.436666666666667e-06,
"loss": 0.0958,
"step": 4970
},
{
"epoch": 1.1231393775372125,
"grad_norm": 2.140625,
"learning_rate": 3.4033333333333335e-06,
"loss": 0.0811,
"step": 4980
},
{
"epoch": 1.1253946774921064,
"grad_norm": 2.078125,
"learning_rate": 3.3700000000000003e-06,
"loss": 0.1002,
"step": 4990
},
{
"epoch": 1.1276499774470006,
"grad_norm": 2.53125,
"learning_rate": 3.3366666666666668e-06,
"loss": 0.1201,
"step": 5000
},
{
"epoch": 1.1299052774018945,
"grad_norm": 2.109375,
"learning_rate": 3.303333333333333e-06,
"loss": 0.1172,
"step": 5010
},
{
"epoch": 1.1321605773567884,
"grad_norm": 2.109375,
"learning_rate": 3.2700000000000005e-06,
"loss": 0.1013,
"step": 5020
},
{
"epoch": 1.1344158773116824,
"grad_norm": 2.859375,
"learning_rate": 3.236666666666667e-06,
"loss": 0.0815,
"step": 5030
},
{
"epoch": 1.1366711772665765,
"grad_norm": 1.859375,
"learning_rate": 3.2033333333333337e-06,
"loss": 0.1105,
"step": 5040
},
{
"epoch": 1.1389264772214704,
"grad_norm": 2.078125,
"learning_rate": 3.17e-06,
"loss": 0.1004,
"step": 5050
},
{
"epoch": 1.1411817771763644,
"grad_norm": 2.515625,
"learning_rate": 3.1366666666666666e-06,
"loss": 0.0956,
"step": 5060
},
{
"epoch": 1.1434370771312585,
"grad_norm": 2.234375,
"learning_rate": 3.103333333333334e-06,
"loss": 0.0966,
"step": 5070
},
{
"epoch": 1.1456923770861525,
"grad_norm": 1.671875,
"learning_rate": 3.0700000000000003e-06,
"loss": 0.1093,
"step": 5080
},
{
"epoch": 1.1479476770410464,
"grad_norm": 1.8984375,
"learning_rate": 3.0366666666666667e-06,
"loss": 0.1048,
"step": 5090
},
{
"epoch": 1.1502029769959405,
"grad_norm": 2.46875,
"learning_rate": 3.0033333333333335e-06,
"loss": 0.096,
"step": 5100
},
{
"epoch": 1.1524582769508345,
"grad_norm": 2.1875,
"learning_rate": 2.97e-06,
"loss": 0.1086,
"step": 5110
},
{
"epoch": 1.1547135769057284,
"grad_norm": 2.265625,
"learning_rate": 2.936666666666667e-06,
"loss": 0.107,
"step": 5120
},
{
"epoch": 1.1569688768606226,
"grad_norm": 2.359375,
"learning_rate": 2.9033333333333336e-06,
"loss": 0.101,
"step": 5130
},
{
"epoch": 1.1592241768155165,
"grad_norm": 1.9140625,
"learning_rate": 2.87e-06,
"loss": 0.0915,
"step": 5140
},
{
"epoch": 1.1614794767704104,
"grad_norm": 2.328125,
"learning_rate": 2.836666666666667e-06,
"loss": 0.1138,
"step": 5150
},
{
"epoch": 1.1637347767253043,
"grad_norm": 2.328125,
"learning_rate": 2.8033333333333333e-06,
"loss": 0.1046,
"step": 5160
},
{
"epoch": 1.1659900766801985,
"grad_norm": 2.953125,
"learning_rate": 2.7700000000000006e-06,
"loss": 0.1082,
"step": 5170
},
{
"epoch": 1.1682453766350924,
"grad_norm": 1.75,
"learning_rate": 2.736666666666667e-06,
"loss": 0.102,
"step": 5180
},
{
"epoch": 1.1705006765899864,
"grad_norm": 2.296875,
"learning_rate": 2.7033333333333334e-06,
"loss": 0.0988,
"step": 5190
},
{
"epoch": 1.1727559765448805,
"grad_norm": 3.015625,
"learning_rate": 2.6700000000000003e-06,
"loss": 0.1008,
"step": 5200
},
{
"epoch": 1.1750112764997744,
"grad_norm": 2.0625,
"learning_rate": 2.6366666666666667e-06,
"loss": 0.1001,
"step": 5210
},
{
"epoch": 1.1772665764546684,
"grad_norm": 1.765625,
"learning_rate": 2.603333333333334e-06,
"loss": 0.102,
"step": 5220
},
{
"epoch": 1.1795218764095625,
"grad_norm": 2.1875,
"learning_rate": 2.5700000000000004e-06,
"loss": 0.0954,
"step": 5230
},
{
"epoch": 1.1817771763644564,
"grad_norm": 2.546875,
"learning_rate": 2.536666666666667e-06,
"loss": 0.1014,
"step": 5240
},
{
"epoch": 1.1840324763193504,
"grad_norm": 1.6875,
"learning_rate": 2.5033333333333336e-06,
"loss": 0.1032,
"step": 5250
},
{
"epoch": 1.1862877762742445,
"grad_norm": 2.078125,
"learning_rate": 2.47e-06,
"loss": 0.1037,
"step": 5260
},
{
"epoch": 1.1885430762291385,
"grad_norm": 2.171875,
"learning_rate": 2.436666666666667e-06,
"loss": 0.0912,
"step": 5270
},
{
"epoch": 1.1907983761840324,
"grad_norm": 2.546875,
"learning_rate": 2.4033333333333338e-06,
"loss": 0.0874,
"step": 5280
},
{
"epoch": 1.1930536761389265,
"grad_norm": 2.296875,
"learning_rate": 2.37e-06,
"loss": 0.0877,
"step": 5290
},
{
"epoch": 1.1953089760938205,
"grad_norm": 2.875,
"learning_rate": 2.3366666666666666e-06,
"loss": 0.0966,
"step": 5300
},
{
"epoch": 1.1975642760487144,
"grad_norm": 1.9921875,
"learning_rate": 2.3033333333333334e-06,
"loss": 0.096,
"step": 5310
},
{
"epoch": 1.1998195760036086,
"grad_norm": 2.234375,
"learning_rate": 2.2700000000000003e-06,
"loss": 0.1119,
"step": 5320
},
{
"epoch": 1.2020748759585025,
"grad_norm": 2.078125,
"learning_rate": 2.236666666666667e-06,
"loss": 0.0967,
"step": 5330
},
{
"epoch": 1.2043301759133964,
"grad_norm": 1.921875,
"learning_rate": 2.2033333333333336e-06,
"loss": 0.1065,
"step": 5340
},
{
"epoch": 1.2065854758682906,
"grad_norm": 3.65625,
"learning_rate": 2.17e-06,
"loss": 0.1093,
"step": 5350
},
{
"epoch": 1.2088407758231845,
"grad_norm": 2.28125,
"learning_rate": 2.136666666666667e-06,
"loss": 0.1131,
"step": 5360
},
{
"epoch": 1.2110960757780784,
"grad_norm": 2.25,
"learning_rate": 2.1033333333333337e-06,
"loss": 0.0938,
"step": 5370
},
{
"epoch": 1.2133513757329726,
"grad_norm": 2.203125,
"learning_rate": 2.07e-06,
"loss": 0.0951,
"step": 5380
},
{
"epoch": 1.2156066756878665,
"grad_norm": 2.09375,
"learning_rate": 2.036666666666667e-06,
"loss": 0.1138,
"step": 5390
},
{
"epoch": 1.2178619756427604,
"grad_norm": 2.34375,
"learning_rate": 2.0033333333333334e-06,
"loss": 0.0944,
"step": 5400
},
{
"epoch": 1.2201172755976546,
"grad_norm": 1.9296875,
"learning_rate": 1.97e-06,
"loss": 0.0991,
"step": 5410
},
{
"epoch": 1.2223725755525485,
"grad_norm": 2.234375,
"learning_rate": 1.9366666666666666e-06,
"loss": 0.1096,
"step": 5420
},
{
"epoch": 1.2246278755074425,
"grad_norm": 2.03125,
"learning_rate": 1.9033333333333335e-06,
"loss": 0.1197,
"step": 5430
},
{
"epoch": 1.2268831754623366,
"grad_norm": 2.15625,
"learning_rate": 1.87e-06,
"loss": 0.1,
"step": 5440
},
{
"epoch": 1.2291384754172305,
"grad_norm": 2.15625,
"learning_rate": 1.836666666666667e-06,
"loss": 0.1017,
"step": 5450
},
{
"epoch": 1.2313937753721245,
"grad_norm": 2.234375,
"learning_rate": 1.8033333333333336e-06,
"loss": 0.1099,
"step": 5460
},
{
"epoch": 1.2336490753270186,
"grad_norm": 2.109375,
"learning_rate": 1.77e-06,
"loss": 0.1058,
"step": 5470
},
{
"epoch": 1.2359043752819125,
"grad_norm": 2.171875,
"learning_rate": 1.7366666666666668e-06,
"loss": 0.1007,
"step": 5480
},
{
"epoch": 1.2381596752368065,
"grad_norm": 2.375,
"learning_rate": 1.7033333333333335e-06,
"loss": 0.0947,
"step": 5490
},
{
"epoch": 1.2404149751917004,
"grad_norm": 2.125,
"learning_rate": 1.6700000000000003e-06,
"loss": 0.0936,
"step": 5500
}
],
"logging_steps": 10,
"max_steps": 6000,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 4.057702632259584e+18,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}