Upload folder using huggingface_hub

2b66fa5 verified 7 months ago

403 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.25599901577555206,
	"eval_steps": 500,
	"global_step": 22889,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00011184368726268168,
	"grad_norm": 0.6328383684158325,
	"learning_rate": 4.5e-06,
	"loss": 1.734,
	"step": 10
	},
	{
	"epoch": 0.00022368737452536336,
	"grad_norm": 0.566952109336853,
	"learning_rate": 9.5e-06,
	"loss": 1.6903,
	"step": 20
	},
	{
	"epoch": 0.00033553106178804503,
	"grad_norm": 0.5359939932823181,
	"learning_rate": 1.4500000000000002e-05,
	"loss": 1.6266,
	"step": 30
	},
	{
	"epoch": 0.0004473747490507267,
	"grad_norm": 0.4729914367198944,
	"learning_rate": 1.95e-05,
	"loss": 1.5731,
	"step": 40
	},
	{
	"epoch": 0.0005592184363134084,
	"grad_norm": 0.42020025849342346,
	"learning_rate": 2.4500000000000003e-05,
	"loss": 1.5335,
	"step": 50
	},
	{
	"epoch": 0.0006710621235760901,
	"grad_norm": 0.4461672604084015,
	"learning_rate": 2.95e-05,
	"loss": 1.4851,
	"step": 60
	},
	{
	"epoch": 0.0007829058108387717,
	"grad_norm": 0.4443751275539398,
	"learning_rate": 3.4500000000000005e-05,
	"loss": 1.4431,
	"step": 70
	},
	{
	"epoch": 0.0008947494981014534,
	"grad_norm": 0.4204632639884949,
	"learning_rate": 3.95e-05,
	"loss": 1.4036,
	"step": 80
	},
	{
	"epoch": 0.0010065931853641351,
	"grad_norm": 0.3985028862953186,
	"learning_rate": 4.45e-05,
	"loss": 1.3725,
	"step": 90
	},
	{
	"epoch": 0.0011184368726268167,
	"grad_norm": 0.4111650586128235,
	"learning_rate": 4.9500000000000004e-05,
	"loss": 1.3527,
	"step": 100
	},
	{
	"epoch": 0.0012302805598894985,
	"grad_norm": 0.4175569713115692,
	"learning_rate": 5.45e-05,
	"loss": 1.3431,
	"step": 110
	},
	{
	"epoch": 0.0013421242471521801,
	"grad_norm": 0.3871678411960602,
	"learning_rate": 5.9499999999999996e-05,
	"loss": 1.3322,
	"step": 120
	},
	{
	"epoch": 0.0014539679344148617,
	"grad_norm": 0.39584827423095703,
	"learning_rate": 6.450000000000001e-05,
	"loss": 1.3075,
	"step": 130
	},
	{
	"epoch": 0.0015658116216775435,
	"grad_norm": 0.4165605902671814,
	"learning_rate": 6.950000000000001e-05,
	"loss": 1.286,
	"step": 140
	},
	{
	"epoch": 0.001677655308940225,
	"grad_norm": 0.3985513150691986,
	"learning_rate": 7.45e-05,
	"loss": 1.2567,
	"step": 150
	},
	{
	"epoch": 0.0017894989962029069,
	"grad_norm": 0.39112743735313416,
	"learning_rate": 7.950000000000001e-05,
	"loss": 1.2448,
	"step": 160
	},
	{
	"epoch": 0.0019013426834655885,
	"grad_norm": 0.3867124915122986,
	"learning_rate": 8.450000000000001e-05,
	"loss": 1.2405,
	"step": 170
	},
	{
	"epoch": 0.0020131863707282703,
	"grad_norm": 0.3955863416194916,
	"learning_rate": 8.95e-05,
	"loss": 1.2123,
	"step": 180
	},
	{
	"epoch": 0.002125030057990952,
	"grad_norm": 0.40293410420417786,
	"learning_rate": 9.45e-05,
	"loss": 1.2081,
	"step": 190
	},
	{
	"epoch": 0.0022368737452536334,
	"grad_norm": 0.3828902542591095,
	"learning_rate": 9.95e-05,
	"loss": 1.2049,
	"step": 200
	},
	{
	"epoch": 0.002348717432516315,
	"grad_norm": 0.3969178795814514,
	"learning_rate": 0.00010449999999999999,
	"loss": 1.1892,
	"step": 210
	},
	{
	"epoch": 0.002460561119778997,
	"grad_norm": 0.4122287929058075,
	"learning_rate": 0.0001095,
	"loss": 1.184,
	"step": 220
	},
	{
	"epoch": 0.0025724048070416786,
	"grad_norm": 0.3793940246105194,
	"learning_rate": 0.0001145,
	"loss": 1.1809,
	"step": 230
	},
	{
	"epoch": 0.0026842484943043602,
	"grad_norm": 0.4132145643234253,
	"learning_rate": 0.00011949999999999999,
	"loss": 1.1883,
	"step": 240
	},
	{
	"epoch": 0.002796092181567042,
	"grad_norm": 0.3900831639766693,
	"learning_rate": 0.0001245,
	"loss": 1.1818,
	"step": 250
	},
	{
	"epoch": 0.0029079358688297234,
	"grad_norm": 0.3898029625415802,
	"learning_rate": 0.0001295,
	"loss": 1.1693,
	"step": 260
	},
	{
	"epoch": 0.0030197795560924054,
	"grad_norm": 0.40828797221183777,
	"learning_rate": 0.00013450000000000002,
	"loss": 1.1869,
	"step": 270
	},
	{
	"epoch": 0.003131623243355087,
	"grad_norm": 0.3976770341396332,
	"learning_rate": 0.0001395,
	"loss": 1.1841,
	"step": 280
	},
	{
	"epoch": 0.0032434669306177686,
	"grad_norm": 0.3902062773704529,
	"learning_rate": 0.0001445,
	"loss": 1.1843,
	"step": 290
	},
	{
	"epoch": 0.00335531061788045,
	"grad_norm": 0.38051125407218933,
	"learning_rate": 0.0001495,
	"loss": 1.1662,
	"step": 300
	},
	{
	"epoch": 0.0034671543051431318,
	"grad_norm": 0.3628483712673187,
	"learning_rate": 0.00015450000000000001,
	"loss": 1.1638,
	"step": 310
	},
	{
	"epoch": 0.0035789979924058138,
	"grad_norm": 0.3693360388278961,
	"learning_rate": 0.0001595,
	"loss": 1.1606,
	"step": 320
	},
	{
	"epoch": 0.0036908416796684954,
	"grad_norm": 0.38896557688713074,
	"learning_rate": 0.00016450000000000001,
	"loss": 1.1448,
	"step": 330
	},
	{
	"epoch": 0.003802685366931177,
	"grad_norm": 0.40257108211517334,
	"learning_rate": 0.00016950000000000003,
	"loss": 1.143,
	"step": 340
	},
	{
	"epoch": 0.0039145290541938585,
	"grad_norm": 0.38656994700431824,
	"learning_rate": 0.00017449999999999999,
	"loss": 1.141,
	"step": 350
	},
	{
	"epoch": 0.0040263727414565405,
	"grad_norm": 0.3700025677680969,
	"learning_rate": 0.0001795,
	"loss": 1.136,
	"step": 360
	},
	{
	"epoch": 0.004138216428719222,
	"grad_norm": 0.37222161889076233,
	"learning_rate": 0.0001845,
	"loss": 1.1292,
	"step": 370
	},
	{
	"epoch": 0.004250060115981904,
	"grad_norm": 0.39386317133903503,
	"learning_rate": 0.0001895,
	"loss": 1.1139,
	"step": 380
	},
	{
	"epoch": 0.004361903803244586,
	"grad_norm": 0.3776305913925171,
	"learning_rate": 0.0001945,
	"loss": 1.1125,
	"step": 390
	},
	{
	"epoch": 0.004473747490507267,
	"grad_norm": 0.40314197540283203,
	"learning_rate": 0.00019950000000000002,
	"loss": 1.0962,
	"step": 400
	},
	{
	"epoch": 0.004585591177769949,
	"grad_norm": 0.37841472029685974,
	"learning_rate": 0.00020449999999999998,
	"loss": 1.0987,
	"step": 410
	},
	{
	"epoch": 0.00469743486503263,
	"grad_norm": 0.3678649365901947,
	"learning_rate": 0.0002095,
	"loss": 1.0826,
	"step": 420
	},
	{
	"epoch": 0.004809278552295312,
	"grad_norm": 0.37902751564979553,
	"learning_rate": 0.0002145,
	"loss": 1.0973,
	"step": 430
	},
	{
	"epoch": 0.004921122239557994,
	"grad_norm": 0.3776302635669708,
	"learning_rate": 0.0002195,
	"loss": 1.112,
	"step": 440
	},
	{
	"epoch": 0.005032965926820675,
	"grad_norm": 0.43771493434906006,
	"learning_rate": 0.0002245,
	"loss": 1.1005,
	"step": 450
	},
	{
	"epoch": 0.005144809614083357,
	"grad_norm": 0.3662595748901367,
	"learning_rate": 0.00022950000000000002,
	"loss": 1.0899,
	"step": 460
	},
	{
	"epoch": 0.005256653301346038,
	"grad_norm": 0.37473002076148987,
	"learning_rate": 0.00023449999999999998,
	"loss": 1.0982,
	"step": 470
	},
	{
	"epoch": 0.0053684969886087204,
	"grad_norm": 0.35591790080070496,
	"learning_rate": 0.0002395,
	"loss": 1.1005,
	"step": 480
	},
	{
	"epoch": 0.0054803406758714025,
	"grad_norm": 0.3825643062591553,
	"learning_rate": 0.0002445,
	"loss": 1.0896,
	"step": 490
	},
	{
	"epoch": 0.005592184363134084,
	"grad_norm": 0.3784261643886566,
	"learning_rate": 0.0002495,
	"loss": 1.1039,
	"step": 500
	},
	{
	"epoch": 0.005704028050396766,
	"grad_norm": 0.35387158393859863,
	"learning_rate": 0.0002545,
	"loss": 1.1038,
	"step": 510
	},
	{
	"epoch": 0.005815871737659447,
	"grad_norm": 0.3992142975330353,
	"learning_rate": 0.0002595,
	"loss": 1.088,
	"step": 520
	},
	{
	"epoch": 0.005927715424922129,
	"grad_norm": 0.36795270442962646,
	"learning_rate": 0.00026450000000000003,
	"loss": 1.0888,
	"step": 530
	},
	{
	"epoch": 0.006039559112184811,
	"grad_norm": 0.4007701575756073,
	"learning_rate": 0.00026950000000000005,
	"loss": 1.0838,
	"step": 540
	},
	{
	"epoch": 0.006151402799447492,
	"grad_norm": 0.34527722001075745,
	"learning_rate": 0.0002745,
	"loss": 1.0892,
	"step": 550
	},
	{
	"epoch": 0.006263246486710174,
	"grad_norm": 0.37232115864753723,
	"learning_rate": 0.0002795,
	"loss": 1.0939,
	"step": 560
	},
	{
	"epoch": 0.006375090173972855,
	"grad_norm": 0.4048405885696411,
	"learning_rate": 0.0002845,
	"loss": 1.0863,
	"step": 570
	},
	{
	"epoch": 0.006486933861235537,
	"grad_norm": 0.37317511439323425,
	"learning_rate": 0.0002895,
	"loss": 1.0711,
	"step": 580
	},
	{
	"epoch": 0.006598777548498219,
	"grad_norm": 0.38564008474349976,
	"learning_rate": 0.0002945,
	"loss": 1.091,
	"step": 590
	},
	{
	"epoch": 0.0067106212357609,
	"grad_norm": 0.3639361262321472,
	"learning_rate": 0.0002995,
	"loss": 1.0682,
	"step": 600
	},
	{
	"epoch": 0.006822464923023582,
	"grad_norm": 0.35907182097435,
	"learning_rate": 0.0003045,
	"loss": 1.0755,
	"step": 610
	},
	{
	"epoch": 0.0069343086102862635,
	"grad_norm": 0.35199785232543945,
	"learning_rate": 0.0003095,
	"loss": 1.0581,
	"step": 620
	},
	{
	"epoch": 0.0070461522975489455,
	"grad_norm": 0.35156381130218506,
	"learning_rate": 0.0003145,
	"loss": 1.0651,
	"step": 630
	},
	{
	"epoch": 0.0071579959848116275,
	"grad_norm": 0.3742520213127136,
	"learning_rate": 0.0003195,
	"loss": 1.0555,
	"step": 640
	},
	{
	"epoch": 0.007269839672074309,
	"grad_norm": 0.3587191700935364,
	"learning_rate": 0.00032450000000000003,
	"loss": 1.0548,
	"step": 650
	},
	{
	"epoch": 0.007381683359336991,
	"grad_norm": 0.37587791681289673,
	"learning_rate": 0.00032950000000000004,
	"loss": 1.0437,
	"step": 660
	},
	{
	"epoch": 0.007493527046599672,
	"grad_norm": 0.3410298526287079,
	"learning_rate": 0.00033450000000000005,
	"loss": 1.0426,
	"step": 670
	},
	{
	"epoch": 0.007605370733862354,
	"grad_norm": 0.3450978696346283,
	"learning_rate": 0.0003395,
	"loss": 1.0487,
	"step": 680
	},
	{
	"epoch": 0.007717214421125036,
	"grad_norm": 0.3445068299770355,
	"learning_rate": 0.00034449999999999997,
	"loss": 1.0411,
	"step": 690
	},
	{
	"epoch": 0.007829058108387717,
	"grad_norm": 0.34611567854881287,
	"learning_rate": 0.0003495,
	"loss": 1.0404,
	"step": 700
	},
	{
	"epoch": 0.007940901795650398,
	"grad_norm": 0.3339330852031708,
	"learning_rate": 0.0003545,
	"loss": 1.0361,
	"step": 710
	},
	{
	"epoch": 0.008052745482913081,
	"grad_norm": 0.33232080936431885,
	"learning_rate": 0.0003595,
	"loss": 1.0271,
	"step": 720
	},
	{
	"epoch": 0.008164589170175762,
	"grad_norm": 0.33050498366355896,
	"learning_rate": 0.0003645,
	"loss": 1.0316,
	"step": 730
	},
	{
	"epoch": 0.008276432857438443,
	"grad_norm": 0.3449972867965698,
	"learning_rate": 0.0003695,
	"loss": 1.0426,
	"step": 740
	},
	{
	"epoch": 0.008388276544701126,
	"grad_norm": 0.3543892502784729,
	"learning_rate": 0.0003745,
	"loss": 1.0475,
	"step": 750
	},
	{
	"epoch": 0.008500120231963807,
	"grad_norm": 0.3447831869125366,
	"learning_rate": 0.0003795,
	"loss": 1.0482,
	"step": 760
	},
	{
	"epoch": 0.008611963919226489,
	"grad_norm": 0.33845630288124084,
	"learning_rate": 0.0003845,
	"loss": 1.0533,
	"step": 770
	},
	{
	"epoch": 0.008723807606489171,
	"grad_norm": 0.3394622802734375,
	"learning_rate": 0.00038950000000000003,
	"loss": 1.0803,
	"step": 780
	},
	{
	"epoch": 0.008835651293751853,
	"grad_norm": 0.33649975061416626,
	"learning_rate": 0.00039450000000000005,
	"loss": 1.0461,
	"step": 790
	},
	{
	"epoch": 0.008947494981014534,
	"grad_norm": 0.3265191912651062,
	"learning_rate": 0.0003995,
	"loss": 1.0714,
	"step": 800
	},
	{
	"epoch": 0.009059338668277215,
	"grad_norm": 0.34960776567459106,
	"learning_rate": 0.0004045,
	"loss": 1.0542,
	"step": 810
	},
	{
	"epoch": 0.009171182355539898,
	"grad_norm": 0.3353814482688904,
	"learning_rate": 0.0004095,
	"loss": 1.0625,
	"step": 820
	},
	{
	"epoch": 0.009283026042802579,
	"grad_norm": 0.3499109148979187,
	"learning_rate": 0.0004145,
	"loss": 1.0679,
	"step": 830
	},
	{
	"epoch": 0.00939486973006526,
	"grad_norm": 0.33906084299087524,
	"learning_rate": 0.0004195,
	"loss": 1.0659,
	"step": 840
	},
	{
	"epoch": 0.009506713417327943,
	"grad_norm": 0.3245256543159485,
	"learning_rate": 0.0004245,
	"loss": 1.078,
	"step": 850
	},
	{
	"epoch": 0.009618557104590624,
	"grad_norm": 0.3364386260509491,
	"learning_rate": 0.0004295,
	"loss": 1.0771,
	"step": 860
	},
	{
	"epoch": 0.009730400791853305,
	"grad_norm": 0.348718523979187,
	"learning_rate": 0.0004345,
	"loss": 1.0751,
	"step": 870
	},
	{
	"epoch": 0.009842244479115988,
	"grad_norm": 0.31124839186668396,
	"learning_rate": 0.0004395,
	"loss": 1.0693,
	"step": 880
	},
	{
	"epoch": 0.00995408816637867,
	"grad_norm": 0.3478352129459381,
	"learning_rate": 0.0004445,
	"loss": 1.0682,
	"step": 890
	},
	{
	"epoch": 0.01006593185364135,
	"grad_norm": 0.31189802289009094,
	"learning_rate": 0.00044950000000000003,
	"loss": 1.0608,
	"step": 900
	},
	{
	"epoch": 0.010177775540904033,
	"grad_norm": 0.34715884923934937,
	"learning_rate": 0.00045450000000000004,
	"loss": 1.0698,
	"step": 910
	},
	{
	"epoch": 0.010289619228166715,
	"grad_norm": 0.3279336988925934,
	"learning_rate": 0.00045950000000000006,
	"loss": 1.0728,
	"step": 920
	},
	{
	"epoch": 0.010401462915429396,
	"grad_norm": 0.32010868191719055,
	"learning_rate": 0.0004645,
	"loss": 1.0765,
	"step": 930
	},
	{
	"epoch": 0.010513306602692077,
	"grad_norm": 0.3618028163909912,
	"learning_rate": 0.0004695,
	"loss": 1.0815,
	"step": 940
	},
	{
	"epoch": 0.01062515028995476,
	"grad_norm": 0.3403186798095703,
	"learning_rate": 0.0004745,
	"loss": 1.0713,
	"step": 950
	},
	{
	"epoch": 0.010736993977217441,
	"grad_norm": 0.347687691450119,
	"learning_rate": 0.0004795,
	"loss": 1.0844,
	"step": 960
	},
	{
	"epoch": 0.010848837664480122,
	"grad_norm": 0.3537987768650055,
	"learning_rate": 0.0004845,
	"loss": 1.0762,
	"step": 970
	},
	{
	"epoch": 0.010960681351742805,
	"grad_norm": 0.42015892267227173,
	"learning_rate": 0.0004895,
	"loss": 1.0832,
	"step": 980
	},
	{
	"epoch": 0.011072525039005486,
	"grad_norm": 0.35781368613243103,
	"learning_rate": 0.0004945,
	"loss": 1.0606,
	"step": 990
	},
	{
	"epoch": 0.011184368726268167,
	"grad_norm": 0.3361358344554901,
	"learning_rate": 0.0004995,
	"loss": 1.0717,
	"step": 1000
	},
	{
	"epoch": 0.01129621241353085,
	"grad_norm": 0.36569204926490784,
	"learning_rate": 0.0004997944172872219,
	"loss": 1.0602,
	"step": 1010
	},
	{
	"epoch": 0.011408056100793531,
	"grad_norm": 0.31979477405548096,
	"learning_rate": 0.0004995659920508017,
	"loss": 1.0531,
	"step": 1020
	},
	{
	"epoch": 0.011519899788056212,
	"grad_norm": 0.3295707404613495,
	"learning_rate": 0.0004993375668143817,
	"loss": 1.0346,
	"step": 1030
	},
	{
	"epoch": 0.011631743475318894,
	"grad_norm": 0.3207838833332062,
	"learning_rate": 0.0004991091415779616,
	"loss": 1.059,
	"step": 1040
	},
	{
	"epoch": 0.011743587162581576,
	"grad_norm": 0.33032119274139404,
	"learning_rate": 0.0004988807163415415,
	"loss": 1.0573,
	"step": 1050
	},
	{
	"epoch": 0.011855430849844258,
	"grad_norm": 0.3566173017024994,
	"learning_rate": 0.0004986522911051213,
	"loss": 1.0501,
	"step": 1060
	},
	{
	"epoch": 0.011967274537106939,
	"grad_norm": 0.31658655405044556,
	"learning_rate": 0.0004984238658687012,
	"loss": 1.0706,
	"step": 1070
	},
	{
	"epoch": 0.012079118224369622,
	"grad_norm": 0.3438680171966553,
	"learning_rate": 0.0004981954406322811,
	"loss": 1.0765,
	"step": 1080
	},
	{
	"epoch": 0.012190961911632303,
	"grad_norm": 0.3130144774913788,
	"learning_rate": 0.0004979670153958609,
	"loss": 1.0588,
	"step": 1090
	},
	{
	"epoch": 0.012302805598894984,
	"grad_norm": 0.31765422224998474,
	"learning_rate": 0.0004977385901594408,
	"loss": 1.0703,
	"step": 1100
	},
	{
	"epoch": 0.012414649286157667,
	"grad_norm": 0.36112868785858154,
	"learning_rate": 0.0004975101649230207,
	"loss": 1.0642,
	"step": 1110
	},
	{
	"epoch": 0.012526492973420348,
	"grad_norm": 0.33418065309524536,
	"learning_rate": 0.0004972817396866005,
	"loss": 1.0572,
	"step": 1120
	},
	{
	"epoch": 0.01263833666068303,
	"grad_norm": 0.34439629316329956,
	"learning_rate": 0.0004970533144501805,
	"loss": 1.0473,
	"step": 1130
	},
	{
	"epoch": 0.01275018034794571,
	"grad_norm": 0.32954639196395874,
	"learning_rate": 0.0004968248892137603,
	"loss": 1.054,
	"step": 1140
	},
	{
	"epoch": 0.012862024035208393,
	"grad_norm": 0.3351511061191559,
	"learning_rate": 0.0004965964639773402,
	"loss": 1.0444,
	"step": 1150
	},
	{
	"epoch": 0.012973867722471074,
	"grad_norm": 0.3065156638622284,
	"learning_rate": 0.0004963680387409202,
	"loss": 1.0546,
	"step": 1160
	},
	{
	"epoch": 0.013085711409733755,
	"grad_norm": 0.36450672149658203,
	"learning_rate": 0.0004961396135045,
	"loss": 1.0501,
	"step": 1170
	},
	{
	"epoch": 0.013197555096996438,
	"grad_norm": 0.3020591735839844,
	"learning_rate": 0.0004959111882680799,
	"loss": 1.052,
	"step": 1180
	},
	{
	"epoch": 0.01330939878425912,
	"grad_norm": 0.3097701966762543,
	"learning_rate": 0.0004956827630316598,
	"loss": 1.0695,
	"step": 1190
	},
	{
	"epoch": 0.0134212424715218,
	"grad_norm": 0.3410932719707489,
	"learning_rate": 0.0004954543377952396,
	"loss": 1.0692,
	"step": 1200
	},
	{
	"epoch": 0.013533086158784484,
	"grad_norm": 0.38478952646255493,
	"learning_rate": 0.0004952259125588195,
	"loss": 1.0592,
	"step": 1210
	},
	{
	"epoch": 0.013644929846047165,
	"grad_norm": 0.3737089931964874,
	"learning_rate": 0.0004949974873223994,
	"loss": 1.0808,
	"step": 1220
	},
	{
	"epoch": 0.013756773533309846,
	"grad_norm": 0.3264448940753937,
	"learning_rate": 0.0004947690620859793,
	"loss": 1.0759,
	"step": 1230
	},
	{
	"epoch": 0.013868617220572527,
	"grad_norm": 0.3922732472419739,
	"learning_rate": 0.0004945406368495591,
	"loss": 1.0634,
	"step": 1240
	},
	{
	"epoch": 0.01398046090783521,
	"grad_norm": 0.36068034172058105,
	"learning_rate": 0.000494312211613139,
	"loss": 1.0683,
	"step": 1250
	},
	{
	"epoch": 0.014092304595097891,
	"grad_norm": 0.3544798791408539,
	"learning_rate": 0.0004940837863767189,
	"loss": 1.0687,
	"step": 1260
	},
	{
	"epoch": 0.014204148282360572,
	"grad_norm": 0.31447795033454895,
	"learning_rate": 0.0004938553611402987,
	"loss": 1.0549,
	"step": 1270
	},
	{
	"epoch": 0.014315991969623255,
	"grad_norm": 0.37639158964157104,
	"learning_rate": 0.0004936269359038786,
	"loss": 1.0698,
	"step": 1280
	},
	{
	"epoch": 0.014427835656885936,
	"grad_norm": 0.32416418194770813,
	"learning_rate": 0.0004933985106674586,
	"loss": 1.0617,
	"step": 1290
	},
	{
	"epoch": 0.014539679344148617,
	"grad_norm": 0.3122979998588562,
	"learning_rate": 0.0004931700854310385,
	"loss": 1.0553,
	"step": 1300
	},
	{
	"epoch": 0.0146515230314113,
	"grad_norm": 0.3574884533882141,
	"learning_rate": 0.0004929416601946184,
	"loss": 1.0598,
	"step": 1310
	},
	{
	"epoch": 0.014763366718673981,
	"grad_norm": 0.30762428045272827,
	"learning_rate": 0.0004927132349581982,
	"loss": 1.0642,
	"step": 1320
	},
	{
	"epoch": 0.014875210405936663,
	"grad_norm": 0.34350454807281494,
	"learning_rate": 0.0004924848097217781,
	"loss": 1.0663,
	"step": 1330
	},
	{
	"epoch": 0.014987054093199344,
	"grad_norm": 0.33486828207969666,
	"learning_rate": 0.000492256384485358,
	"loss": 1.0479,
	"step": 1340
	},
	{
	"epoch": 0.015098897780462027,
	"grad_norm": 0.3025324046611786,
	"learning_rate": 0.0004920279592489378,
	"loss": 1.0705,
	"step": 1350
	},
	{
	"epoch": 0.015210741467724708,
	"grad_norm": 0.35260385274887085,
	"learning_rate": 0.0004917995340125177,
	"loss": 1.0762,
	"step": 1360
	},
	{
	"epoch": 0.015322585154987389,
	"grad_norm": 0.3188925087451935,
	"learning_rate": 0.0004915711087760976,
	"loss": 1.069,
	"step": 1370
	},
	{
	"epoch": 0.015434428842250072,
	"grad_norm": 0.332660436630249,
	"learning_rate": 0.0004913426835396775,
	"loss": 1.0749,
	"step": 1380
	},
	{
	"epoch": 0.015546272529512753,
	"grad_norm": 0.31745171546936035,
	"learning_rate": 0.0004911142583032573,
	"loss": 1.0811,
	"step": 1390
	},
	{
	"epoch": 0.015658116216775434,
	"grad_norm": 0.3237819969654083,
	"learning_rate": 0.0004908858330668372,
	"loss": 1.0634,
	"step": 1400
	},
	{
	"epoch": 0.015769959904038115,
	"grad_norm": 0.3300880789756775,
	"learning_rate": 0.0004906574078304171,
	"loss": 1.0554,
	"step": 1410
	},
	{
	"epoch": 0.015881803591300796,
	"grad_norm": 0.32475635409355164,
	"learning_rate": 0.0004904289825939969,
	"loss": 1.0598,
	"step": 1420
	},
	{
	"epoch": 0.01599364727856348,
	"grad_norm": 0.31278952956199646,
	"learning_rate": 0.0004902005573575769,
	"loss": 1.0498,
	"step": 1430
	},
	{
	"epoch": 0.016105490965826162,
	"grad_norm": 0.308680921792984,
	"learning_rate": 0.0004899721321211568,
	"loss": 1.0586,
	"step": 1440
	},
	{
	"epoch": 0.016217334653088843,
	"grad_norm": 0.34637314081192017,
	"learning_rate": 0.0004897437068847367,
	"loss": 1.0535,
	"step": 1450
	},
	{
	"epoch": 0.016329178340351524,
	"grad_norm": 0.3220643401145935,
	"learning_rate": 0.0004895152816483165,
	"loss": 1.0624,
	"step": 1460
	},
	{
	"epoch": 0.016441022027614206,
	"grad_norm": 0.31472912430763245,
	"learning_rate": 0.0004892868564118964,
	"loss": 1.0748,
	"step": 1470
	},
	{
	"epoch": 0.016552865714876887,
	"grad_norm": 0.3416632115840912,
	"learning_rate": 0.0004890584311754763,
	"loss": 1.0715,
	"step": 1480
	},
	{
	"epoch": 0.01666470940213957,
	"grad_norm": 0.3463667631149292,
	"learning_rate": 0.0004888300059390561,
	"loss": 1.0914,
	"step": 1490
	},
	{
	"epoch": 0.016776553089402253,
	"grad_norm": 0.3322199881076813,
	"learning_rate": 0.000488601580702636,
	"loss": 1.0707,
	"step": 1500
	},
	{
	"epoch": 0.016888396776664934,
	"grad_norm": 0.3899800479412079,
	"learning_rate": 0.0004883731554662159,
	"loss": 1.0883,
	"step": 1510
	},
	{
	"epoch": 0.017000240463927615,
	"grad_norm": 0.3409605324268341,
	"learning_rate": 0.0004881447302297958,
	"loss": 1.0982,
	"step": 1520
	},
	{
	"epoch": 0.017112084151190296,
	"grad_norm": 0.3720357120037079,
	"learning_rate": 0.0004879163049933757,
	"loss": 1.0674,
	"step": 1530
	},
	{
	"epoch": 0.017223927838452977,
	"grad_norm": 0.326050728559494,
	"learning_rate": 0.00048768787975695554,
	"loss": 1.0764,
	"step": 1540
	},
	{
	"epoch": 0.01733577152571566,
	"grad_norm": 0.3238283395767212,
	"learning_rate": 0.0004874594545205354,
	"loss": 1.0547,
	"step": 1550
	},
	{
	"epoch": 0.017447615212978343,
	"grad_norm": 0.3324073553085327,
	"learning_rate": 0.00048723102928411536,
	"loss": 1.0608,
	"step": 1560
	},
	{
	"epoch": 0.017559458900241024,
	"grad_norm": 0.3382217586040497,
	"learning_rate": 0.0004870026040476952,
	"loss": 1.0505,
	"step": 1570
	},
	{
	"epoch": 0.017671302587503705,
	"grad_norm": 0.3409116566181183,
	"learning_rate": 0.00048677417881127507,
	"loss": 1.0673,
	"step": 1580
	},
	{
	"epoch": 0.017783146274766386,
	"grad_norm": 0.3123399019241333,
	"learning_rate": 0.000486545753574855,
	"loss": 1.0461,
	"step": 1590
	},
	{
	"epoch": 0.017894989962029068,
	"grad_norm": 0.3178008198738098,
	"learning_rate": 0.00048631732833843484,
	"loss": 1.0526,
	"step": 1600
	},
	{
	"epoch": 0.01800683364929175,
	"grad_norm": 0.37002459168434143,
	"learning_rate": 0.0004860889031020147,
	"loss": 1.0483,
	"step": 1610
	},
	{
	"epoch": 0.01811867733655443,
	"grad_norm": 0.31036287546157837,
	"learning_rate": 0.0004858604778655946,
	"loss": 1.0418,
	"step": 1620
	},
	{
	"epoch": 0.018230521023817114,
	"grad_norm": 0.3027215600013733,
	"learning_rate": 0.00048563205262917446,
	"loss": 1.0467,
	"step": 1630
	},
	{
	"epoch": 0.018342364711079796,
	"grad_norm": 0.32144612073898315,
	"learning_rate": 0.00048540362739275437,
	"loss": 1.0437,
	"step": 1640
	},
	{
	"epoch": 0.018454208398342477,
	"grad_norm": 0.3156447410583496,
	"learning_rate": 0.0004851752021563343,
	"loss": 1.0447,
	"step": 1650
	},
	{
	"epoch": 0.018566052085605158,
	"grad_norm": 0.3228546380996704,
	"learning_rate": 0.00048494677691991413,
	"loss": 1.056,
	"step": 1660
	},
	{
	"epoch": 0.01867789577286784,
	"grad_norm": 0.3478510081768036,
	"learning_rate": 0.000484718351683494,
	"loss": 1.0523,
	"step": 1670
	},
	{
	"epoch": 0.01878973946013052,
	"grad_norm": 0.3413507342338562,
	"learning_rate": 0.0004844899264470739,
	"loss": 1.049,
	"step": 1680
	},
	{
	"epoch": 0.018901583147393205,
	"grad_norm": 0.3277221918106079,
	"learning_rate": 0.00048426150121065375,
	"loss": 1.0403,
	"step": 1690
	},
	{
	"epoch": 0.019013426834655886,
	"grad_norm": 0.3044646382331848,
	"learning_rate": 0.0004840330759742336,
	"loss": 1.0518,
	"step": 1700
	},
	{
	"epoch": 0.019125270521918567,
	"grad_norm": 0.31599846482276917,
	"learning_rate": 0.0004838046507378135,
	"loss": 1.0475,
	"step": 1710
	},
	{
	"epoch": 0.01923711420918125,
	"grad_norm": 0.346741646528244,
	"learning_rate": 0.00048357622550139343,
	"loss": 1.0515,
	"step": 1720
	},
	{
	"epoch": 0.01934895789644393,
	"grad_norm": 0.32756108045578003,
	"learning_rate": 0.0004833478002649733,
	"loss": 1.054,
	"step": 1730
	},
	{
	"epoch": 0.01946080158370661,
	"grad_norm": 0.3318345546722412,
	"learning_rate": 0.0004831193750285532,
	"loss": 1.0575,
	"step": 1740
	},
	{
	"epoch": 0.019572645270969292,
	"grad_norm": 0.3389560282230377,
	"learning_rate": 0.00048289094979213305,
	"loss": 1.0576,
	"step": 1750
	},
	{
	"epoch": 0.019684488958231976,
	"grad_norm": 0.31532642245292664,
	"learning_rate": 0.0004826625245557129,
	"loss": 1.0554,
	"step": 1760
	},
	{
	"epoch": 0.019796332645494658,
	"grad_norm": 0.3263496160507202,
	"learning_rate": 0.0004824340993192928,
	"loss": 1.0697,
	"step": 1770
	},
	{
	"epoch": 0.01990817633275734,
	"grad_norm": 0.328225314617157,
	"learning_rate": 0.00048220567408287267,
	"loss": 1.0584,
	"step": 1780
	},
	{
	"epoch": 0.02002002002002002,
	"grad_norm": 0.3030998706817627,
	"learning_rate": 0.00048197724884645253,
	"loss": 1.0555,
	"step": 1790
	},
	{
	"epoch": 0.0201318637072827,
	"grad_norm": 0.32594701647758484,
	"learning_rate": 0.0004817488236100325,
	"loss": 1.0512,
	"step": 1800
	},
	{
	"epoch": 0.020243707394545382,
	"grad_norm": 0.2882954776287079,
	"learning_rate": 0.00048152039837361235,
	"loss": 1.0441,
	"step": 1810
	},
	{
	"epoch": 0.020355551081808067,
	"grad_norm": 0.33917129039764404,
	"learning_rate": 0.0004812919731371922,
	"loss": 1.048,
	"step": 1820
	},
	{
	"epoch": 0.020467394769070748,
	"grad_norm": 0.32748523354530334,
	"learning_rate": 0.0004810635479007721,
	"loss": 1.042,
	"step": 1830
	},
	{
	"epoch": 0.02057923845633343,
	"grad_norm": 0.32332462072372437,
	"learning_rate": 0.00048083512266435197,
	"loss": 1.0396,
	"step": 1840
	},
	{
	"epoch": 0.02069108214359611,
	"grad_norm": 0.36977729201316833,
	"learning_rate": 0.0004806066974279318,
	"loss": 1.0337,
	"step": 1850
	},
	{
	"epoch": 0.02080292583085879,
	"grad_norm": 0.33298948407173157,
	"learning_rate": 0.00048037827219151174,
	"loss": 1.045,
	"step": 1860
	},
	{
	"epoch": 0.020914769518121473,
	"grad_norm": 0.328861802816391,
	"learning_rate": 0.00048014984695509165,
	"loss": 1.053,
	"step": 1870
	},
	{
	"epoch": 0.021026613205384154,
	"grad_norm": 0.3438888490200043,
	"learning_rate": 0.0004799214217186715,
	"loss": 1.0385,
	"step": 1880
	},
	{
	"epoch": 0.02113845689264684,
	"grad_norm": 0.3251883387565613,
	"learning_rate": 0.00047969299648225136,
	"loss": 1.0436,
	"step": 1890
	},
	{
	"epoch": 0.02125030057990952,
	"grad_norm": 0.3300330340862274,
	"learning_rate": 0.00047946457124583127,
	"loss": 1.0627,
	"step": 1900
	},
	{
	"epoch": 0.0213621442671722,
	"grad_norm": 0.31774377822875977,
	"learning_rate": 0.0004792361460094111,
	"loss": 1.0491,
	"step": 1910
	},
	{
	"epoch": 0.021473987954434882,
	"grad_norm": 0.36171990633010864,
	"learning_rate": 0.000479007720772991,
	"loss": 1.0536,
	"step": 1920
	},
	{
	"epoch": 0.021585831641697563,
	"grad_norm": 0.33032888174057007,
	"learning_rate": 0.0004787792955365709,
	"loss": 1.0327,
	"step": 1930
	},
	{
	"epoch": 0.021697675328960244,
	"grad_norm": 0.34056538343429565,
	"learning_rate": 0.00047855087030015074,
	"loss": 1.0354,
	"step": 1940
	},
	{
	"epoch": 0.021809519016222925,
	"grad_norm": 0.31768256425857544,
	"learning_rate": 0.00047832244506373065,
	"loss": 1.0278,
	"step": 1950
	},
	{
	"epoch": 0.02192136270348561,
	"grad_norm": 0.33165955543518066,
	"learning_rate": 0.00047809401982731056,
	"loss": 1.057,
	"step": 1960
	},
	{
	"epoch": 0.02203320639074829,
	"grad_norm": 0.34456339478492737,
	"learning_rate": 0.0004778655945908904,
	"loss": 1.0465,
	"step": 1970
	},
	{
	"epoch": 0.022145050078010972,
	"grad_norm": 0.35331544280052185,
	"learning_rate": 0.0004776371693544703,
	"loss": 1.0509,
	"step": 1980
	},
	{
	"epoch": 0.022256893765273653,
	"grad_norm": 0.3497447669506073,
	"learning_rate": 0.0004774087441180502,
	"loss": 1.0579,
	"step": 1990
	},
	{
	"epoch": 0.022368737452536334,
	"grad_norm": 0.31631171703338623,
	"learning_rate": 0.00047718031888163004,
	"loss": 1.0747,
	"step": 2000
	},
	{
	"epoch": 0.022480581139799016,
	"grad_norm": 0.34811535477638245,
	"learning_rate": 0.0004769518936452099,
	"loss": 1.0443,
	"step": 2010
	},
	{
	"epoch": 0.0225924248270617,
	"grad_norm": 0.350975900888443,
	"learning_rate": 0.0004767234684087898,
	"loss": 1.0721,
	"step": 2020
	},
	{
	"epoch": 0.02270426851432438,
	"grad_norm": 0.38026875257492065,
	"learning_rate": 0.0004764950431723697,
	"loss": 1.0502,
	"step": 2030
	},
	{
	"epoch": 0.022816112201587063,
	"grad_norm": 0.3079335391521454,
	"learning_rate": 0.00047626661793594957,
	"loss": 1.0325,
	"step": 2040
	},
	{
	"epoch": 0.022927955888849744,
	"grad_norm": 0.3412174582481384,
	"learning_rate": 0.0004760381926995295,
	"loss": 1.026,
	"step": 2050
	},
	{
	"epoch": 0.023039799576112425,
	"grad_norm": 0.31905752420425415,
	"learning_rate": 0.00047580976746310934,
	"loss": 1.033,
	"step": 2060
	},
	{
	"epoch": 0.023151643263375106,
	"grad_norm": 0.3110033869743347,
	"learning_rate": 0.0004755813422266892,
	"loss": 1.026,
	"step": 2070
	},
	{
	"epoch": 0.023263486950637787,
	"grad_norm": 0.3087383210659027,
	"learning_rate": 0.0004753529169902691,
	"loss": 1.0285,
	"step": 2080
	},
	{
	"epoch": 0.023375330637900472,
	"grad_norm": 0.310497522354126,
	"learning_rate": 0.00047512449175384896,
	"loss": 1.012,
	"step": 2090
	},
	{
	"epoch": 0.023487174325163153,
	"grad_norm": 0.35822993516921997,
	"learning_rate": 0.0004748960665174288,
	"loss": 1.0124,
	"step": 2100
	},
	{
	"epoch": 0.023599018012425834,
	"grad_norm": 0.3355759084224701,
	"learning_rate": 0.0004746676412810088,
	"loss": 1.0159,
	"step": 2110
	},
	{
	"epoch": 0.023710861699688515,
	"grad_norm": 0.29633432626724243,
	"learning_rate": 0.00047443921604458863,
	"loss": 1.0068,
	"step": 2120
	},
	{
	"epoch": 0.023822705386951196,
	"grad_norm": 0.3268597424030304,
	"learning_rate": 0.0004742107908081685,
	"loss": 1.0029,
	"step": 2130
	},
	{
	"epoch": 0.023934549074213878,
	"grad_norm": 0.32010769844055176,
	"learning_rate": 0.0004739823655717484,
	"loss": 1.0081,
	"step": 2140
	},
	{
	"epoch": 0.02404639276147656,
	"grad_norm": 0.30638498067855835,
	"learning_rate": 0.00047375394033532826,
	"loss": 0.9955,
	"step": 2150
	},
	{
	"epoch": 0.024158236448739243,
	"grad_norm": 0.32299259305000305,
	"learning_rate": 0.0004735255150989081,
	"loss": 1.0028,
	"step": 2160
	},
	{
	"epoch": 0.024270080136001924,
	"grad_norm": 0.30714213848114014,
	"learning_rate": 0.000473297089862488,
	"loss": 1.0163,
	"step": 2170
	},
	{
	"epoch": 0.024381923823264606,
	"grad_norm": 0.3207940459251404,
	"learning_rate": 0.0004730686646260679,
	"loss": 1.0053,
	"step": 2180
	},
	{
	"epoch": 0.024493767510527287,
	"grad_norm": 0.3073663115501404,
	"learning_rate": 0.0004728402393896478,
	"loss": 1.0007,
	"step": 2190
	},
	{
	"epoch": 0.024605611197789968,
	"grad_norm": 0.3209913671016693,
	"learning_rate": 0.0004726118141532277,
	"loss": 1.0065,
	"step": 2200
	},
	{
	"epoch": 0.02471745488505265,
	"grad_norm": 0.2987804114818573,
	"learning_rate": 0.00047238338891680755,
	"loss": 1.0015,
	"step": 2210
	},
	{
	"epoch": 0.024829298572315334,
	"grad_norm": 0.31511807441711426,
	"learning_rate": 0.0004721549636803874,
	"loss": 0.9892,
	"step": 2220
	},
	{
	"epoch": 0.024941142259578015,
	"grad_norm": 0.2840864956378937,
	"learning_rate": 0.0004719265384439673,
	"loss": 1.0084,
	"step": 2230
	},
	{
	"epoch": 0.025052985946840696,
	"grad_norm": 0.3094743490219116,
	"learning_rate": 0.0004716981132075472,
	"loss": 1.0169,
	"step": 2240
	},
	{
	"epoch": 0.025164829634103377,
	"grad_norm": 0.2905067205429077,
	"learning_rate": 0.00047146968797112703,
	"loss": 0.9991,
	"step": 2250
	},
	{
	"epoch": 0.02527667332136606,
	"grad_norm": 0.31322264671325684,
	"learning_rate": 0.00047124126273470694,
	"loss": 1.0169,
	"step": 2260
	},
	{
	"epoch": 0.02538851700862874,
	"grad_norm": 0.29053428769111633,
	"learning_rate": 0.00047101283749828685,
	"loss": 0.9942,
	"step": 2270
	},
	{
	"epoch": 0.02550036069589142,
	"grad_norm": 0.2863853871822357,
	"learning_rate": 0.0004707844122618667,
	"loss": 1.002,
	"step": 2280
	},
	{
	"epoch": 0.025612204383154105,
	"grad_norm": 0.3087761104106903,
	"learning_rate": 0.0004705559870254466,
	"loss": 1.0025,
	"step": 2290
	},
	{
	"epoch": 0.025724048070416786,
	"grad_norm": 0.3308629095554352,
	"learning_rate": 0.00047032756178902647,
	"loss": 1.0078,
	"step": 2300
	},
	{
	"epoch": 0.025835891757679467,
	"grad_norm": 0.29703134298324585,
	"learning_rate": 0.0004700991365526063,
	"loss": 1.006,
	"step": 2310
	},
	{
	"epoch": 0.02594773544494215,
	"grad_norm": 0.27238258719444275,
	"learning_rate": 0.0004698707113161862,
	"loss": 0.9963,
	"step": 2320
	},
	{
	"epoch": 0.02605957913220483,
	"grad_norm": 0.2795617878437042,
	"learning_rate": 0.0004696422860797661,
	"loss": 0.9876,
	"step": 2330
	},
	{
	"epoch": 0.02617142281946751,
	"grad_norm": 0.2989327013492584,
	"learning_rate": 0.000469413860843346,
	"loss": 0.9864,
	"step": 2340
	},
	{
	"epoch": 0.026283266506730196,
	"grad_norm": 0.3229614794254303,
	"learning_rate": 0.00046918543560692586,
	"loss": 0.9849,
	"step": 2350
	},
	{
	"epoch": 0.026395110193992877,
	"grad_norm": 0.2921406328678131,
	"learning_rate": 0.00046895701037050577,
	"loss": 0.9764,
	"step": 2360
	},
	{
	"epoch": 0.026506953881255558,
	"grad_norm": 0.2955220639705658,
	"learning_rate": 0.0004687285851340856,
	"loss": 0.9883,
	"step": 2370
	},
	{
	"epoch": 0.02661879756851824,
	"grad_norm": 0.31378960609436035,
	"learning_rate": 0.0004685001598976655,
	"loss": 0.9978,
	"step": 2380
	},
	{
	"epoch": 0.02673064125578092,
	"grad_norm": 0.30504587292671204,
	"learning_rate": 0.0004682717346612454,
	"loss": 0.9912,
	"step": 2390
	},
	{
	"epoch": 0.0268424849430436,
	"grad_norm": 0.3066459000110626,
	"learning_rate": 0.00046804330942482524,
	"loss": 0.9877,
	"step": 2400
	},
	{
	"epoch": 0.026954328630306282,
	"grad_norm": 0.3198714256286621,
	"learning_rate": 0.0004678148841884051,
	"loss": 0.98,
	"step": 2410
	},
	{
	"epoch": 0.027066172317568967,
	"grad_norm": 0.27119094133377075,
	"learning_rate": 0.00046758645895198506,
	"loss": 1.001,
	"step": 2420
	},
	{
	"epoch": 0.027178016004831648,
	"grad_norm": 0.28178098797798157,
	"learning_rate": 0.0004673580337155649,
	"loss": 0.9605,
	"step": 2430
	},
	{
	"epoch": 0.02728985969209433,
	"grad_norm": 0.29373088479042053,
	"learning_rate": 0.0004671296084791448,
	"loss": 0.9834,
	"step": 2440
	},
	{
	"epoch": 0.02740170337935701,
	"grad_norm": 0.2861827313899994,
	"learning_rate": 0.0004669011832427247,
	"loss": 0.9797,
	"step": 2450
	},
	{
	"epoch": 0.02751354706661969,
	"grad_norm": 0.3488409221172333,
	"learning_rate": 0.00046667275800630454,
	"loss": 0.9682,
	"step": 2460
	},
	{
	"epoch": 0.027625390753882373,
	"grad_norm": 0.29631665349006653,
	"learning_rate": 0.0004664443327698844,
	"loss": 0.9751,
	"step": 2470
	},
	{
	"epoch": 0.027737234441145054,
	"grad_norm": 0.27299416065216064,
	"learning_rate": 0.0004662159075334643,
	"loss": 0.9571,
	"step": 2480
	},
	{
	"epoch": 0.02784907812840774,
	"grad_norm": 0.30409684777259827,
	"learning_rate": 0.00046598748229704416,
	"loss": 0.968,
	"step": 2490
	},
	{
	"epoch": 0.02796092181567042,
	"grad_norm": 0.2957991063594818,
	"learning_rate": 0.00046575905706062407,
	"loss": 0.9814,
	"step": 2500
	},
	{
	"epoch": 0.0280727655029331,
	"grad_norm": 0.28328225016593933,
	"learning_rate": 0.000465530631824204,
	"loss": 0.9816,
	"step": 2510
	},
	{
	"epoch": 0.028184609190195782,
	"grad_norm": 0.40670067071914673,
	"learning_rate": 0.00046530220658778384,
	"loss": 0.9737,
	"step": 2520
	},
	{
	"epoch": 0.028296452877458463,
	"grad_norm": 0.2818649411201477,
	"learning_rate": 0.0004650737813513637,
	"loss": 0.9891,
	"step": 2530
	},
	{
	"epoch": 0.028408296564721144,
	"grad_norm": 0.3054118752479553,
	"learning_rate": 0.0004648453561149436,
	"loss": 0.9976,
	"step": 2540
	},
	{
	"epoch": 0.02852014025198383,
	"grad_norm": 0.31439468264579773,
	"learning_rate": 0.00046461693087852346,
	"loss": 0.9928,
	"step": 2550
	},
	{
	"epoch": 0.02863198393924651,
	"grad_norm": 0.3173445761203766,
	"learning_rate": 0.0004643885056421033,
	"loss": 1.0002,
	"step": 2560
	},
	{
	"epoch": 0.02874382762650919,
	"grad_norm": 0.32495757937431335,
	"learning_rate": 0.0004641600804056832,
	"loss": 0.9981,
	"step": 2570
	},
	{
	"epoch": 0.028855671313771872,
	"grad_norm": 0.35957351326942444,
	"learning_rate": 0.00046393165516926313,
	"loss": 1.0112,
	"step": 2580
	},
	{
	"epoch": 0.028967515001034554,
	"grad_norm": 0.3070557713508606,
	"learning_rate": 0.000463703229932843,
	"loss": 1.0047,
	"step": 2590
	},
	{
	"epoch": 0.029079358688297235,
	"grad_norm": 0.3227770924568176,
	"learning_rate": 0.0004634748046964229,
	"loss": 1.0115,
	"step": 2600
	},
	{
	"epoch": 0.029191202375559916,
	"grad_norm": 0.34345880150794983,
	"learning_rate": 0.00046324637946000276,
	"loss": 0.9984,
	"step": 2610
	},
	{
	"epoch": 0.0293030460628226,
	"grad_norm": 0.34459254145622253,
	"learning_rate": 0.0004630179542235826,
	"loss": 0.9965,
	"step": 2620
	},
	{
	"epoch": 0.02941488975008528,
	"grad_norm": 0.3396269679069519,
	"learning_rate": 0.0004627895289871625,
	"loss": 0.9986,
	"step": 2630
	},
	{
	"epoch": 0.029526733437347963,
	"grad_norm": 0.3370846211910248,
	"learning_rate": 0.0004625611037507424,
	"loss": 0.9987,
	"step": 2640
	},
	{
	"epoch": 0.029638577124610644,
	"grad_norm": 0.30689191818237305,
	"learning_rate": 0.00046233267851432223,
	"loss": 1.0081,
	"step": 2650
	},
	{
	"epoch": 0.029750420811873325,
	"grad_norm": 0.35536935925483704,
	"learning_rate": 0.0004621042532779022,
	"loss": 0.9948,
	"step": 2660
	},
	{
	"epoch": 0.029862264499136006,
	"grad_norm": 0.3295105993747711,
	"learning_rate": 0.00046187582804148205,
	"loss": 1.0115,
	"step": 2670
	},
	{
	"epoch": 0.029974108186398687,
	"grad_norm": 0.34881895780563354,
	"learning_rate": 0.0004616474028050619,
	"loss": 1.0024,
	"step": 2680
	},
	{
	"epoch": 0.030085951873661372,
	"grad_norm": 0.379261314868927,
	"learning_rate": 0.0004614189775686418,
	"loss": 0.9965,
	"step": 2690
	},
	{
	"epoch": 0.030197795560924053,
	"grad_norm": 0.34729093313217163,
	"learning_rate": 0.0004611905523322217,
	"loss": 1.0026,
	"step": 2700
	},
	{
	"epoch": 0.030309639248186734,
	"grad_norm": 0.34687525033950806,
	"learning_rate": 0.00046096212709580153,
	"loss": 0.9992,
	"step": 2710
	},
	{
	"epoch": 0.030421482935449416,
	"grad_norm": 0.3564583659172058,
	"learning_rate": 0.00046073370185938144,
	"loss": 0.9859,
	"step": 2720
	},
	{
	"epoch": 0.030533326622712097,
	"grad_norm": 0.3762670159339905,
	"learning_rate": 0.0004605052766229613,
	"loss": 1.0059,
	"step": 2730
	},
	{
	"epoch": 0.030645170309974778,
	"grad_norm": 0.3470481038093567,
	"learning_rate": 0.0004602768513865412,
	"loss": 1.0044,
	"step": 2740
	},
	{
	"epoch": 0.030757013997237462,
	"grad_norm": 0.3322189450263977,
	"learning_rate": 0.0004600484261501211,
	"loss": 0.9811,
	"step": 2750
	},
	{
	"epoch": 0.030868857684500144,
	"grad_norm": 0.3248903751373291,
	"learning_rate": 0.00045982000091370097,
	"loss": 0.9721,
	"step": 2760
	},
	{
	"epoch": 0.030980701371762825,
	"grad_norm": 0.32881951332092285,
	"learning_rate": 0.0004595915756772808,
	"loss": 0.9821,
	"step": 2770
	},
	{
	"epoch": 0.031092545059025506,
	"grad_norm": 0.35410797595977783,
	"learning_rate": 0.0004593631504408607,
	"loss": 0.9786,
	"step": 2780
	},
	{
	"epoch": 0.031204388746288187,
	"grad_norm": 0.3307279050350189,
	"learning_rate": 0.0004591347252044406,
	"loss": 0.9759,
	"step": 2790
	},
	{
	"epoch": 0.03131623243355087,
	"grad_norm": 0.3207128643989563,
	"learning_rate": 0.00045890629996802045,
	"loss": 0.9812,
	"step": 2800
	},
	{
	"epoch": 0.03142807612081355,
	"grad_norm": 0.3065459728240967,
	"learning_rate": 0.0004586778747316003,
	"loss": 0.9596,
	"step": 2810
	},
	{
	"epoch": 0.03153991980807623,
	"grad_norm": 0.3115104138851166,
	"learning_rate": 0.00045844944949518027,
	"loss": 0.9732,
	"step": 2820
	},
	{
	"epoch": 0.031651763495338915,
	"grad_norm": 0.3136879801750183,
	"learning_rate": 0.0004582210242587601,
	"loss": 0.9818,
	"step": 2830
	},
	{
	"epoch": 0.03176360718260159,
	"grad_norm": 0.3240731656551361,
	"learning_rate": 0.00045799259902234,
	"loss": 0.9836,
	"step": 2840
	},
	{
	"epoch": 0.03187545086986428,
	"grad_norm": 0.31390219926834106,
	"learning_rate": 0.0004577641737859199,
	"loss": 0.9837,
	"step": 2850
	},
	{
	"epoch": 0.03198729455712696,
	"grad_norm": 0.3056069612503052,
	"learning_rate": 0.00045753574854949975,
	"loss": 0.995,
	"step": 2860
	},
	{
	"epoch": 0.03209913824438964,
	"grad_norm": 0.29556363821029663,
	"learning_rate": 0.0004573073233130796,
	"loss": 1.0018,
	"step": 2870
	},
	{
	"epoch": 0.032210981931652324,
	"grad_norm": 0.2931666374206543,
	"learning_rate": 0.0004570788980766595,
	"loss": 1.0124,
	"step": 2880
	},
	{
	"epoch": 0.032322825618915,
	"grad_norm": 0.31029924750328064,
	"learning_rate": 0.0004568504728402394,
	"loss": 1.0115,
	"step": 2890
	},
	{
	"epoch": 0.03243466930617769,
	"grad_norm": 0.3164144456386566,
	"learning_rate": 0.0004566220476038193,
	"loss": 0.9966,
	"step": 2900
	},
	{
	"epoch": 0.032546512993440364,
	"grad_norm": 0.31638383865356445,
	"learning_rate": 0.0004563936223673992,
	"loss": 0.989,
	"step": 2910
	},
	{
	"epoch": 0.03265835668070305,
	"grad_norm": 0.28559473156929016,
	"learning_rate": 0.00045616519713097904,
	"loss": 1.0038,
	"step": 2920
	},
	{
	"epoch": 0.032770200367965734,
	"grad_norm": 0.285154789686203,
	"learning_rate": 0.0004559367718945589,
	"loss": 1.0009,
	"step": 2930
	},
	{
	"epoch": 0.03288204405522841,
	"grad_norm": 0.2722555100917816,
	"learning_rate": 0.0004557083466581388,
	"loss": 0.9977,
	"step": 2940
	},
	{
	"epoch": 0.032993887742491096,
	"grad_norm": 0.2854909896850586,
	"learning_rate": 0.00045547992142171866,
	"loss": 0.9996,
	"step": 2950
	},
	{
	"epoch": 0.033105731429753774,
	"grad_norm": 0.2726607620716095,
	"learning_rate": 0.0004552514961852985,
	"loss": 0.9925,
	"step": 2960
	},
	{
	"epoch": 0.03321757511701646,
	"grad_norm": 0.30692654848098755,
	"learning_rate": 0.0004550230709488785,
	"loss": 0.9776,
	"step": 2970
	},
	{
	"epoch": 0.03332941880427914,
	"grad_norm": 0.2921067774295807,
	"learning_rate": 0.00045479464571245834,
	"loss": 0.9831,
	"step": 2980
	},
	{
	"epoch": 0.03344126249154182,
	"grad_norm": 0.30490297079086304,
	"learning_rate": 0.0004545662204760382,
	"loss": 0.9835,
	"step": 2990
	},
	{
	"epoch": 0.033553106178804505,
	"grad_norm": 0.2823980450630188,
	"learning_rate": 0.0004543377952396181,
	"loss": 0.9859,
	"step": 3000
	},
	{
	"epoch": 0.03366494986606718,
	"grad_norm": 0.31844133138656616,
	"learning_rate": 0.00045410937000319796,
	"loss": 1.0007,
	"step": 3010
	},
	{
	"epoch": 0.03377679355332987,
	"grad_norm": 0.30595019459724426,
	"learning_rate": 0.0004538809447667778,
	"loss": 1.0069,
	"step": 3020
	},
	{
	"epoch": 0.033888637240592545,
	"grad_norm": 0.31177419424057007,
	"learning_rate": 0.0004536525195303577,
	"loss": 1.0068,
	"step": 3030
	},
	{
	"epoch": 0.03400048092785523,
	"grad_norm": 0.33921870589256287,
	"learning_rate": 0.0004534240942939376,
	"loss": 1.0116,
	"step": 3040
	},
	{
	"epoch": 0.034112324615117914,
	"grad_norm": 0.29299408197402954,
	"learning_rate": 0.0004531956690575175,
	"loss": 1.0014,
	"step": 3050
	},
	{
	"epoch": 0.03422416830238059,
	"grad_norm": 0.28572002053260803,
	"learning_rate": 0.0004529672438210974,
	"loss": 0.9976,
	"step": 3060
	},
	{
	"epoch": 0.03433601198964328,
	"grad_norm": 0.30842283368110657,
	"learning_rate": 0.00045273881858467726,
	"loss": 0.9994,
	"step": 3070
	},
	{
	"epoch": 0.034447855676905954,
	"grad_norm": 0.29677408933639526,
	"learning_rate": 0.0004525103933482571,
	"loss": 1.0055,
	"step": 3080
	},
	{
	"epoch": 0.03455969936416864,
	"grad_norm": 0.388823926448822,
	"learning_rate": 0.000452281968111837,
	"loss": 1.0062,
	"step": 3090
	},
	{
	"epoch": 0.03467154305143132,
	"grad_norm": 0.2956707775592804,
	"learning_rate": 0.0004520535428754169,
	"loss": 0.9794,
	"step": 3100
	},
	{
	"epoch": 0.034783386738694,
	"grad_norm": 0.3179475665092468,
	"learning_rate": 0.00045182511763899673,
	"loss": 0.9831,
	"step": 3110
	},
	{
	"epoch": 0.034895230425956686,
	"grad_norm": 0.29509803652763367,
	"learning_rate": 0.00045159669240257664,
	"loss": 0.9851,
	"step": 3120
	},
	{
	"epoch": 0.035007074113219364,
	"grad_norm": 0.31095758080482483,
	"learning_rate": 0.00045136826716615655,
	"loss": 0.9852,
	"step": 3130
	},
	{
	"epoch": 0.03511891780048205,
	"grad_norm": 0.27768880128860474,
	"learning_rate": 0.0004511398419297364,
	"loss": 0.9741,
	"step": 3140
	},
	{
	"epoch": 0.035230761487744726,
	"grad_norm": 0.3117106854915619,
	"learning_rate": 0.0004509114166933163,
	"loss": 0.9987,
	"step": 3150
	},
	{
	"epoch": 0.03534260517500741,
	"grad_norm": 0.30113616585731506,
	"learning_rate": 0.0004506829914568962,
	"loss": 0.9855,
	"step": 3160
	},
	{
	"epoch": 0.03545444886227009,
	"grad_norm": 0.2842777967453003,
	"learning_rate": 0.00045045456622047603,
	"loss": 0.9793,
	"step": 3170
	},
	{
	"epoch": 0.03556629254953277,
	"grad_norm": 0.30115559697151184,
	"learning_rate": 0.00045022614098405594,
	"loss": 0.9854,
	"step": 3180
	},
	{
	"epoch": 0.03567813623679546,
	"grad_norm": 0.3350517153739929,
	"learning_rate": 0.0004499977157476358,
	"loss": 0.9787,
	"step": 3190
	},
	{
	"epoch": 0.035789979924058135,
	"grad_norm": 0.2736664414405823,
	"learning_rate": 0.00044976929051121565,
	"loss": 1.0067,
	"step": 3200
	},
	{
	"epoch": 0.03590182361132082,
	"grad_norm": 0.2868112027645111,
	"learning_rate": 0.0004495408652747956,
	"loss": 1.0002,
	"step": 3210
	},
	{
	"epoch": 0.0360136672985835,
	"grad_norm": 0.27296972274780273,
	"learning_rate": 0.00044931244003837547,
	"loss": 0.9939,
	"step": 3220
	},
	{
	"epoch": 0.03612551098584618,
	"grad_norm": 0.2894013226032257,
	"learning_rate": 0.00044908401480195533,
	"loss": 1.0017,
	"step": 3230
	},
	{
	"epoch": 0.03623735467310886,
	"grad_norm": 0.26549386978149414,
	"learning_rate": 0.0004488555895655352,
	"loss": 0.9953,
	"step": 3240
	},
	{
	"epoch": 0.036349198360371544,
	"grad_norm": 0.27381303906440735,
	"learning_rate": 0.0004486271643291151,
	"loss": 1.0077,
	"step": 3250
	},
	{
	"epoch": 0.03646104204763423,
	"grad_norm": 0.2829972505569458,
	"learning_rate": 0.00044839873909269495,
	"loss": 1.0008,
	"step": 3260
	},
	{
	"epoch": 0.03657288573489691,
	"grad_norm": 0.29023584723472595,
	"learning_rate": 0.0004481703138562748,
	"loss": 0.9999,
	"step": 3270
	},
	{
	"epoch": 0.03668472942215959,
	"grad_norm": 0.29526880383491516,
	"learning_rate": 0.00044794188861985477,
	"loss": 0.9982,
	"step": 3280
	},
	{
	"epoch": 0.03679657310942227,
	"grad_norm": 0.27724817395210266,
	"learning_rate": 0.0004477134633834346,
	"loss": 1.0109,
	"step": 3290
	},
	{
	"epoch": 0.036908416796684954,
	"grad_norm": 0.2780180275440216,
	"learning_rate": 0.0004474850381470145,
	"loss": 0.997,
	"step": 3300
	},
	{
	"epoch": 0.03702026048394764,
	"grad_norm": 0.29814234375953674,
	"learning_rate": 0.0004472566129105944,
	"loss": 1.0056,
	"step": 3310
	},
	{
	"epoch": 0.037132104171210316,
	"grad_norm": 0.3131207823753357,
	"learning_rate": 0.00044702818767417425,
	"loss": 0.999,
	"step": 3320
	},
	{
	"epoch": 0.037243947858473,
	"grad_norm": 0.2865641415119171,
	"learning_rate": 0.0004467997624377541,
	"loss": 0.9938,
	"step": 3330
	},
	{
	"epoch": 0.03735579154573568,
	"grad_norm": 0.31247007846832275,
	"learning_rate": 0.000446571337201334,
	"loss": 1.0029,
	"step": 3340
	},
	{
	"epoch": 0.03746763523299836,
	"grad_norm": 0.3432846665382385,
	"learning_rate": 0.00044634291196491387,
	"loss": 0.9861,
	"step": 3350
	},
	{
	"epoch": 0.03757947892026104,
	"grad_norm": 0.3200684189796448,
	"learning_rate": 0.0004461144867284938,
	"loss": 0.9958,
	"step": 3360
	},
	{
	"epoch": 0.037691322607523725,
	"grad_norm": 0.3280775547027588,
	"learning_rate": 0.0004458860614920737,
	"loss": 0.9972,
	"step": 3370
	},
	{
	"epoch": 0.03780316629478641,
	"grad_norm": 0.3129955232143402,
	"learning_rate": 0.00044565763625565354,
	"loss": 0.9947,
	"step": 3380
	},
	{
	"epoch": 0.03791500998204909,
	"grad_norm": 0.27574583888053894,
	"learning_rate": 0.0004454292110192334,
	"loss": 1.0004,
	"step": 3390
	},
	{
	"epoch": 0.03802685366931177,
	"grad_norm": 0.3088320791721344,
	"learning_rate": 0.0004452007857828133,
	"loss": 0.9907,
	"step": 3400
	},
	{
	"epoch": 0.03813869735657445,
	"grad_norm": 0.3232235908508301,
	"learning_rate": 0.00044497236054639316,
	"loss": 0.9956,
	"step": 3410
	},
	{
	"epoch": 0.038250541043837134,
	"grad_norm": 0.3009951114654541,
	"learning_rate": 0.000444743935309973,
	"loss": 0.9899,
	"step": 3420
	},
	{
	"epoch": 0.03836238473109981,
	"grad_norm": 0.2987104058265686,
	"learning_rate": 0.00044451551007355293,
	"loss": 0.9852,
	"step": 3430
	},
	{
	"epoch": 0.0384742284183625,
	"grad_norm": 0.2890870273113251,
	"learning_rate": 0.00044428708483713284,
	"loss": 0.9775,
	"step": 3440
	},
	{
	"epoch": 0.03858607210562518,
	"grad_norm": 0.2704969048500061,
	"learning_rate": 0.0004440586596007127,
	"loss": 0.9745,
	"step": 3450
	},
	{
	"epoch": 0.03869791579288786,
	"grad_norm": 0.3041844964027405,
	"learning_rate": 0.0004438302343642926,
	"loss": 0.977,
	"step": 3460
	},
	{
	"epoch": 0.038809759480150544,
	"grad_norm": 0.2794378995895386,
	"learning_rate": 0.00044360180912787246,
	"loss": 0.9818,
	"step": 3470
	},
	{
	"epoch": 0.03892160316741322,
	"grad_norm": 0.2784910798072815,
	"learning_rate": 0.0004433733838914523,
	"loss": 0.9655,
	"step": 3480
	},
	{
	"epoch": 0.039033446854675906,
	"grad_norm": 0.2610478103160858,
	"learning_rate": 0.0004431449586550322,
	"loss": 0.975,
	"step": 3490
	},
	{
	"epoch": 0.039145290541938584,
	"grad_norm": 0.2646799087524414,
	"learning_rate": 0.0004429165334186121,
	"loss": 0.9767,
	"step": 3500
	},
	{
	"epoch": 0.03925713422920127,
	"grad_norm": 0.2622663676738739,
	"learning_rate": 0.00044268810818219194,
	"loss": 0.98,
	"step": 3510
	},
	{
	"epoch": 0.03936897791646395,
	"grad_norm": 0.26897987723350525,
	"learning_rate": 0.0004424596829457719,
	"loss": 0.9718,
	"step": 3520
	},
	{
	"epoch": 0.03948082160372663,
	"grad_norm": 0.29816752672195435,
	"learning_rate": 0.00044223125770935176,
	"loss": 1.0074,
	"step": 3530
	},
	{
	"epoch": 0.039592665290989315,
	"grad_norm": 0.2652198076248169,
	"learning_rate": 0.0004420028324729316,
	"loss": 0.9789,
	"step": 3540
	},
	{
	"epoch": 0.03970450897825199,
	"grad_norm": 0.2648336887359619,
	"learning_rate": 0.0004417744072365115,
	"loss": 0.9794,
	"step": 3550
	},
	{
	"epoch": 0.03981635266551468,
	"grad_norm": 0.25409677624702454,
	"learning_rate": 0.0004415459820000914,
	"loss": 0.9868,
	"step": 3560
	},
	{
	"epoch": 0.039928196352777355,
	"grad_norm": 0.25675469636917114,
	"learning_rate": 0.00044131755676367123,
	"loss": 0.9827,
	"step": 3570
	},
	{
	"epoch": 0.04004004004004004,
	"grad_norm": 0.2915634214878082,
	"learning_rate": 0.00044108913152725114,
	"loss": 0.9833,
	"step": 3580
	},
	{
	"epoch": 0.040151883727302724,
	"grad_norm": 0.29538393020629883,
	"learning_rate": 0.000440860706290831,
	"loss": 0.9848,
	"step": 3590
	},
	{
	"epoch": 0.0402637274145654,
	"grad_norm": 0.3026215732097626,
	"learning_rate": 0.0004406322810544109,
	"loss": 0.9778,
	"step": 3600
	},
	{
	"epoch": 0.04037557110182809,
	"grad_norm": 0.30865418910980225,
	"learning_rate": 0.0004404038558179908,
	"loss": 0.9743,
	"step": 3610
	},
	{
	"epoch": 0.040487414789090764,
	"grad_norm": 0.28092265129089355,
	"learning_rate": 0.0004401754305815707,
	"loss": 0.9795,
	"step": 3620
	},
	{
	"epoch": 0.04059925847635345,
	"grad_norm": 0.27747923135757446,
	"learning_rate": 0.00043994700534515053,
	"loss": 0.9642,
	"step": 3630
	},
	{
	"epoch": 0.040711102163616134,
	"grad_norm": 0.28192010521888733,
	"learning_rate": 0.00043971858010873044,
	"loss": 0.9742,
	"step": 3640
	},
	{
	"epoch": 0.04082294585087881,
	"grad_norm": 0.2670564651489258,
	"learning_rate": 0.0004394901548723103,
	"loss": 0.9544,
	"step": 3650
	},
	{
	"epoch": 0.040934789538141496,
	"grad_norm": 0.3089617192745209,
	"learning_rate": 0.00043926172963589015,
	"loss": 0.9563,
	"step": 3660
	},
	{
	"epoch": 0.041046633225404174,
	"grad_norm": 0.26768213510513306,
	"learning_rate": 0.00043903330439947,
	"loss": 0.9531,
	"step": 3670
	},
	{
	"epoch": 0.04115847691266686,
	"grad_norm": 0.28865131735801697,
	"learning_rate": 0.00043880487916305,
	"loss": 0.9579,
	"step": 3680
	},
	{
	"epoch": 0.041270320599929536,
	"grad_norm": 0.27369582653045654,
	"learning_rate": 0.00043857645392662983,
	"loss": 0.9679,
	"step": 3690
	},
	{
	"epoch": 0.04138216428719222,
	"grad_norm": 0.2889108955860138,
	"learning_rate": 0.0004383480286902097,
	"loss": 0.9561,
	"step": 3700
	},
	{
	"epoch": 0.041494007974454905,
	"grad_norm": 0.2701929211616516,
	"learning_rate": 0.0004381196034537896,
	"loss": 0.9642,
	"step": 3710
	},
	{
	"epoch": 0.04160585166171758,
	"grad_norm": 0.2817586064338684,
	"learning_rate": 0.00043789117821736945,
	"loss": 0.9701,
	"step": 3720
	},
	{
	"epoch": 0.04171769534898027,
	"grad_norm": 0.2924664318561554,
	"learning_rate": 0.0004376627529809493,
	"loss": 0.9617,
	"step": 3730
	},
	{
	"epoch": 0.041829539036242945,
	"grad_norm": 0.28590497374534607,
	"learning_rate": 0.0004374343277445292,
	"loss": 0.9646,
	"step": 3740
	},
	{
	"epoch": 0.04194138272350563,
	"grad_norm": 0.270046591758728,
	"learning_rate": 0.0004372059025081091,
	"loss": 0.95,
	"step": 3750
	},
	{
	"epoch": 0.04205322641076831,
	"grad_norm": 0.2508755326271057,
	"learning_rate": 0.000436977477271689,
	"loss": 0.9525,
	"step": 3760
	},
	{
	"epoch": 0.04216507009803099,
	"grad_norm": 0.26878127455711365,
	"learning_rate": 0.0004367490520352689,
	"loss": 0.9609,
	"step": 3770
	},
	{
	"epoch": 0.04227691378529368,
	"grad_norm": 0.26882994174957275,
	"learning_rate": 0.00043652062679884875,
	"loss": 0.9671,
	"step": 3780
	},
	{
	"epoch": 0.042388757472556354,
	"grad_norm": 0.28049325942993164,
	"learning_rate": 0.0004362922015624286,
	"loss": 0.9492,
	"step": 3790
	},
	{
	"epoch": 0.04250060115981904,
	"grad_norm": 0.33502647280693054,
	"learning_rate": 0.0004360637763260085,
	"loss": 0.9537,
	"step": 3800
	},
	{
	"epoch": 0.04261244484708172,
	"grad_norm": 0.321997731924057,
	"learning_rate": 0.00043583535108958837,
	"loss": 0.9646,
	"step": 3810
	},
	{
	"epoch": 0.0427242885343444,
	"grad_norm": 0.29477357864379883,
	"learning_rate": 0.0004356069258531682,
	"loss": 0.9794,
	"step": 3820
	},
	{
	"epoch": 0.04283613222160708,
	"grad_norm": 0.2989972233772278,
	"learning_rate": 0.0004353785006167482,
	"loss": 0.9645,
	"step": 3830
	},
	{
	"epoch": 0.042947975908869764,
	"grad_norm": 0.33459851145744324,
	"learning_rate": 0.00043515007538032804,
	"loss": 0.9556,
	"step": 3840
	},
	{
	"epoch": 0.04305981959613245,
	"grad_norm": 0.2941781282424927,
	"learning_rate": 0.0004349216501439079,
	"loss": 0.9507,
	"step": 3850
	},
	{
	"epoch": 0.043171663283395126,
	"grad_norm": 0.27801111340522766,
	"learning_rate": 0.0004346932249074878,
	"loss": 0.9623,
	"step": 3860
	},
	{
	"epoch": 0.04328350697065781,
	"grad_norm": 0.2765832841396332,
	"learning_rate": 0.00043446479967106767,
	"loss": 0.9815,
	"step": 3870
	},
	{
	"epoch": 0.04339535065792049,
	"grad_norm": 0.303786039352417,
	"learning_rate": 0.0004342363744346475,
	"loss": 0.9575,
	"step": 3880
	},
	{
	"epoch": 0.04350719434518317,
	"grad_norm": 0.29517048597335815,
	"learning_rate": 0.00043400794919822743,
	"loss": 0.9554,
	"step": 3890
	},
	{
	"epoch": 0.04361903803244585,
	"grad_norm": 0.28657206892967224,
	"learning_rate": 0.0004337795239618073,
	"loss": 0.9631,
	"step": 3900
	},
	{
	"epoch": 0.043730881719708535,
	"grad_norm": 0.2933245003223419,
	"learning_rate": 0.0004335510987253872,
	"loss": 0.987,
	"step": 3910
	},
	{
	"epoch": 0.04384272540697122,
	"grad_norm": 0.31331002712249756,
	"learning_rate": 0.0004333226734889671,
	"loss": 0.971,
	"step": 3920
	},
	{
	"epoch": 0.0439545690942339,
	"grad_norm": 0.32431700825691223,
	"learning_rate": 0.00043309424825254696,
	"loss": 0.9603,
	"step": 3930
	},
	{
	"epoch": 0.04406641278149658,
	"grad_norm": 0.3346642851829529,
	"learning_rate": 0.0004328658230161268,
	"loss": 0.9721,
	"step": 3940
	},
	{
	"epoch": 0.04417825646875926,
	"grad_norm": 0.33921241760253906,
	"learning_rate": 0.00043263739777970673,
	"loss": 0.9639,
	"step": 3950
	},
	{
	"epoch": 0.044290100156021944,
	"grad_norm": 0.3068247139453888,
	"learning_rate": 0.0004324089725432866,
	"loss": 0.9756,
	"step": 3960
	},
	{
	"epoch": 0.04440194384328462,
	"grad_norm": 0.3049049973487854,
	"learning_rate": 0.00043218054730686644,
	"loss": 0.9693,
	"step": 3970
	},
	{
	"epoch": 0.04451378753054731,
	"grad_norm": 0.30104655027389526,
	"learning_rate": 0.00043195212207044635,
	"loss": 0.9704,
	"step": 3980
	},
	{
	"epoch": 0.04462563121780999,
	"grad_norm": 0.36955609917640686,
	"learning_rate": 0.00043172369683402626,
	"loss": 0.9527,
	"step": 3990
	},
	{
	"epoch": 0.04473747490507267,
	"grad_norm": 0.318854957818985,
	"learning_rate": 0.0004314952715976061,
	"loss": 0.9543,
	"step": 4000
	},
	{
	"epoch": 0.044849318592335354,
	"grad_norm": 0.3166191875934601,
	"learning_rate": 0.000431266846361186,
	"loss": 0.968,
	"step": 4010
	},
	{
	"epoch": 0.04496116227959803,
	"grad_norm": 0.2976950407028198,
	"learning_rate": 0.0004310384211247659,
	"loss": 0.9822,
	"step": 4020
	},
	{
	"epoch": 0.045073005966860716,
	"grad_norm": 0.2912284731864929,
	"learning_rate": 0.00043080999588834574,
	"loss": 0.9759,
	"step": 4030
	},
	{
	"epoch": 0.0451848496541234,
	"grad_norm": 0.31027549505233765,
	"learning_rate": 0.00043058157065192565,
	"loss": 0.9794,
	"step": 4040
	},
	{
	"epoch": 0.04529669334138608,
	"grad_norm": 0.3182738721370697,
	"learning_rate": 0.0004303531454155055,
	"loss": 0.9654,
	"step": 4050
	},
	{
	"epoch": 0.04540853702864876,
	"grad_norm": 0.3006060719490051,
	"learning_rate": 0.00043012472017908536,
	"loss": 0.9548,
	"step": 4060
	},
	{
	"epoch": 0.04552038071591144,
	"grad_norm": 0.2828291654586792,
	"learning_rate": 0.0004298962949426653,
	"loss": 0.9611,
	"step": 4070
	},
	{
	"epoch": 0.045632224403174125,
	"grad_norm": 0.30988603830337524,
	"learning_rate": 0.0004296678697062452,
	"loss": 0.9614,
	"step": 4080
	},
	{
	"epoch": 0.0457440680904368,
	"grad_norm": 0.29344943165779114,
	"learning_rate": 0.00042943944446982503,
	"loss": 0.9522,
	"step": 4090
	},
	{
	"epoch": 0.04585591177769949,
	"grad_norm": 0.29713529348373413,
	"learning_rate": 0.00042921101923340494,
	"loss": 0.9468,
	"step": 4100
	},
	{
	"epoch": 0.04596775546496217,
	"grad_norm": 0.2815961539745331,
	"learning_rate": 0.0004289825939969848,
	"loss": 0.9546,
	"step": 4110
	},
	{
	"epoch": 0.04607959915222485,
	"grad_norm": 0.25218480825424194,
	"learning_rate": 0.00042875416876056465,
	"loss": 0.9372,
	"step": 4120
	},
	{
	"epoch": 0.046191442839487534,
	"grad_norm": 0.2735552191734314,
	"learning_rate": 0.0004285257435241445,
	"loss": 0.942,
	"step": 4130
	},
	{
	"epoch": 0.04630328652675021,
	"grad_norm": 0.27451473474502563,
	"learning_rate": 0.0004282973182877245,
	"loss": 0.931,
	"step": 4140
	},
	{
	"epoch": 0.0464151302140129,
	"grad_norm": 0.24361196160316467,
	"learning_rate": 0.00042806889305130433,
	"loss": 0.924,
	"step": 4150
	},
	{
	"epoch": 0.046526973901275574,
	"grad_norm": 0.25817179679870605,
	"learning_rate": 0.0004278404678148842,
	"loss": 0.9373,
	"step": 4160
	},
	{
	"epoch": 0.04663881758853826,
	"grad_norm": 0.28722450137138367,
	"learning_rate": 0.0004276120425784641,
	"loss": 0.9271,
	"step": 4170
	},
	{
	"epoch": 0.046750661275800943,
	"grad_norm": 0.25202882289886475,
	"learning_rate": 0.00042738361734204395,
	"loss": 0.9187,
	"step": 4180
	},
	{
	"epoch": 0.04686250496306362,
	"grad_norm": 0.2637481391429901,
	"learning_rate": 0.0004271551921056238,
	"loss": 0.9402,
	"step": 4190
	},
	{
	"epoch": 0.046974348650326306,
	"grad_norm": 0.2684090733528137,
	"learning_rate": 0.0004269267668692037,
	"loss": 0.9574,
	"step": 4200
	},
	{
	"epoch": 0.047086192337588983,
	"grad_norm": 0.28711873292922974,
	"learning_rate": 0.00042669834163278357,
	"loss": 0.9551,
	"step": 4210
	},
	{
	"epoch": 0.04719803602485167,
	"grad_norm": 0.2933102250099182,
	"learning_rate": 0.0004264699163963635,
	"loss": 0.9457,
	"step": 4220
	},
	{
	"epoch": 0.047309879712114346,
	"grad_norm": 0.2875578701496124,
	"learning_rate": 0.0004262414911599434,
	"loss": 0.9667,
	"step": 4230
	},
	{
	"epoch": 0.04742172339937703,
	"grad_norm": 0.3007104694843292,
	"learning_rate": 0.00042601306592352325,
	"loss": 0.9672,
	"step": 4240
	},
	{
	"epoch": 0.047533567086639715,
	"grad_norm": 0.30211201310157776,
	"learning_rate": 0.0004257846406871031,
	"loss": 0.9781,
	"step": 4250
	},
	{
	"epoch": 0.04764541077390239,
	"grad_norm": 0.29263827204704285,
	"learning_rate": 0.000425556215450683,
	"loss": 0.9923,
	"step": 4260
	},
	{
	"epoch": 0.04775725446116508,
	"grad_norm": 0.29569676518440247,
	"learning_rate": 0.00042532779021426287,
	"loss": 0.9913,
	"step": 4270
	},
	{
	"epoch": 0.047869098148427755,
	"grad_norm": 0.28223690390586853,
	"learning_rate": 0.0004250993649778427,
	"loss": 0.9817,
	"step": 4280
	},
	{
	"epoch": 0.04798094183569044,
	"grad_norm": 0.271419882774353,
	"learning_rate": 0.00042487093974142263,
	"loss": 0.9977,
	"step": 4290
	},
	{
	"epoch": 0.04809278552295312,
	"grad_norm": 0.26362791657447815,
	"learning_rate": 0.00042464251450500254,
	"loss": 0.9859,
	"step": 4300
	},
	{
	"epoch": 0.0482046292102158,
	"grad_norm": 0.31365934014320374,
	"learning_rate": 0.0004244140892685824,
	"loss": 0.9862,
	"step": 4310
	},
	{
	"epoch": 0.04831647289747849,
	"grad_norm": 0.26915237307548523,
	"learning_rate": 0.0004241856640321623,
	"loss": 0.9693,
	"step": 4320
	},
	{
	"epoch": 0.048428316584741164,
	"grad_norm": 0.2639203369617462,
	"learning_rate": 0.00042395723879574217,
	"loss": 0.9691,
	"step": 4330
	},
	{
	"epoch": 0.04854016027200385,
	"grad_norm": 0.30106601119041443,
	"learning_rate": 0.000423728813559322,
	"loss": 0.9521,
	"step": 4340
	},
	{
	"epoch": 0.04865200395926653,
	"grad_norm": 0.2807524800300598,
	"learning_rate": 0.00042350038832290193,
	"loss": 0.9616,
	"step": 4350
	},
	{
	"epoch": 0.04876384764652921,
	"grad_norm": 0.27363407611846924,
	"learning_rate": 0.0004232719630864818,
	"loss": 0.9538,
	"step": 4360
	},
	{
	"epoch": 0.048875691333791896,
	"grad_norm": 0.29041701555252075,
	"learning_rate": 0.00042304353785006164,
	"loss": 0.9455,
	"step": 4370
	},
	{
	"epoch": 0.048987535021054573,
	"grad_norm": 0.28237226605415344,
	"learning_rate": 0.0004228151126136416,
	"loss": 0.9615,
	"step": 4380
	},
	{
	"epoch": 0.04909937870831726,
	"grad_norm": 0.30885329842567444,
	"learning_rate": 0.00042258668737722146,
	"loss": 0.9691,
	"step": 4390
	},
	{
	"epoch": 0.049211222395579936,
	"grad_norm": 0.2734643220901489,
	"learning_rate": 0.0004223582621408013,
	"loss": 0.9663,
	"step": 4400
	},
	{
	"epoch": 0.04932306608284262,
	"grad_norm": 0.2652278244495392,
	"learning_rate": 0.00042212983690438123,
	"loss": 0.9439,
	"step": 4410
	},
	{
	"epoch": 0.0494349097701053,
	"grad_norm": 0.27749761939048767,
	"learning_rate": 0.0004219014116679611,
	"loss": 0.9623,
	"step": 4420
	},
	{
	"epoch": 0.04954675345736798,
	"grad_norm": 0.2812553942203522,
	"learning_rate": 0.00042167298643154094,
	"loss": 0.9557,
	"step": 4430
	},
	{
	"epoch": 0.04965859714463067,
	"grad_norm": 0.2762252688407898,
	"learning_rate": 0.00042144456119512085,
	"loss": 0.945,
	"step": 4440
	},
	{
	"epoch": 0.049770440831893345,
	"grad_norm": 0.277118980884552,
	"learning_rate": 0.0004212161359587007,
	"loss": 0.93,
	"step": 4450
	},
	{
	"epoch": 0.04988228451915603,
	"grad_norm": 0.2723037004470825,
	"learning_rate": 0.0004209877107222806,
	"loss": 0.963,
	"step": 4460
	},
	{
	"epoch": 0.04999412820641871,
	"grad_norm": 0.29789137840270996,
	"learning_rate": 0.0004207592854858605,
	"loss": 0.954,
	"step": 4470
	},
	{
	"epoch": 0.05010597189368139,
	"grad_norm": 0.26940014958381653,
	"learning_rate": 0.0004205308602494404,
	"loss": 0.9443,
	"step": 4480
	},
	{
	"epoch": 0.05021781558094407,
	"grad_norm": 0.263300359249115,
	"learning_rate": 0.00042030243501302024,
	"loss": 0.9403,
	"step": 4490
	},
	{
	"epoch": 0.050329659268206754,
	"grad_norm": 0.27823972702026367,
	"learning_rate": 0.00042007400977660015,
	"loss": 0.95,
	"step": 4500
	},
	{
	"epoch": 0.05044150295546944,
	"grad_norm": 0.2782444357872009,
	"learning_rate": 0.00041984558454018,
	"loss": 0.953,
	"step": 4510
	},
	{
	"epoch": 0.05055334664273212,
	"grad_norm": 0.277182936668396,
	"learning_rate": 0.00041961715930375986,
	"loss": 0.9498,
	"step": 4520
	},
	{
	"epoch": 0.0506651903299948,
	"grad_norm": 0.2942575514316559,
	"learning_rate": 0.00041938873406733977,
	"loss": 0.957,
	"step": 4530
	},
	{
	"epoch": 0.05077703401725748,
	"grad_norm": 0.3258327543735504,
	"learning_rate": 0.0004191603088309197,
	"loss": 0.9626,
	"step": 4540
	},
	{
	"epoch": 0.05088887770452016,
	"grad_norm": 0.27874353528022766,
	"learning_rate": 0.00041893188359449953,
	"loss": 0.971,
	"step": 4550
	},
	{
	"epoch": 0.05100072139178284,
	"grad_norm": 0.2981313169002533,
	"learning_rate": 0.00041870345835807944,
	"loss": 0.965,
	"step": 4560
	},
	{
	"epoch": 0.051112565079045526,
	"grad_norm": 0.30568984150886536,
	"learning_rate": 0.0004184750331216593,
	"loss": 0.9566,
	"step": 4570
	},
	{
	"epoch": 0.05122440876630821,
	"grad_norm": 0.27867600321769714,
	"learning_rate": 0.00041824660788523915,
	"loss": 0.94,
	"step": 4580
	},
	{
	"epoch": 0.05133625245357089,
	"grad_norm": 0.30877605080604553,
	"learning_rate": 0.000418018182648819,
	"loss": 0.9453,
	"step": 4590
	},
	{
	"epoch": 0.05144809614083357,
	"grad_norm": 0.3018844425678253,
	"learning_rate": 0.0004177897574123989,
	"loss": 0.9511,
	"step": 4600
	},
	{
	"epoch": 0.05155993982809625,
	"grad_norm": 0.27943944931030273,
	"learning_rate": 0.0004175613321759788,
	"loss": 0.9371,
	"step": 4610
	},
	{
	"epoch": 0.051671783515358935,
	"grad_norm": 0.2654775381088257,
	"learning_rate": 0.0004173329069395587,
	"loss": 0.9366,
	"step": 4620
	},
	{
	"epoch": 0.05178362720262161,
	"grad_norm": 0.27594050765037537,
	"learning_rate": 0.0004171044817031386,
	"loss": 0.9229,
	"step": 4630
	},
	{
	"epoch": 0.0518954708898843,
	"grad_norm": 0.26856914162635803,
	"learning_rate": 0.00041687605646671845,
	"loss": 0.9357,
	"step": 4640
	},
	{
	"epoch": 0.05200731457714698,
	"grad_norm": 0.2956237494945526,
	"learning_rate": 0.0004166476312302983,
	"loss": 0.9023,
	"step": 4650
	},
	{
	"epoch": 0.05211915826440966,
	"grad_norm": 0.30004164576530457,
	"learning_rate": 0.0004164192059938782,
	"loss": 0.9273,
	"step": 4660
	},
	{
	"epoch": 0.052231001951672344,
	"grad_norm": 0.2691096365451813,
	"learning_rate": 0.0004161907807574581,
	"loss": 0.9332,
	"step": 4670
	},
	{
	"epoch": 0.05234284563893502,
	"grad_norm": 0.2551780641078949,
	"learning_rate": 0.00041596235552103793,
	"loss": 0.9327,
	"step": 4680
	},
	{
	"epoch": 0.052454689326197707,
	"grad_norm": 0.2806546092033386,
	"learning_rate": 0.0004157339302846179,
	"loss": 0.9355,
	"step": 4690
	},
	{
	"epoch": 0.05256653301346039,
	"grad_norm": 0.27648645639419556,
	"learning_rate": 0.00041550550504819775,
	"loss": 0.9348,
	"step": 4700
	},
	{
	"epoch": 0.05267837670072307,
	"grad_norm": 0.2816336750984192,
	"learning_rate": 0.0004152770798117776,
	"loss": 0.9294,
	"step": 4710
	},
	{
	"epoch": 0.05279022038798575,
	"grad_norm": 0.29570698738098145,
	"learning_rate": 0.0004150486545753575,
	"loss": 0.9317,
	"step": 4720
	},
	{
	"epoch": 0.05290206407524843,
	"grad_norm": 0.26981687545776367,
	"learning_rate": 0.00041482022933893737,
	"loss": 0.9317,
	"step": 4730
	},
	{
	"epoch": 0.053013907762511116,
	"grad_norm": 0.2586159110069275,
	"learning_rate": 0.0004145918041025172,
	"loss": 0.9162,
	"step": 4740
	},
	{
	"epoch": 0.05312575144977379,
	"grad_norm": 0.24129503965377808,
	"learning_rate": 0.00041436337886609714,
	"loss": 0.934,
	"step": 4750
	},
	{
	"epoch": 0.05323759513703648,
	"grad_norm": 0.28072717785835266,
	"learning_rate": 0.000414134953629677,
	"loss": 0.9089,
	"step": 4760
	},
	{
	"epoch": 0.05334943882429916,
	"grad_norm": 0.2760024964809418,
	"learning_rate": 0.0004139065283932569,
	"loss": 0.9115,
	"step": 4770
	},
	{
	"epoch": 0.05346128251156184,
	"grad_norm": 0.28894710540771484,
	"learning_rate": 0.0004136781031568368,
	"loss": 0.9108,
	"step": 4780
	},
	{
	"epoch": 0.053573126198824525,
	"grad_norm": 0.27882319688796997,
	"learning_rate": 0.00041344967792041667,
	"loss": 0.9184,
	"step": 4790
	},
	{
	"epoch": 0.0536849698860872,
	"grad_norm": 0.27242934703826904,
	"learning_rate": 0.0004132212526839965,
	"loss": 0.9498,
	"step": 4800
	},
	{
	"epoch": 0.05379681357334989,
	"grad_norm": 0.2809596359729767,
	"learning_rate": 0.00041299282744757643,
	"loss": 0.9365,
	"step": 4810
	},
	{
	"epoch": 0.053908657260612565,
	"grad_norm": 0.3026556074619293,
	"learning_rate": 0.0004127644022111563,
	"loss": 0.9433,
	"step": 4820
	},
	{
	"epoch": 0.05402050094787525,
	"grad_norm": 0.2933846116065979,
	"learning_rate": 0.00041253597697473614,
	"loss": 0.9351,
	"step": 4830
	},
	{
	"epoch": 0.054132344635137934,
	"grad_norm": 0.2774868309497833,
	"learning_rate": 0.00041230755173831605,
	"loss": 0.9285,
	"step": 4840
	},
	{
	"epoch": 0.05424418832240061,
	"grad_norm": 0.2859903573989868,
	"learning_rate": 0.00041207912650189596,
	"loss": 0.9344,
	"step": 4850
	},
	{
	"epoch": 0.054356032009663297,
	"grad_norm": 0.26687270402908325,
	"learning_rate": 0.0004118507012654758,
	"loss": 0.9281,
	"step": 4860
	},
	{
	"epoch": 0.054467875696925974,
	"grad_norm": 0.31075340509414673,
	"learning_rate": 0.00041162227602905573,
	"loss": 0.9418,
	"step": 4870
	},
	{
	"epoch": 0.05457971938418866,
	"grad_norm": 0.2569184899330139,
	"learning_rate": 0.0004113938507926356,
	"loss": 0.9394,
	"step": 4880
	},
	{
	"epoch": 0.054691563071451336,
	"grad_norm": 0.26250478625297546,
	"learning_rate": 0.00041116542555621544,
	"loss": 0.9499,
	"step": 4890
	},
	{
	"epoch": 0.05480340675871402,
	"grad_norm": 0.27604004740715027,
	"learning_rate": 0.00041093700031979535,
	"loss": 0.9268,
	"step": 4900
	},
	{
	"epoch": 0.054915250445976706,
	"grad_norm": 0.26279163360595703,
	"learning_rate": 0.0004107085750833752,
	"loss": 0.9313,
	"step": 4910
	},
	{
	"epoch": 0.05502709413323938,
	"grad_norm": 0.29265978932380676,
	"learning_rate": 0.00041048014984695506,
	"loss": 0.9498,
	"step": 4920
	},
	{
	"epoch": 0.05513893782050207,
	"grad_norm": 0.32107868790626526,
	"learning_rate": 0.000410251724610535,
	"loss": 0.9708,
	"step": 4930
	},
	{
	"epoch": 0.055250781507764746,
	"grad_norm": 0.32804161310195923,
	"learning_rate": 0.0004100232993741149,
	"loss": 0.9624,
	"step": 4940
	},
	{
	"epoch": 0.05536262519502743,
	"grad_norm": 0.3207037150859833,
	"learning_rate": 0.00040979487413769474,
	"loss": 0.9538,
	"step": 4950
	},
	{
	"epoch": 0.05547446888229011,
	"grad_norm": 0.29660555720329285,
	"learning_rate": 0.00040956644890127465,
	"loss": 0.9677,
	"step": 4960
	},
	{
	"epoch": 0.05558631256955279,
	"grad_norm": 0.34930771589279175,
	"learning_rate": 0.0004093380236648545,
	"loss": 0.9777,
	"step": 4970
	},
	{
	"epoch": 0.05569815625681548,
	"grad_norm": 0.3037464916706085,
	"learning_rate": 0.00040910959842843436,
	"loss": 0.9826,
	"step": 4980
	},
	{
	"epoch": 0.055809999944078155,
	"grad_norm": 0.31435292959213257,
	"learning_rate": 0.00040888117319201427,
	"loss": 0.9677,
	"step": 4990
	},
	{
	"epoch": 0.05592184363134084,
	"grad_norm": 0.29182785749435425,
	"learning_rate": 0.0004086527479555941,
	"loss": 0.9563,
	"step": 5000
	},
	{
	"epoch": 0.05603368731860352,
	"grad_norm": 0.34796231985092163,
	"learning_rate": 0.00040842432271917403,
	"loss": 0.957,
	"step": 5010
	},
	{
	"epoch": 0.0561455310058662,
	"grad_norm": 0.3027050495147705,
	"learning_rate": 0.00040819589748275394,
	"loss": 0.967,
	"step": 5020
	},
	{
	"epoch": 0.056257374693128887,
	"grad_norm": 0.3419332802295685,
	"learning_rate": 0.0004079674722463338,
	"loss": 0.9654,
	"step": 5030
	},
	{
	"epoch": 0.056369218380391564,
	"grad_norm": 0.29381224513053894,
	"learning_rate": 0.00040773904700991366,
	"loss": 0.9647,
	"step": 5040
	},
	{
	"epoch": 0.05648106206765425,
	"grad_norm": 0.29206860065460205,
	"learning_rate": 0.0004075106217734935,
	"loss": 0.9637,
	"step": 5050
	},
	{
	"epoch": 0.056592905754916926,
	"grad_norm": 0.3169795274734497,
	"learning_rate": 0.0004072821965370734,
	"loss": 0.963,
	"step": 5060
	},
	{
	"epoch": 0.05670474944217961,
	"grad_norm": 0.30713772773742676,
	"learning_rate": 0.0004070537713006533,
	"loss": 0.9766,
	"step": 5070
	},
	{
	"epoch": 0.05681659312944229,
	"grad_norm": 0.29805994033813477,
	"learning_rate": 0.00040682534606423313,
	"loss": 0.9597,
	"step": 5080
	},
	{
	"epoch": 0.05692843681670497,
	"grad_norm": 0.33419644832611084,
	"learning_rate": 0.0004065969208278131,
	"loss": 0.9598,
	"step": 5090
	},
	{
	"epoch": 0.05704028050396766,
	"grad_norm": 0.31769025325775146,
	"learning_rate": 0.00040636849559139295,
	"loss": 0.942,
	"step": 5100
	},
	{
	"epoch": 0.057152124191230336,
	"grad_norm": 0.3017726242542267,
	"learning_rate": 0.0004061400703549728,
	"loss": 0.9627,
	"step": 5110
	},
	{
	"epoch": 0.05726396787849302,
	"grad_norm": 0.32213470339775085,
	"learning_rate": 0.0004059116451185527,
	"loss": 0.9518,
	"step": 5120
	},
	{
	"epoch": 0.0573758115657557,
	"grad_norm": 0.29069948196411133,
	"learning_rate": 0.0004056832198821326,
	"loss": 0.9337,
	"step": 5130
	},
	{
	"epoch": 0.05748765525301838,
	"grad_norm": 0.32283100485801697,
	"learning_rate": 0.00040545479464571243,
	"loss": 0.959,
	"step": 5140
	},
	{
	"epoch": 0.05759949894028106,
	"grad_norm": 0.3191847801208496,
	"learning_rate": 0.00040522636940929234,
	"loss": 0.9439,
	"step": 5150
	},
	{
	"epoch": 0.057711342627543745,
	"grad_norm": 0.565864622592926,
	"learning_rate": 0.00040499794417287225,
	"loss": 0.9587,
	"step": 5160
	},
	{
	"epoch": 0.05782318631480643,
	"grad_norm": 0.3419003188610077,
	"learning_rate": 0.0004047695189364521,
	"loss": 0.9466,
	"step": 5170
	},
	{
	"epoch": 0.05793503000206911,
	"grad_norm": 0.28331097960472107,
	"learning_rate": 0.000404541093700032,
	"loss": 0.9472,
	"step": 5180
	},
	{
	"epoch": 0.05804687368933179,
	"grad_norm": 0.2994554042816162,
	"learning_rate": 0.00040431266846361187,
	"loss": 0.9434,
	"step": 5190
	},
	{
	"epoch": 0.05815871737659447,
	"grad_norm": 0.30070000886917114,
	"learning_rate": 0.0004040842432271917,
	"loss": 0.9408,
	"step": 5200
	},
	{
	"epoch": 0.058270561063857154,
	"grad_norm": 0.29924333095550537,
	"learning_rate": 0.00040385581799077164,
	"loss": 0.9484,
	"step": 5210
	},
	{
	"epoch": 0.05838240475111983,
	"grad_norm": 0.2905283272266388,
	"learning_rate": 0.0004036273927543515,
	"loss": 0.9636,
	"step": 5220
	},
	{
	"epoch": 0.058494248438382516,
	"grad_norm": 0.3290540874004364,
	"learning_rate": 0.00040339896751793135,
	"loss": 0.9396,
	"step": 5230
	},
	{
	"epoch": 0.0586060921256452,
	"grad_norm": 0.29686272144317627,
	"learning_rate": 0.0004031705422815113,
	"loss": 0.9408,
	"step": 5240
	},
	{
	"epoch": 0.05871793581290788,
	"grad_norm": 0.2768057882785797,
	"learning_rate": 0.00040294211704509117,
	"loss": 0.9328,
	"step": 5250
	},
	{
	"epoch": 0.05882977950017056,
	"grad_norm": 0.2614899277687073,
	"learning_rate": 0.000402713691808671,
	"loss": 0.9483,
	"step": 5260
	},
	{
	"epoch": 0.05894162318743324,
	"grad_norm": 0.2692766487598419,
	"learning_rate": 0.00040248526657225093,
	"loss": 0.9479,
	"step": 5270
	},
	{
	"epoch": 0.059053466874695926,
	"grad_norm": 0.3009514808654785,
	"learning_rate": 0.0004022568413358308,
	"loss": 0.9681,
	"step": 5280
	},
	{
	"epoch": 0.0591653105619586,
	"grad_norm": 0.27767086029052734,
	"learning_rate": 0.00040202841609941064,
	"loss": 0.9685,
	"step": 5290
	},
	{
	"epoch": 0.05927715424922129,
	"grad_norm": 0.2956901788711548,
	"learning_rate": 0.00040179999086299055,
	"loss": 0.9609,
	"step": 5300
	},
	{
	"epoch": 0.05938899793648397,
	"grad_norm": 0.3046570420265198,
	"learning_rate": 0.0004015715656265704,
	"loss": 0.961,
	"step": 5310
	},
	{
	"epoch": 0.05950084162374665,
	"grad_norm": 0.24477365612983704,
	"learning_rate": 0.0004013431403901503,
	"loss": 0.9501,
	"step": 5320
	},
	{
	"epoch": 0.059612685311009335,
	"grad_norm": 0.25505194067955017,
	"learning_rate": 0.00040111471515373023,
	"loss": 0.946,
	"step": 5330
	},
	{
	"epoch": 0.05972452899827201,
	"grad_norm": 0.26015251874923706,
	"learning_rate": 0.0004008862899173101,
	"loss": 0.9372,
	"step": 5340
	},
	{
	"epoch": 0.0598363726855347,
	"grad_norm": 0.24911250174045563,
	"learning_rate": 0.00040065786468088994,
	"loss": 0.9487,
	"step": 5350
	},
	{
	"epoch": 0.059948216372797375,
	"grad_norm": 0.2779735028743744,
	"learning_rate": 0.00040042943944446985,
	"loss": 0.9316,
	"step": 5360
	},
	{
	"epoch": 0.06006006006006006,
	"grad_norm": 0.30663251876831055,
	"learning_rate": 0.0004002010142080497,
	"loss": 0.9461,
	"step": 5370
	},
	{
	"epoch": 0.060171903747322744,
	"grad_norm": 0.2724740505218506,
	"learning_rate": 0.00039997258897162956,
	"loss": 0.9214,
	"step": 5380
	},
	{
	"epoch": 0.06028374743458542,
	"grad_norm": 0.26819276809692383,
	"learning_rate": 0.00039974416373520947,
	"loss": 0.9368,
	"step": 5390
	},
	{
	"epoch": 0.060395591121848106,
	"grad_norm": 0.26342320442199707,
	"learning_rate": 0.0003995157384987894,
	"loss": 0.9332,
	"step": 5400
	},
	{
	"epoch": 0.060507434809110784,
	"grad_norm": 0.32590556144714355,
	"learning_rate": 0.00039928731326236924,
	"loss": 0.9286,
	"step": 5410
	},
	{
	"epoch": 0.06061927849637347,
	"grad_norm": 0.2747272849082947,
	"learning_rate": 0.00039905888802594915,
	"loss": 0.932,
	"step": 5420
	},
	{
	"epoch": 0.06073112218363615,
	"grad_norm": 0.23089702427387238,
	"learning_rate": 0.000398830462789529,
	"loss": 0.9216,
	"step": 5430
	},
	{
	"epoch": 0.06084296587089883,
	"grad_norm": 0.24383346736431122,
	"learning_rate": 0.00039860203755310886,
	"loss": 0.9333,
	"step": 5440
	},
	{
	"epoch": 0.060954809558161516,
	"grad_norm": 0.23999489843845367,
	"learning_rate": 0.00039837361231668877,
	"loss": 0.9134,
	"step": 5450
	},
	{
	"epoch": 0.06106665324542419,
	"grad_norm": 0.3041435480117798,
	"learning_rate": 0.0003981451870802686,
	"loss": 0.9226,
	"step": 5460
	},
	{
	"epoch": 0.06117849693268688,
	"grad_norm": 0.2667579650878906,
	"learning_rate": 0.0003979167618438485,
	"loss": 0.9148,
	"step": 5470
	},
	{
	"epoch": 0.061290340619949556,
	"grad_norm": 0.2730364203453064,
	"learning_rate": 0.0003976883366074284,
	"loss": 0.9073,
	"step": 5480
	},
	{
	"epoch": 0.06140218430721224,
	"grad_norm": 0.28175118565559387,
	"learning_rate": 0.0003974599113710083,
	"loss": 0.9097,
	"step": 5490
	},
	{
	"epoch": 0.061514027994474925,
	"grad_norm": 0.2826266288757324,
	"learning_rate": 0.00039723148613458816,
	"loss": 0.8972,
	"step": 5500
	},
	{
	"epoch": 0.0616258716817376,
	"grad_norm": 0.25821810960769653,
	"learning_rate": 0.000397003060898168,
	"loss": 0.8898,
	"step": 5510
	},
	{
	"epoch": 0.06173771536900029,
	"grad_norm": 0.31401073932647705,
	"learning_rate": 0.0003967746356617479,
	"loss": 0.8986,
	"step": 5520
	},
	{
	"epoch": 0.061849559056262965,
	"grad_norm": 0.2664715349674225,
	"learning_rate": 0.0003965462104253278,
	"loss": 0.9178,
	"step": 5530
	},
	{
	"epoch": 0.06196140274352565,
	"grad_norm": 0.2725924253463745,
	"learning_rate": 0.00039631778518890763,
	"loss": 0.8941,
	"step": 5540
	},
	{
	"epoch": 0.06207324643078833,
	"grad_norm": 0.2991993725299835,
	"learning_rate": 0.0003960893599524876,
	"loss": 0.899,
	"step": 5550
	},
	{
	"epoch": 0.06218509011805101,
	"grad_norm": 0.2683865427970886,
	"learning_rate": 0.00039586093471606745,
	"loss": 0.9105,
	"step": 5560
	},
	{
	"epoch": 0.062296933805313696,
	"grad_norm": 0.29127469658851624,
	"learning_rate": 0.0003956325094796473,
	"loss": 0.9091,
	"step": 5570
	},
	{
	"epoch": 0.062408777492576374,
	"grad_norm": 0.28191229701042175,
	"learning_rate": 0.0003954040842432272,
	"loss": 0.9078,
	"step": 5580
	},
	{
	"epoch": 0.06252062117983906,
	"grad_norm": 0.28319644927978516,
	"learning_rate": 0.0003951756590068071,
	"loss": 0.9134,
	"step": 5590
	},
	{
	"epoch": 0.06263246486710174,
	"grad_norm": 0.2563108205795288,
	"learning_rate": 0.00039494723377038693,
	"loss": 0.9166,
	"step": 5600
	},
	{
	"epoch": 0.06274430855436441,
	"grad_norm": 0.29730817675590515,
	"learning_rate": 0.00039471880853396684,
	"loss": 0.9101,
	"step": 5610
	},
	{
	"epoch": 0.0628561522416271,
	"grad_norm": 0.25925830006599426,
	"learning_rate": 0.0003944903832975467,
	"loss": 0.9131,
	"step": 5620
	},
	{
	"epoch": 0.06296799592888978,
	"grad_norm": 0.2645208537578583,
	"learning_rate": 0.0003942619580611266,
	"loss": 0.9203,
	"step": 5630
	},
	{
	"epoch": 0.06307983961615246,
	"grad_norm": 0.2844574749469757,
	"learning_rate": 0.0003940335328247065,
	"loss": 0.914,
	"step": 5640
	},
	{
	"epoch": 0.06319168330341515,
	"grad_norm": 0.2687402367591858,
	"learning_rate": 0.00039380510758828637,
	"loss": 0.9095,
	"step": 5650
	},
	{
	"epoch": 0.06330352699067783,
	"grad_norm": 0.22893477976322174,
	"learning_rate": 0.00039357668235186623,
	"loss": 0.8993,
	"step": 5660
	},
	{
	"epoch": 0.06341537067794051,
	"grad_norm": 0.27271768450737,
	"learning_rate": 0.00039334825711544614,
	"loss": 0.8989,
	"step": 5670
	},
	{
	"epoch": 0.06352721436520319,
	"grad_norm": 0.27709853649139404,
	"learning_rate": 0.000393119831879026,
	"loss": 0.8998,
	"step": 5680
	},
	{
	"epoch": 0.06363905805246588,
	"grad_norm": 0.24321520328521729,
	"learning_rate": 0.00039289140664260585,
	"loss": 0.887,
	"step": 5690
	},
	{
	"epoch": 0.06375090173972855,
	"grad_norm": 0.26779887080192566,
	"learning_rate": 0.00039266298140618576,
	"loss": 0.9091,
	"step": 5700
	},
	{
	"epoch": 0.06386274542699123,
	"grad_norm": 0.2612350881099701,
	"learning_rate": 0.00039243455616976567,
	"loss": 0.9043,
	"step": 5710
	},
	{
	"epoch": 0.06397458911425392,
	"grad_norm": 0.26247987151145935,
	"learning_rate": 0.0003922061309333455,
	"loss": 0.9024,
	"step": 5720
	},
	{
	"epoch": 0.0640864328015166,
	"grad_norm": 0.2605653703212738,
	"learning_rate": 0.00039197770569692543,
	"loss": 0.9311,
	"step": 5730
	},
	{
	"epoch": 0.06419827648877928,
	"grad_norm": 0.28249841928482056,
	"learning_rate": 0.0003917492804605053,
	"loss": 0.9265,
	"step": 5740
	},
	{
	"epoch": 0.06431012017604196,
	"grad_norm": 0.2880108654499054,
	"learning_rate": 0.00039152085522408515,
	"loss": 0.9331,
	"step": 5750
	},
	{
	"epoch": 0.06442196386330465,
	"grad_norm": 0.31626009941101074,
	"learning_rate": 0.00039129242998766506,
	"loss": 0.9483,
	"step": 5760
	},
	{
	"epoch": 0.06453380755056733,
	"grad_norm": 0.28972744941711426,
	"learning_rate": 0.0003910640047512449,
	"loss": 0.9239,
	"step": 5770
	},
	{
	"epoch": 0.06464565123783,
	"grad_norm": 0.27140864729881287,
	"learning_rate": 0.00039083557951482477,
	"loss": 0.9259,
	"step": 5780
	},
	{
	"epoch": 0.0647574949250927,
	"grad_norm": 0.26331818103790283,
	"learning_rate": 0.00039060715427840473,
	"loss": 0.9383,
	"step": 5790
	},
	{
	"epoch": 0.06486933861235537,
	"grad_norm": 0.26927000284194946,
	"learning_rate": 0.0003903787290419846,
	"loss": 0.9236,
	"step": 5800
	},
	{
	"epoch": 0.06498118229961805,
	"grad_norm": 0.2833601236343384,
	"learning_rate": 0.00039015030380556444,
	"loss": 0.9257,
	"step": 5810
	},
	{
	"epoch": 0.06509302598688073,
	"grad_norm": 0.2970174551010132,
	"learning_rate": 0.00038992187856914435,
	"loss": 0.9164,
	"step": 5820
	},
	{
	"epoch": 0.06520486967414342,
	"grad_norm": 0.27904263138771057,
	"learning_rate": 0.0003896934533327242,
	"loss": 0.9045,
	"step": 5830
	},
	{
	"epoch": 0.0653167133614061,
	"grad_norm": 0.24879537522792816,
	"learning_rate": 0.00038946502809630406,
	"loss": 0.9,
	"step": 5840
	},
	{
	"epoch": 0.06542855704866878,
	"grad_norm": 0.2897798717021942,
	"learning_rate": 0.000389236602859884,
	"loss": 0.919,
	"step": 5850
	},
	{
	"epoch": 0.06554040073593147,
	"grad_norm": 0.26522865891456604,
	"learning_rate": 0.00038900817762346383,
	"loss": 0.9168,
	"step": 5860
	},
	{
	"epoch": 0.06565224442319414,
	"grad_norm": 0.26405441761016846,
	"learning_rate": 0.00038877975238704374,
	"loss": 0.9169,
	"step": 5870
	},
	{
	"epoch": 0.06576408811045682,
	"grad_norm": 0.2543514370918274,
	"learning_rate": 0.00038855132715062365,
	"loss": 0.917,
	"step": 5880
	},
	{
	"epoch": 0.06587593179771951,
	"grad_norm": 0.2683538794517517,
	"learning_rate": 0.0003883229019142035,
	"loss": 0.9179,
	"step": 5890
	},
	{
	"epoch": 0.06598777548498219,
	"grad_norm": 0.24559274315834045,
	"learning_rate": 0.00038809447667778336,
	"loss": 0.907,
	"step": 5900
	},
	{
	"epoch": 0.06609961917224487,
	"grad_norm": 0.2604455351829529,
	"learning_rate": 0.00038786605144136327,
	"loss": 0.9172,
	"step": 5910
	},
	{
	"epoch": 0.06621146285950755,
	"grad_norm": 0.24329319596290588,
	"learning_rate": 0.0003876376262049431,
	"loss": 0.9171,
	"step": 5920
	},
	{
	"epoch": 0.06632330654677024,
	"grad_norm": 0.237509623169899,
	"learning_rate": 0.000387409200968523,
	"loss": 0.9272,
	"step": 5930
	},
	{
	"epoch": 0.06643515023403292,
	"grad_norm": 0.2569025754928589,
	"learning_rate": 0.00038718077573210284,
	"loss": 0.9327,
	"step": 5940
	},
	{
	"epoch": 0.0665469939212956,
	"grad_norm": 0.2908497750759125,
	"learning_rate": 0.0003869523504956828,
	"loss": 0.9299,
	"step": 5950
	},
	{
	"epoch": 0.06665883760855829,
	"grad_norm": 0.24669544398784637,
	"learning_rate": 0.00038672392525926266,
	"loss": 0.9036,
	"step": 5960
	},
	{
	"epoch": 0.06677068129582096,
	"grad_norm": 0.23906981945037842,
	"learning_rate": 0.0003864955000228425,
	"loss": 0.9266,
	"step": 5970
	},
	{
	"epoch": 0.06688252498308364,
	"grad_norm": 0.2822079658508301,
	"learning_rate": 0.0003862670747864224,
	"loss": 0.9209,
	"step": 5980
	},
	{
	"epoch": 0.06699436867034632,
	"grad_norm": 0.27469775080680847,
	"learning_rate": 0.0003860386495500023,
	"loss": 0.9385,
	"step": 5990
	},
	{
	"epoch": 0.06710621235760901,
	"grad_norm": 0.24559862911701202,
	"learning_rate": 0.00038581022431358213,
	"loss": 0.9248,
	"step": 6000
	},
	{
	"epoch": 0.06721805604487169,
	"grad_norm": 0.24427008628845215,
	"learning_rate": 0.00038558179907716204,
	"loss": 0.9358,
	"step": 6010
	},
	{
	"epoch": 0.06732989973213437,
	"grad_norm": 0.2626965641975403,
	"learning_rate": 0.00038535337384074195,
	"loss": 0.9211,
	"step": 6020
	},
	{
	"epoch": 0.06744174341939706,
	"grad_norm": 0.226990208029747,
	"learning_rate": 0.0003851249486043218,
	"loss": 0.9292,
	"step": 6030
	},
	{
	"epoch": 0.06755358710665973,
	"grad_norm": 0.2762834131717682,
	"learning_rate": 0.0003848965233679017,
	"loss": 0.932,
	"step": 6040
	},
	{
	"epoch": 0.06766543079392241,
	"grad_norm": 0.2799958884716034,
	"learning_rate": 0.0003846680981314816,
	"loss": 0.943,
	"step": 6050
	},
	{
	"epoch": 0.06777727448118509,
	"grad_norm": 0.26224029064178467,
	"learning_rate": 0.00038443967289506143,
	"loss": 0.9236,
	"step": 6060
	},
	{
	"epoch": 0.06788911816844778,
	"grad_norm": 0.2897866368293762,
	"learning_rate": 0.00038421124765864134,
	"loss": 0.95,
	"step": 6070
	},
	{
	"epoch": 0.06800096185571046,
	"grad_norm": 0.2899113893508911,
	"learning_rate": 0.0003839828224222212,
	"loss": 0.9403,
	"step": 6080
	},
	{
	"epoch": 0.06811280554297314,
	"grad_norm": 0.27765581011772156,
	"learning_rate": 0.00038375439718580105,
	"loss": 0.9447,
	"step": 6090
	},
	{
	"epoch": 0.06822464923023583,
	"grad_norm": 0.27683207392692566,
	"learning_rate": 0.000383525971949381,
	"loss": 0.949,
	"step": 6100
	},
	{
	"epoch": 0.0683364929174985,
	"grad_norm": 0.2815559506416321,
	"learning_rate": 0.00038329754671296087,
	"loss": 0.9627,
	"step": 6110
	},
	{
	"epoch": 0.06844833660476118,
	"grad_norm": 0.2741657793521881,
	"learning_rate": 0.00038306912147654073,
	"loss": 0.9659,
	"step": 6120
	},
	{
	"epoch": 0.06856018029202386,
	"grad_norm": 0.4103181064128876,
	"learning_rate": 0.00038284069624012064,
	"loss": 0.9612,
	"step": 6130
	},
	{
	"epoch": 0.06867202397928655,
	"grad_norm": 0.2862701416015625,
	"learning_rate": 0.0003826122710037005,
	"loss": 0.9393,
	"step": 6140
	},
	{
	"epoch": 0.06878386766654923,
	"grad_norm": 0.2789844274520874,
	"learning_rate": 0.00038238384576728035,
	"loss": 0.9447,
	"step": 6150
	},
	{
	"epoch": 0.06889571135381191,
	"grad_norm": 0.590391993522644,
	"learning_rate": 0.00038215542053086026,
	"loss": 0.9525,
	"step": 6160
	},
	{
	"epoch": 0.0690075550410746,
	"grad_norm": 0.2721211016178131,
	"learning_rate": 0.0003819269952944401,
	"loss": 0.9467,
	"step": 6170
	},
	{
	"epoch": 0.06911939872833728,
	"grad_norm": 0.27576929330825806,
	"learning_rate": 0.00038169857005802,
	"loss": 0.9428,
	"step": 6180
	},
	{
	"epoch": 0.06923124241559996,
	"grad_norm": 0.28229111433029175,
	"learning_rate": 0.00038147014482159993,
	"loss": 0.9418,
	"step": 6190
	},
	{
	"epoch": 0.06934308610286263,
	"grad_norm": 0.29595518112182617,
	"learning_rate": 0.0003812417195851798,
	"loss": 0.9178,
	"step": 6200
	},
	{
	"epoch": 0.06945492979012532,
	"grad_norm": 0.3055596351623535,
	"learning_rate": 0.00038101329434875965,
	"loss": 0.9464,
	"step": 6210
	},
	{
	"epoch": 0.069566773477388,
	"grad_norm": 0.29212549328804016,
	"learning_rate": 0.00038078486911233956,
	"loss": 0.9491,
	"step": 6220
	},
	{
	"epoch": 0.06967861716465068,
	"grad_norm": 0.288928359746933,
	"learning_rate": 0.0003805564438759194,
	"loss": 0.9285,
	"step": 6230
	},
	{
	"epoch": 0.06979046085191337,
	"grad_norm": 0.2759207487106323,
	"learning_rate": 0.00038032801863949927,
	"loss": 0.9336,
	"step": 6240
	},
	{
	"epoch": 0.06990230453917605,
	"grad_norm": 0.31041648983955383,
	"learning_rate": 0.0003800995934030792,
	"loss": 0.9317,
	"step": 6250
	},
	{
	"epoch": 0.07001414822643873,
	"grad_norm": 0.29425299167633057,
	"learning_rate": 0.0003798711681666591,
	"loss": 0.9212,
	"step": 6260
	},
	{
	"epoch": 0.0701259919137014,
	"grad_norm": 0.278062105178833,
	"learning_rate": 0.00037964274293023894,
	"loss": 0.9291,
	"step": 6270
	},
	{
	"epoch": 0.0702378356009641,
	"grad_norm": 0.2983698546886444,
	"learning_rate": 0.00037941431769381885,
	"loss": 0.9169,
	"step": 6280
	},
	{
	"epoch": 0.07034967928822677,
	"grad_norm": 0.29595527052879333,
	"learning_rate": 0.0003791858924573987,
	"loss": 0.9286,
	"step": 6290
	},
	{
	"epoch": 0.07046152297548945,
	"grad_norm": 0.26365020871162415,
	"learning_rate": 0.00037895746722097856,
	"loss": 0.9312,
	"step": 6300
	},
	{
	"epoch": 0.07057336666275214,
	"grad_norm": 0.27807778120040894,
	"learning_rate": 0.0003787290419845585,
	"loss": 0.9274,
	"step": 6310
	},
	{
	"epoch": 0.07068521035001482,
	"grad_norm": 0.2585415840148926,
	"learning_rate": 0.00037850061674813833,
	"loss": 0.9513,
	"step": 6320
	},
	{
	"epoch": 0.0707970540372775,
	"grad_norm": 0.2740543484687805,
	"learning_rate": 0.0003782721915117182,
	"loss": 0.922,
	"step": 6330
	},
	{
	"epoch": 0.07090889772454018,
	"grad_norm": 0.28271788358688354,
	"learning_rate": 0.00037804376627529815,
	"loss": 0.94,
	"step": 6340
	},
	{
	"epoch": 0.07102074141180287,
	"grad_norm": 0.28767603635787964,
	"learning_rate": 0.000377815341038878,
	"loss": 0.9295,
	"step": 6350
	},
	{
	"epoch": 0.07113258509906555,
	"grad_norm": 0.25200092792510986,
	"learning_rate": 0.00037758691580245786,
	"loss": 0.9219,
	"step": 6360
	},
	{
	"epoch": 0.07124442878632822,
	"grad_norm": 0.27449852228164673,
	"learning_rate": 0.00037735849056603777,
	"loss": 0.9227,
	"step": 6370
	},
	{
	"epoch": 0.07135627247359091,
	"grad_norm": 0.27951040863990784,
	"learning_rate": 0.0003771300653296176,
	"loss": 0.9256,
	"step": 6380
	},
	{
	"epoch": 0.07146811616085359,
	"grad_norm": 0.27883175015449524,
	"learning_rate": 0.0003769016400931975,
	"loss": 0.9244,
	"step": 6390
	},
	{
	"epoch": 0.07157995984811627,
	"grad_norm": 0.27942216396331787,
	"learning_rate": 0.00037667321485677734,
	"loss": 0.9287,
	"step": 6400
	},
	{
	"epoch": 0.07169180353537895,
	"grad_norm": 0.2605076730251312,
	"learning_rate": 0.00037644478962035725,
	"loss": 0.9213,
	"step": 6410
	},
	{
	"epoch": 0.07180364722264164,
	"grad_norm": 0.25812190771102905,
	"learning_rate": 0.00037621636438393716,
	"loss": 0.9268,
	"step": 6420
	},
	{
	"epoch": 0.07191549090990432,
	"grad_norm": 0.27478551864624023,
	"learning_rate": 0.000375987939147517,
	"loss": 0.9341,
	"step": 6430
	},
	{
	"epoch": 0.072027334597167,
	"grad_norm": 0.2799810469150543,
	"learning_rate": 0.0003757595139110969,
	"loss": 0.9308,
	"step": 6440
	},
	{
	"epoch": 0.07213917828442969,
	"grad_norm": 0.2494313269853592,
	"learning_rate": 0.0003755310886746768,
	"loss": 0.9389,
	"step": 6450
	},
	{
	"epoch": 0.07225102197169236,
	"grad_norm": 0.3362772762775421,
	"learning_rate": 0.00037530266343825664,
	"loss": 0.9362,
	"step": 6460
	},
	{
	"epoch": 0.07236286565895504,
	"grad_norm": 0.28501999378204346,
	"learning_rate": 0.00037507423820183655,
	"loss": 0.9262,
	"step": 6470
	},
	{
	"epoch": 0.07247470934621772,
	"grad_norm": 0.24787545204162598,
	"learning_rate": 0.0003748458129654164,
	"loss": 0.9409,
	"step": 6480
	},
	{
	"epoch": 0.07258655303348041,
	"grad_norm": 0.277665913105011,
	"learning_rate": 0.0003746173877289963,
	"loss": 0.9244,
	"step": 6490
	},
	{
	"epoch": 0.07269839672074309,
	"grad_norm": 0.2613317370414734,
	"learning_rate": 0.0003743889624925762,
	"loss": 0.9429,
	"step": 6500
	},
	{
	"epoch": 0.07281024040800577,
	"grad_norm": 0.2740306258201599,
	"learning_rate": 0.0003741605372561561,
	"loss": 0.9422,
	"step": 6510
	},
	{
	"epoch": 0.07292208409526846,
	"grad_norm": 0.3052440881729126,
	"learning_rate": 0.00037393211201973593,
	"loss": 0.9346,
	"step": 6520
	},
	{
	"epoch": 0.07303392778253114,
	"grad_norm": 0.27979132533073425,
	"learning_rate": 0.00037370368678331584,
	"loss": 0.9305,
	"step": 6530
	},
	{
	"epoch": 0.07314577146979381,
	"grad_norm": 0.2834227979183197,
	"learning_rate": 0.0003734752615468957,
	"loss": 0.9305,
	"step": 6540
	},
	{
	"epoch": 0.07325761515705649,
	"grad_norm": 0.28621387481689453,
	"learning_rate": 0.00037324683631047555,
	"loss": 0.9505,
	"step": 6550
	},
	{
	"epoch": 0.07336945884431918,
	"grad_norm": 0.2539358139038086,
	"learning_rate": 0.00037301841107405546,
	"loss": 0.9491,
	"step": 6560
	},
	{
	"epoch": 0.07348130253158186,
	"grad_norm": 0.29257437586784363,
	"learning_rate": 0.0003727899858376354,
	"loss": 0.9428,
	"step": 6570
	},
	{
	"epoch": 0.07359314621884454,
	"grad_norm": 0.25158485770225525,
	"learning_rate": 0.00037256156060121523,
	"loss": 0.9471,
	"step": 6580
	},
	{
	"epoch": 0.07370498990610723,
	"grad_norm": 0.26301345229148865,
	"learning_rate": 0.00037233313536479514,
	"loss": 0.928,
	"step": 6590
	},
	{
	"epoch": 0.07381683359336991,
	"grad_norm": 0.2519192397594452,
	"learning_rate": 0.000372104710128375,
	"loss": 0.9189,
	"step": 6600
	},
	{
	"epoch": 0.07392867728063258,
	"grad_norm": 0.29801836609840393,
	"learning_rate": 0.00037187628489195485,
	"loss": 0.9218,
	"step": 6610
	},
	{
	"epoch": 0.07404052096789528,
	"grad_norm": 0.30779263377189636,
	"learning_rate": 0.00037164785965553476,
	"loss": 0.9263,
	"step": 6620
	},
	{
	"epoch": 0.07415236465515795,
	"grad_norm": 0.2758638262748718,
	"learning_rate": 0.0003714194344191146,
	"loss": 0.904,
	"step": 6630
	},
	{
	"epoch": 0.07426420834242063,
	"grad_norm": 0.26482871174812317,
	"learning_rate": 0.00037119100918269447,
	"loss": 0.9024,
	"step": 6640
	},
	{
	"epoch": 0.07437605202968331,
	"grad_norm": 0.24001047015190125,
	"learning_rate": 0.00037096258394627444,
	"loss": 0.914,
	"step": 6650
	},
	{
	"epoch": 0.074487895716946,
	"grad_norm": 0.2694549560546875,
	"learning_rate": 0.0003707341587098543,
	"loss": 0.921,
	"step": 6660
	},
	{
	"epoch": 0.07459973940420868,
	"grad_norm": 0.25042393803596497,
	"learning_rate": 0.00037050573347343415,
	"loss": 0.9108,
	"step": 6670
	},
	{
	"epoch": 0.07471158309147136,
	"grad_norm": 0.25945019721984863,
	"learning_rate": 0.00037027730823701406,
	"loss": 0.912,
	"step": 6680
	},
	{
	"epoch": 0.07482342677873405,
	"grad_norm": 0.2624742090702057,
	"learning_rate": 0.0003700488830005939,
	"loss": 0.9108,
	"step": 6690
	},
	{
	"epoch": 0.07493527046599673,
	"grad_norm": 0.27438145875930786,
	"learning_rate": 0.00036982045776417377,
	"loss": 0.9215,
	"step": 6700
	},
	{
	"epoch": 0.0750471141532594,
	"grad_norm": 0.27610865235328674,
	"learning_rate": 0.0003695920325277537,
	"loss": 0.9053,
	"step": 6710
	},
	{
	"epoch": 0.07515895784052208,
	"grad_norm": 0.2616426944732666,
	"learning_rate": 0.00036936360729133353,
	"loss": 0.9255,
	"step": 6720
	},
	{
	"epoch": 0.07527080152778477,
	"grad_norm": 0.3146522641181946,
	"learning_rate": 0.00036913518205491344,
	"loss": 0.9105,
	"step": 6730
	},
	{
	"epoch": 0.07538264521504745,
	"grad_norm": 0.29139819741249084,
	"learning_rate": 0.00036890675681849335,
	"loss": 0.9324,
	"step": 6740
	},
	{
	"epoch": 0.07549448890231013,
	"grad_norm": 0.3176229000091553,
	"learning_rate": 0.0003686783315820732,
	"loss": 0.9434,
	"step": 6750
	},
	{
	"epoch": 0.07560633258957282,
	"grad_norm": 0.2786601781845093,
	"learning_rate": 0.00036844990634565307,
	"loss": 0.9405,
	"step": 6760
	},
	{
	"epoch": 0.0757181762768355,
	"grad_norm": 0.2988050580024719,
	"learning_rate": 0.000368221481109233,
	"loss": 0.9477,
	"step": 6770
	},
	{
	"epoch": 0.07583001996409817,
	"grad_norm": 0.28120875358581543,
	"learning_rate": 0.00036799305587281283,
	"loss": 0.9521,
	"step": 6780
	},
	{
	"epoch": 0.07594186365136085,
	"grad_norm": 0.27376359701156616,
	"learning_rate": 0.0003677646306363927,
	"loss": 0.9405,
	"step": 6790
	},
	{
	"epoch": 0.07605370733862354,
	"grad_norm": 0.2721284329891205,
	"learning_rate": 0.0003675362053999726,
	"loss": 0.9392,
	"step": 6800
	},
	{
	"epoch": 0.07616555102588622,
	"grad_norm": 0.31443721055984497,
	"learning_rate": 0.0003673077801635525,
	"loss": 0.939,
	"step": 6810
	},
	{
	"epoch": 0.0762773947131489,
	"grad_norm": 0.27175766229629517,
	"learning_rate": 0.00036707935492713236,
	"loss": 0.9262,
	"step": 6820
	},
	{
	"epoch": 0.07638923840041159,
	"grad_norm": 0.2984711527824402,
	"learning_rate": 0.00036685092969071227,
	"loss": 0.9381,
	"step": 6830
	},
	{
	"epoch": 0.07650108208767427,
	"grad_norm": 0.2773591876029968,
	"learning_rate": 0.00036662250445429213,
	"loss": 0.9217,
	"step": 6840
	},
	{
	"epoch": 0.07661292577493695,
	"grad_norm": 0.29338565468788147,
	"learning_rate": 0.000366394079217872,
	"loss": 0.9197,
	"step": 6850
	},
	{
	"epoch": 0.07672476946219962,
	"grad_norm": 0.2456415593624115,
	"learning_rate": 0.00036616565398145184,
	"loss": 0.9191,
	"step": 6860
	},
	{
	"epoch": 0.07683661314946232,
	"grad_norm": 0.324935644865036,
	"learning_rate": 0.00036593722874503175,
	"loss": 0.8975,
	"step": 6870
	},
	{
	"epoch": 0.076948456836725,
	"grad_norm": 0.6967706680297852,
	"learning_rate": 0.0003657088035086116,
	"loss": 0.9053,
	"step": 6880
	},
	{
	"epoch": 0.07706030052398767,
	"grad_norm": 0.8192552328109741,
	"learning_rate": 0.0003654803782721915,
	"loss": 0.9129,
	"step": 6890
	},
	{
	"epoch": 0.07717214421125036,
	"grad_norm": 0.4698907136917114,
	"learning_rate": 0.0003652519530357714,
	"loss": 0.9128,
	"step": 6900
	},
	{
	"epoch": 0.07728398789851304,
	"grad_norm": 0.3055092990398407,
	"learning_rate": 0.0003650235277993513,
	"loss": 0.9207,
	"step": 6910
	},
	{
	"epoch": 0.07739583158577572,
	"grad_norm": 0.31879591941833496,
	"learning_rate": 0.00036479510256293114,
	"loss": 0.9101,
	"step": 6920
	},
	{
	"epoch": 0.0775076752730384,
	"grad_norm": 0.2708083987236023,
	"learning_rate": 0.00036456667732651105,
	"loss": 0.9036,
	"step": 6930
	},
	{
	"epoch": 0.07761951896030109,
	"grad_norm": 0.2801443040370941,
	"learning_rate": 0.0003643382520900909,
	"loss": 0.9031,
	"step": 6940
	},
	{
	"epoch": 0.07773136264756376,
	"grad_norm": 0.2481400966644287,
	"learning_rate": 0.00036410982685367076,
	"loss": 0.8952,
	"step": 6950
	},
	{
	"epoch": 0.07784320633482644,
	"grad_norm": 0.25424808263778687,
	"learning_rate": 0.0003638814016172507,
	"loss": 0.8846,
	"step": 6960
	},
	{
	"epoch": 0.07795505002208913,
	"grad_norm": 0.2655096650123596,
	"learning_rate": 0.0003636529763808306,
	"loss": 0.8922,
	"step": 6970
	},
	{
	"epoch": 0.07806689370935181,
	"grad_norm": 0.281180202960968,
	"learning_rate": 0.00036342455114441043,
	"loss": 0.8934,
	"step": 6980
	},
	{
	"epoch": 0.07817873739661449,
	"grad_norm": 0.2850550413131714,
	"learning_rate": 0.00036319612590799034,
	"loss": 0.8856,
	"step": 6990
	},
	{
	"epoch": 0.07829058108387717,
	"grad_norm": 0.24838604032993317,
	"learning_rate": 0.0003629677006715702,
	"loss": 0.905,
	"step": 7000
	},
	{
	"epoch": 0.07840242477113986,
	"grad_norm": 0.2703045606613159,
	"learning_rate": 0.00036273927543515005,
	"loss": 0.8816,
	"step": 7010
	},
	{
	"epoch": 0.07851426845840254,
	"grad_norm": 0.2786656320095062,
	"learning_rate": 0.00036251085019872996,
	"loss": 0.8997,
	"step": 7020
	},
	{
	"epoch": 0.07862611214566521,
	"grad_norm": 0.2771463692188263,
	"learning_rate": 0.0003622824249623098,
	"loss": 0.9033,
	"step": 7030
	},
	{
	"epoch": 0.0787379558329279,
	"grad_norm": 0.2721976339817047,
	"learning_rate": 0.00036205399972588973,
	"loss": 0.9109,
	"step": 7040
	},
	{
	"epoch": 0.07884979952019058,
	"grad_norm": 0.2606031596660614,
	"learning_rate": 0.00036182557448946964,
	"loss": 0.9221,
	"step": 7050
	},
	{
	"epoch": 0.07896164320745326,
	"grad_norm": 0.45895281434059143,
	"learning_rate": 0.0003615971492530495,
	"loss": 0.908,
	"step": 7060
	},
	{
	"epoch": 0.07907348689471594,
	"grad_norm": 0.30524522066116333,
	"learning_rate": 0.00036136872401662935,
	"loss": 0.9234,
	"step": 7070
	},
	{
	"epoch": 0.07918533058197863,
	"grad_norm": 0.2704319953918457,
	"learning_rate": 0.00036114029878020926,
	"loss": 0.9003,
	"step": 7080
	},
	{
	"epoch": 0.07929717426924131,
	"grad_norm": 0.2770727872848511,
	"learning_rate": 0.0003609118735437891,
	"loss": 0.9253,
	"step": 7090
	},
	{
	"epoch": 0.07940901795650399,
	"grad_norm": 0.25288262963294983,
	"learning_rate": 0.00036068344830736897,
	"loss": 0.9089,
	"step": 7100
	},
	{
	"epoch": 0.07952086164376668,
	"grad_norm": 0.27105236053466797,
	"learning_rate": 0.0003604550230709489,
	"loss": 0.9138,
	"step": 7110
	},
	{
	"epoch": 0.07963270533102935,
	"grad_norm": 0.2631518840789795,
	"learning_rate": 0.0003602265978345288,
	"loss": 0.9226,
	"step": 7120
	},
	{
	"epoch": 0.07974454901829203,
	"grad_norm": 0.25269970297813416,
	"learning_rate": 0.00035999817259810865,
	"loss": 0.9102,
	"step": 7130
	},
	{
	"epoch": 0.07985639270555471,
	"grad_norm": 0.2576468586921692,
	"learning_rate": 0.00035976974736168856,
	"loss": 0.9075,
	"step": 7140
	},
	{
	"epoch": 0.0799682363928174,
	"grad_norm": 0.26297688484191895,
	"learning_rate": 0.0003595413221252684,
	"loss": 0.9004,
	"step": 7150
	},
	{
	"epoch": 0.08008008008008008,
	"grad_norm": 0.3029099702835083,
	"learning_rate": 0.00035931289688884827,
	"loss": 0.9165,
	"step": 7160
	},
	{
	"epoch": 0.08019192376734276,
	"grad_norm": 0.2699684798717499,
	"learning_rate": 0.0003590844716524282,
	"loss": 0.9232,
	"step": 7170
	},
	{
	"epoch": 0.08030376745460545,
	"grad_norm": 0.26480093598365784,
	"learning_rate": 0.00035885604641600804,
	"loss": 0.9319,
	"step": 7180
	},
	{
	"epoch": 0.08041561114186813,
	"grad_norm": 0.27503007650375366,
	"learning_rate": 0.0003586276211795879,
	"loss": 0.9398,
	"step": 7190
	},
	{
	"epoch": 0.0805274548291308,
	"grad_norm": 0.2715147137641907,
	"learning_rate": 0.00035839919594316785,
	"loss": 0.9307,
	"step": 7200
	},
	{
	"epoch": 0.08063929851639348,
	"grad_norm": 0.2697315812110901,
	"learning_rate": 0.0003581707707067477,
	"loss": 0.9342,
	"step": 7210
	},
	{
	"epoch": 0.08075114220365617,
	"grad_norm": 0.2833189070224762,
	"learning_rate": 0.00035794234547032757,
	"loss": 0.9604,
	"step": 7220
	},
	{
	"epoch": 0.08086298589091885,
	"grad_norm": 0.3069300353527069,
	"learning_rate": 0.0003577139202339075,
	"loss": 0.9397,
	"step": 7230
	},
	{
	"epoch": 0.08097482957818153,
	"grad_norm": 0.28459593653678894,
	"learning_rate": 0.00035748549499748733,
	"loss": 0.925,
	"step": 7240
	},
	{
	"epoch": 0.08108667326544422,
	"grad_norm": 0.28896769881248474,
	"learning_rate": 0.0003572570697610672,
	"loss": 0.9245,
	"step": 7250
	},
	{
	"epoch": 0.0811985169527069,
	"grad_norm": 0.2574586272239685,
	"learning_rate": 0.0003570286445246471,
	"loss": 0.9326,
	"step": 7260
	},
	{
	"epoch": 0.08131036063996958,
	"grad_norm": 0.2965002954006195,
	"learning_rate": 0.00035680021928822695,
	"loss": 0.9221,
	"step": 7270
	},
	{
	"epoch": 0.08142220432723227,
	"grad_norm": 0.2657724618911743,
	"learning_rate": 0.00035657179405180686,
	"loss": 0.9143,
	"step": 7280
	},
	{
	"epoch": 0.08153404801449494,
	"grad_norm": 0.2973329424858093,
	"learning_rate": 0.0003563433688153867,
	"loss": 0.9164,
	"step": 7290
	},
	{
	"epoch": 0.08164589170175762,
	"grad_norm": 0.3032989501953125,
	"learning_rate": 0.00035611494357896663,
	"loss": 0.9254,
	"step": 7300
	},
	{
	"epoch": 0.0817577353890203,
	"grad_norm": 0.28107839822769165,
	"learning_rate": 0.0003558865183425465,
	"loss": 0.9155,
	"step": 7310
	},
	{
	"epoch": 0.08186957907628299,
	"grad_norm": 0.30296218395233154,
	"learning_rate": 0.00035565809310612634,
	"loss": 0.9218,
	"step": 7320
	},
	{
	"epoch": 0.08198142276354567,
	"grad_norm": 0.28191155195236206,
	"learning_rate": 0.00035542966786970625,
	"loss": 0.9197,
	"step": 7330
	},
	{
	"epoch": 0.08209326645080835,
	"grad_norm": 0.3113023638725281,
	"learning_rate": 0.0003552012426332861,
	"loss": 0.9228,
	"step": 7340
	},
	{
	"epoch": 0.08220511013807104,
	"grad_norm": 0.3066212832927704,
	"learning_rate": 0.00035497281739686596,
	"loss": 0.9191,
	"step": 7350
	},
	{
	"epoch": 0.08231695382533372,
	"grad_norm": 0.2658233940601349,
	"learning_rate": 0.0003547443921604459,
	"loss": 0.918,
	"step": 7360
	},
	{
	"epoch": 0.0824287975125964,
	"grad_norm": 0.28222033381462097,
	"learning_rate": 0.0003545159669240258,
	"loss": 0.9253,
	"step": 7370
	},
	{
	"epoch": 0.08254064119985907,
	"grad_norm": 0.2917843461036682,
	"learning_rate": 0.00035428754168760564,
	"loss": 0.9059,
	"step": 7380
	},
	{
	"epoch": 0.08265248488712176,
	"grad_norm": 0.290404349565506,
	"learning_rate": 0.00035405911645118555,
	"loss": 0.9044,
	"step": 7390
	},
	{
	"epoch": 0.08276432857438444,
	"grad_norm": 0.28990834951400757,
	"learning_rate": 0.0003538306912147654,
	"loss": 0.9078,
	"step": 7400
	},
	{
	"epoch": 0.08287617226164712,
	"grad_norm": 0.27296292781829834,
	"learning_rate": 0.00035360226597834526,
	"loss": 0.9081,
	"step": 7410
	},
	{
	"epoch": 0.08298801594890981,
	"grad_norm": 0.25443321466445923,
	"learning_rate": 0.00035337384074192517,
	"loss": 0.9019,
	"step": 7420
	},
	{
	"epoch": 0.08309985963617249,
	"grad_norm": 0.25014832615852356,
	"learning_rate": 0.0003531454155055051,
	"loss": 0.8976,
	"step": 7430
	},
	{
	"epoch": 0.08321170332343517,
	"grad_norm": 0.2844237983226776,
	"learning_rate": 0.00035291699026908493,
	"loss": 0.9039,
	"step": 7440
	},
	{
	"epoch": 0.08332354701069784,
	"grad_norm": 0.26745542883872986,
	"learning_rate": 0.00035268856503266484,
	"loss": 0.8813,
	"step": 7450
	},
	{
	"epoch": 0.08343539069796053,
	"grad_norm": 0.30750566720962524,
	"learning_rate": 0.0003524601397962447,
	"loss": 0.8988,
	"step": 7460
	},
	{
	"epoch": 0.08354723438522321,
	"grad_norm": 0.2960536777973175,
	"learning_rate": 0.00035223171455982456,
	"loss": 0.8966,
	"step": 7470
	},
	{
	"epoch": 0.08365907807248589,
	"grad_norm": 0.28923213481903076,
	"learning_rate": 0.00035200328932340447,
	"loss": 0.8872,
	"step": 7480
	},
	{
	"epoch": 0.08377092175974858,
	"grad_norm": 0.2762465476989746,
	"learning_rate": 0.0003517748640869843,
	"loss": 0.8655,
	"step": 7490
	},
	{
	"epoch": 0.08388276544701126,
	"grad_norm": 0.2870965301990509,
	"learning_rate": 0.0003515464388505642,
	"loss": 0.889,
	"step": 7500
	},
	{
	"epoch": 0.08399460913427394,
	"grad_norm": 0.3135611116886139,
	"learning_rate": 0.00035131801361414414,
	"loss": 0.8898,
	"step": 7510
	},
	{
	"epoch": 0.08410645282153661,
	"grad_norm": 0.29541128873825073,
	"learning_rate": 0.000351089588377724,
	"loss": 0.8884,
	"step": 7520
	},
	{
	"epoch": 0.0842182965087993,
	"grad_norm": 0.2667001485824585,
	"learning_rate": 0.00035086116314130385,
	"loss": 0.8923,
	"step": 7530
	},
	{
	"epoch": 0.08433014019606198,
	"grad_norm": 0.28677645325660706,
	"learning_rate": 0.00035063273790488376,
	"loss": 0.8862,
	"step": 7540
	},
	{
	"epoch": 0.08444198388332466,
	"grad_norm": 0.26973757147789,
	"learning_rate": 0.0003504043126684636,
	"loss": 0.8739,
	"step": 7550
	},
	{
	"epoch": 0.08455382757058735,
	"grad_norm": 0.2670735716819763,
	"learning_rate": 0.0003501758874320435,
	"loss": 0.8843,
	"step": 7560
	},
	{
	"epoch": 0.08466567125785003,
	"grad_norm": 0.2678844928741455,
	"learning_rate": 0.0003499474621956234,
	"loss": 0.8855,
	"step": 7570
	},
	{
	"epoch": 0.08477751494511271,
	"grad_norm": 0.26894411444664,
	"learning_rate": 0.00034971903695920324,
	"loss": 0.8828,
	"step": 7580
	},
	{
	"epoch": 0.08488935863237539,
	"grad_norm": 0.28703927993774414,
	"learning_rate": 0.00034949061172278315,
	"loss": 0.885,
	"step": 7590
	},
	{
	"epoch": 0.08500120231963808,
	"grad_norm": 0.2618086636066437,
	"learning_rate": 0.00034926218648636306,
	"loss": 0.8777,
	"step": 7600
	},
	{
	"epoch": 0.08511304600690076,
	"grad_norm": 0.28816747665405273,
	"learning_rate": 0.0003490337612499429,
	"loss": 0.8836,
	"step": 7610
	},
	{
	"epoch": 0.08522488969416343,
	"grad_norm": 0.29172763228416443,
	"learning_rate": 0.00034880533601352277,
	"loss": 0.8835,
	"step": 7620
	},
	{
	"epoch": 0.08533673338142612,
	"grad_norm": 0.2613106667995453,
	"learning_rate": 0.0003485769107771027,
	"loss": 0.8736,
	"step": 7630
	},
	{
	"epoch": 0.0854485770686888,
	"grad_norm": 0.2737283408641815,
	"learning_rate": 0.00034834848554068254,
	"loss": 0.8589,
	"step": 7640
	},
	{
	"epoch": 0.08556042075595148,
	"grad_norm": 0.2709786295890808,
	"learning_rate": 0.0003481200603042624,
	"loss": 0.8675,
	"step": 7650
	},
	{
	"epoch": 0.08567226444321416,
	"grad_norm": 0.2982759177684784,
	"learning_rate": 0.0003478916350678423,
	"loss": 0.8827,
	"step": 7660
	},
	{
	"epoch": 0.08578410813047685,
	"grad_norm": 0.21551093459129333,
	"learning_rate": 0.0003476632098314222,
	"loss": 0.8663,
	"step": 7670
	},
	{
	"epoch": 0.08589595181773953,
	"grad_norm": 0.26418018341064453,
	"learning_rate": 0.00034743478459500207,
	"loss": 0.8845,
	"step": 7680
	},
	{
	"epoch": 0.0860077955050022,
	"grad_norm": 0.2310175597667694,
	"learning_rate": 0.000347206359358582,
	"loss": 0.8874,
	"step": 7690
	},
	{
	"epoch": 0.0861196391922649,
	"grad_norm": 0.25112512707710266,
	"learning_rate": 0.00034697793412216183,
	"loss": 0.8896,
	"step": 7700
	},
	{
	"epoch": 0.08623148287952757,
	"grad_norm": 0.33391082286834717,
	"learning_rate": 0.0003467495088857417,
	"loss": 0.8765,
	"step": 7710
	},
	{
	"epoch": 0.08634332656679025,
	"grad_norm": 0.24641484022140503,
	"learning_rate": 0.0003465210836493216,
	"loss": 0.8572,
	"step": 7720
	},
	{
	"epoch": 0.08645517025405293,
	"grad_norm": 0.26017534732818604,
	"learning_rate": 0.00034629265841290145,
	"loss": 0.8585,
	"step": 7730
	},
	{
	"epoch": 0.08656701394131562,
	"grad_norm": 0.23500847816467285,
	"learning_rate": 0.0003460642331764813,
	"loss": 0.8797,
	"step": 7740
	},
	{
	"epoch": 0.0866788576285783,
	"grad_norm": 0.25485488772392273,
	"learning_rate": 0.0003458358079400612,
	"loss": 0.8796,
	"step": 7750
	},
	{
	"epoch": 0.08679070131584098,
	"grad_norm": 0.27644404768943787,
	"learning_rate": 0.00034560738270364113,
	"loss": 0.8708,
	"step": 7760
	},
	{
	"epoch": 0.08690254500310367,
	"grad_norm": 0.233077734708786,
	"learning_rate": 0.000345378957467221,
	"loss": 0.8652,
	"step": 7770
	},
	{
	"epoch": 0.08701438869036635,
	"grad_norm": 0.24039144814014435,
	"learning_rate": 0.00034515053223080084,
	"loss": 0.8723,
	"step": 7780
	},
	{
	"epoch": 0.08712623237762902,
	"grad_norm": 0.23007874190807343,
	"learning_rate": 0.00034492210699438075,
	"loss": 0.8644,
	"step": 7790
	},
	{
	"epoch": 0.0872380760648917,
	"grad_norm": 0.27570798993110657,
	"learning_rate": 0.0003446936817579606,
	"loss": 0.872,
	"step": 7800
	},
	{
	"epoch": 0.08734991975215439,
	"grad_norm": 0.24157382547855377,
	"learning_rate": 0.00034446525652154046,
	"loss": 0.8846,
	"step": 7810
	},
	{
	"epoch": 0.08746176343941707,
	"grad_norm": 0.2703733742237091,
	"learning_rate": 0.0003442368312851204,
	"loss": 0.889,
	"step": 7820
	},
	{
	"epoch": 0.08757360712667975,
	"grad_norm": 0.26786255836486816,
	"learning_rate": 0.0003440084060487003,
	"loss": 0.8933,
	"step": 7830
	},
	{
	"epoch": 0.08768545081394244,
	"grad_norm": 0.2595812976360321,
	"learning_rate": 0.00034377998081228014,
	"loss": 0.9156,
	"step": 7840
	},
	{
	"epoch": 0.08779729450120512,
	"grad_norm": 0.24396800994873047,
	"learning_rate": 0.00034355155557586005,
	"loss": 0.8849,
	"step": 7850
	},
	{
	"epoch": 0.0879091381884678,
	"grad_norm": 0.24363452196121216,
	"learning_rate": 0.0003433231303394399,
	"loss": 0.9011,
	"step": 7860
	},
	{
	"epoch": 0.08802098187573047,
	"grad_norm": 0.2666647434234619,
	"learning_rate": 0.00034309470510301976,
	"loss": 0.8952,
	"step": 7870
	},
	{
	"epoch": 0.08813282556299316,
	"grad_norm": 0.267863005399704,
	"learning_rate": 0.00034286627986659967,
	"loss": 0.9113,
	"step": 7880
	},
	{
	"epoch": 0.08824466925025584,
	"grad_norm": 0.24397262930870056,
	"learning_rate": 0.0003426378546301795,
	"loss": 0.8762,
	"step": 7890
	},
	{
	"epoch": 0.08835651293751852,
	"grad_norm": 0.23912496864795685,
	"learning_rate": 0.00034240942939375943,
	"loss": 0.8865,
	"step": 7900
	},
	{
	"epoch": 0.08846835662478121,
	"grad_norm": 0.2737523913383484,
	"learning_rate": 0.00034218100415733934,
	"loss": 0.8732,
	"step": 7910
	},
	{
	"epoch": 0.08858020031204389,
	"grad_norm": 0.24978673458099365,
	"learning_rate": 0.0003419525789209192,
	"loss": 0.8832,
	"step": 7920
	},
	{
	"epoch": 0.08869204399930657,
	"grad_norm": 0.25200751423835754,
	"learning_rate": 0.00034172415368449906,
	"loss": 0.8952,
	"step": 7930
	},
	{
	"epoch": 0.08880388768656924,
	"grad_norm": 0.7863819003105164,
	"learning_rate": 0.00034149572844807897,
	"loss": 0.8708,
	"step": 7940
	},
	{
	"epoch": 0.08891573137383194,
	"grad_norm": 0.2560253441333771,
	"learning_rate": 0.0003412673032116588,
	"loss": 0.8681,
	"step": 7950
	},
	{
	"epoch": 0.08902757506109461,
	"grad_norm": 0.2669181823730469,
	"learning_rate": 0.0003410388779752387,
	"loss": 0.9007,
	"step": 7960
	},
	{
	"epoch": 0.08913941874835729,
	"grad_norm": 0.27906209230422974,
	"learning_rate": 0.0003408104527388186,
	"loss": 0.8988,
	"step": 7970
	},
	{
	"epoch": 0.08925126243561998,
	"grad_norm": 0.2506297826766968,
	"learning_rate": 0.0003405820275023985,
	"loss": 0.8997,
	"step": 7980
	},
	{
	"epoch": 0.08936310612288266,
	"grad_norm": 0.2513269782066345,
	"learning_rate": 0.00034035360226597835,
	"loss": 0.9215,
	"step": 7990
	},
	{
	"epoch": 0.08947494981014534,
	"grad_norm": 0.2672421634197235,
	"learning_rate": 0.00034012517702955826,
	"loss": 0.9112,
	"step": 8000
	},
	{
	"epoch": 0.08958679349740803,
	"grad_norm": 0.2553747296333313,
	"learning_rate": 0.0003398967517931381,
	"loss": 0.9255,
	"step": 8010
	},
	{
	"epoch": 0.08969863718467071,
	"grad_norm": 0.2325398176908493,
	"learning_rate": 0.000339668326556718,
	"loss": 0.9173,
	"step": 8020
	},
	{
	"epoch": 0.08981048087193338,
	"grad_norm": 0.23461295664310455,
	"learning_rate": 0.0003394399013202979,
	"loss": 0.9183,
	"step": 8030
	},
	{
	"epoch": 0.08992232455919606,
	"grad_norm": 0.26092031598091125,
	"learning_rate": 0.00033921147608387774,
	"loss": 0.9106,
	"step": 8040
	},
	{
	"epoch": 0.09003416824645875,
	"grad_norm": 0.26250872015953064,
	"learning_rate": 0.0003389830508474576,
	"loss": 0.8893,
	"step": 8050
	},
	{
	"epoch": 0.09014601193372143,
	"grad_norm": 0.2501981556415558,
	"learning_rate": 0.00033875462561103756,
	"loss": 0.8934,
	"step": 8060
	},
	{
	"epoch": 0.09025785562098411,
	"grad_norm": 0.26185476779937744,
	"learning_rate": 0.0003385262003746174,
	"loss": 0.8855,
	"step": 8070
	},
	{
	"epoch": 0.0903696993082468,
	"grad_norm": 0.26889827847480774,
	"learning_rate": 0.00033829777513819727,
	"loss": 0.8944,
	"step": 8080
	},
	{
	"epoch": 0.09048154299550948,
	"grad_norm": 0.2473451793193817,
	"learning_rate": 0.0003380693499017772,
	"loss": 0.8937,
	"step": 8090
	},
	{
	"epoch": 0.09059338668277216,
	"grad_norm": 0.24157559871673584,
	"learning_rate": 0.00033784092466535704,
	"loss": 0.8903,
	"step": 8100
	},
	{
	"epoch": 0.09070523037003483,
	"grad_norm": 0.2701563239097595,
	"learning_rate": 0.0003376124994289369,
	"loss": 0.9109,
	"step": 8110
	},
	{
	"epoch": 0.09081707405729753,
	"grad_norm": 0.28706929087638855,
	"learning_rate": 0.0003373840741925168,
	"loss": 0.8956,
	"step": 8120
	},
	{
	"epoch": 0.0909289177445602,
	"grad_norm": 0.27120909094810486,
	"learning_rate": 0.00033715564895609666,
	"loss": 0.8947,
	"step": 8130
	},
	{
	"epoch": 0.09104076143182288,
	"grad_norm": 0.2504216432571411,
	"learning_rate": 0.00033692722371967657,
	"loss": 0.8814,
	"step": 8140
	},
	{
	"epoch": 0.09115260511908557,
	"grad_norm": 0.2921849489212036,
	"learning_rate": 0.0003366987984832565,
	"loss": 0.8856,
	"step": 8150
	},
	{
	"epoch": 0.09126444880634825,
	"grad_norm": 0.2587922513484955,
	"learning_rate": 0.00033647037324683633,
	"loss": 0.8778,
	"step": 8160
	},
	{
	"epoch": 0.09137629249361093,
	"grad_norm": 0.2399989813566208,
	"learning_rate": 0.0003362419480104162,
	"loss": 0.883,
	"step": 8170
	},
	{
	"epoch": 0.0914881361808736,
	"grad_norm": 0.24794407188892365,
	"learning_rate": 0.0003360135227739961,
	"loss": 0.8935,
	"step": 8180
	},
	{
	"epoch": 0.0915999798681363,
	"grad_norm": 0.26669082045555115,
	"learning_rate": 0.00033578509753757595,
	"loss": 0.863,
	"step": 8190
	},
	{
	"epoch": 0.09171182355539897,
	"grad_norm": 0.25162795186042786,
	"learning_rate": 0.0003355566723011558,
	"loss": 0.8887,
	"step": 8200
	},
	{
	"epoch": 0.09182366724266165,
	"grad_norm": 0.28969621658325195,
	"learning_rate": 0.00033532824706473567,
	"loss": 0.9066,
	"step": 8210
	},
	{
	"epoch": 0.09193551092992434,
	"grad_norm": 0.25944870710372925,
	"learning_rate": 0.00033509982182831563,
	"loss": 0.8875,
	"step": 8220
	},
	{
	"epoch": 0.09204735461718702,
	"grad_norm": 0.27627986669540405,
	"learning_rate": 0.0003348713965918955,
	"loss": 0.8895,
	"step": 8230
	},
	{
	"epoch": 0.0921591983044497,
	"grad_norm": 0.2673914134502411,
	"learning_rate": 0.00033464297135547534,
	"loss": 0.8937,
	"step": 8240
	},
	{
	"epoch": 0.09227104199171238,
	"grad_norm": 0.2810732126235962,
	"learning_rate": 0.00033441454611905525,
	"loss": 0.9007,
	"step": 8250
	},
	{
	"epoch": 0.09238288567897507,
	"grad_norm": 0.2671091556549072,
	"learning_rate": 0.0003341861208826351,
	"loss": 0.905,
	"step": 8260
	},
	{
	"epoch": 0.09249472936623775,
	"grad_norm": 0.25006943941116333,
	"learning_rate": 0.00033395769564621496,
	"loss": 0.8981,
	"step": 8270
	},
	{
	"epoch": 0.09260657305350042,
	"grad_norm": 0.2891542613506317,
	"learning_rate": 0.0003337292704097949,
	"loss": 0.8978,
	"step": 8280
	},
	{
	"epoch": 0.09271841674076312,
	"grad_norm": 0.29497236013412476,
	"learning_rate": 0.0003335008451733748,
	"loss": 0.9044,
	"step": 8290
	},
	{
	"epoch": 0.0928302604280258,
	"grad_norm": 0.29290974140167236,
	"learning_rate": 0.00033327241993695464,
	"loss": 0.9081,
	"step": 8300
	},
	{
	"epoch": 0.09294210411528847,
	"grad_norm": 0.27077415585517883,
	"learning_rate": 0.00033304399470053455,
	"loss": 0.9184,
	"step": 8310
	},
	{
	"epoch": 0.09305394780255115,
	"grad_norm": 0.26410186290740967,
	"learning_rate": 0.0003328155694641144,
	"loss": 0.8912,
	"step": 8320
	},
	{
	"epoch": 0.09316579148981384,
	"grad_norm": 0.2818413972854614,
	"learning_rate": 0.00033258714422769426,
	"loss": 0.9096,
	"step": 8330
	},
	{
	"epoch": 0.09327763517707652,
	"grad_norm": 0.265286386013031,
	"learning_rate": 0.00033235871899127417,
	"loss": 0.9192,
	"step": 8340
	},
	{
	"epoch": 0.0933894788643392,
	"grad_norm": 0.2714836597442627,
	"learning_rate": 0.000332130293754854,
	"loss": 0.9122,
	"step": 8350
	},
	{
	"epoch": 0.09350132255160189,
	"grad_norm": 0.2858263850212097,
	"learning_rate": 0.0003319018685184339,
	"loss": 0.9143,
	"step": 8360
	},
	{
	"epoch": 0.09361316623886456,
	"grad_norm": 0.27788257598876953,
	"learning_rate": 0.00033167344328201385,
	"loss": 0.9116,
	"step": 8370
	},
	{
	"epoch": 0.09372500992612724,
	"grad_norm": 0.27748674154281616,
	"learning_rate": 0.0003314450180455937,
	"loss": 0.8934,
	"step": 8380
	},
	{
	"epoch": 0.09383685361338992,
	"grad_norm": 0.4757048785686493,
	"learning_rate": 0.00033121659280917356,
	"loss": 0.9097,
	"step": 8390
	},
	{
	"epoch": 0.09394869730065261,
	"grad_norm": 0.3016970157623291,
	"learning_rate": 0.00033098816757275347,
	"loss": 0.8973,
	"step": 8400
	},
	{
	"epoch": 0.09406054098791529,
	"grad_norm": 0.2640211880207062,
	"learning_rate": 0.0003307597423363333,
	"loss": 0.8914,
	"step": 8410
	},
	{
	"epoch": 0.09417238467517797,
	"grad_norm": 0.2608022391796112,
	"learning_rate": 0.0003305313170999132,
	"loss": 0.9138,
	"step": 8420
	},
	{
	"epoch": 0.09428422836244066,
	"grad_norm": 0.23691967129707336,
	"learning_rate": 0.0003303028918634931,
	"loss": 0.9149,
	"step": 8430
	},
	{
	"epoch": 0.09439607204970334,
	"grad_norm": 0.28734761476516724,
	"learning_rate": 0.00033007446662707294,
	"loss": 0.9056,
	"step": 8440
	},
	{
	"epoch": 0.09450791573696601,
	"grad_norm": 0.2846873700618744,
	"learning_rate": 0.00032984604139065285,
	"loss": 0.9052,
	"step": 8450
	},
	{
	"epoch": 0.09461975942422869,
	"grad_norm": 0.2613682448863983,
	"learning_rate": 0.00032961761615423276,
	"loss": 0.9129,
	"step": 8460
	},
	{
	"epoch": 0.09473160311149138,
	"grad_norm": 0.25336501002311707,
	"learning_rate": 0.0003293891909178126,
	"loss": 0.9048,
	"step": 8470
	},
	{
	"epoch": 0.09484344679875406,
	"grad_norm": 0.2662324905395508,
	"learning_rate": 0.0003291607656813925,
	"loss": 0.9181,
	"step": 8480
	},
	{
	"epoch": 0.09495529048601674,
	"grad_norm": 0.2482605278491974,
	"learning_rate": 0.0003289323404449724,
	"loss": 0.8978,
	"step": 8490
	},
	{
	"epoch": 0.09506713417327943,
	"grad_norm": 0.24181032180786133,
	"learning_rate": 0.00032870391520855224,
	"loss": 0.9121,
	"step": 8500
	},
	{
	"epoch": 0.09517897786054211,
	"grad_norm": 0.276621013879776,
	"learning_rate": 0.0003284754899721321,
	"loss": 0.9106,
	"step": 8510
	},
	{
	"epoch": 0.09529082154780479,
	"grad_norm": 0.2788410186767578,
	"learning_rate": 0.000328247064735712,
	"loss": 0.9062,
	"step": 8520
	},
	{
	"epoch": 0.09540266523506746,
	"grad_norm": 0.28387385606765747,
	"learning_rate": 0.0003280186394992919,
	"loss": 0.9309,
	"step": 8530
	},
	{
	"epoch": 0.09551450892233015,
	"grad_norm": 0.2923261523246765,
	"learning_rate": 0.00032779021426287177,
	"loss": 0.9278,
	"step": 8540
	},
	{
	"epoch": 0.09562635260959283,
	"grad_norm": 0.3008005917072296,
	"learning_rate": 0.0003275617890264517,
	"loss": 0.9196,
	"step": 8550
	},
	{
	"epoch": 0.09573819629685551,
	"grad_norm": 0.2849402129650116,
	"learning_rate": 0.00032733336379003154,
	"loss": 0.9243,
	"step": 8560
	},
	{
	"epoch": 0.0958500399841182,
	"grad_norm": 0.262134313583374,
	"learning_rate": 0.0003271049385536114,
	"loss": 0.9346,
	"step": 8570
	},
	{
	"epoch": 0.09596188367138088,
	"grad_norm": 0.2891925573348999,
	"learning_rate": 0.0003268765133171913,
	"loss": 0.9176,
	"step": 8580
	},
	{
	"epoch": 0.09607372735864356,
	"grad_norm": 0.26165837049484253,
	"learning_rate": 0.00032664808808077116,
	"loss": 0.9229,
	"step": 8590
	},
	{
	"epoch": 0.09618557104590623,
	"grad_norm": 0.2683985233306885,
	"learning_rate": 0.000326419662844351,
	"loss": 0.9067,
	"step": 8600
	},
	{
	"epoch": 0.09629741473316893,
	"grad_norm": 0.25300973653793335,
	"learning_rate": 0.000326191237607931,
	"loss": 0.9037,
	"step": 8610
	},
	{
	"epoch": 0.0964092584204316,
	"grad_norm": 0.30520153045654297,
	"learning_rate": 0.00032596281237151083,
	"loss": 0.9038,
	"step": 8620
	},
	{
	"epoch": 0.09652110210769428,
	"grad_norm": 0.2573854327201843,
	"learning_rate": 0.0003257343871350907,
	"loss": 0.9062,
	"step": 8630
	},
	{
	"epoch": 0.09663294579495697,
	"grad_norm": 0.2664088308811188,
	"learning_rate": 0.0003255059618986706,
	"loss": 0.8864,
	"step": 8640
	},
	{
	"epoch": 0.09674478948221965,
	"grad_norm": 0.26375049352645874,
	"learning_rate": 0.00032527753666225046,
	"loss": 0.8804,
	"step": 8650
	},
	{
	"epoch": 0.09685663316948233,
	"grad_norm": 0.25367647409439087,
	"learning_rate": 0.0003250491114258303,
	"loss": 0.8987,
	"step": 8660
	},
	{
	"epoch": 0.09696847685674502,
	"grad_norm": 0.2764420807361603,
	"learning_rate": 0.00032482068618941017,
	"loss": 0.9078,
	"step": 8670
	},
	{
	"epoch": 0.0970803205440077,
	"grad_norm": 0.2663860023021698,
	"learning_rate": 0.0003245922609529901,
	"loss": 0.8838,
	"step": 8680
	},
	{
	"epoch": 0.09719216423127038,
	"grad_norm": 0.25380998849868774,
	"learning_rate": 0.00032436383571657,
	"loss": 0.8949,
	"step": 8690
	},
	{
	"epoch": 0.09730400791853305,
	"grad_norm": 0.29428210854530334,
	"learning_rate": 0.00032413541048014984,
	"loss": 0.883,
	"step": 8700
	},
	{
	"epoch": 0.09741585160579574,
	"grad_norm": 0.25604331493377686,
	"learning_rate": 0.00032390698524372975,
	"loss": 0.8891,
	"step": 8710
	},
	{
	"epoch": 0.09752769529305842,
	"grad_norm": 0.26663005352020264,
	"learning_rate": 0.0003236785600073096,
	"loss": 0.8763,
	"step": 8720
	},
	{
	"epoch": 0.0976395389803211,
	"grad_norm": 0.27305158972740173,
	"learning_rate": 0.00032345013477088946,
	"loss": 0.8877,
	"step": 8730
	},
	{
	"epoch": 0.09775138266758379,
	"grad_norm": 0.27395525574684143,
	"learning_rate": 0.0003232217095344694,
	"loss": 0.871,
	"step": 8740
	},
	{
	"epoch": 0.09786322635484647,
	"grad_norm": 0.26152902841567993,
	"learning_rate": 0.00032299328429804923,
	"loss": 0.8714,
	"step": 8750
	},
	{
	"epoch": 0.09797507004210915,
	"grad_norm": 0.2872631847858429,
	"learning_rate": 0.0003227648590616291,
	"loss": 0.8754,
	"step": 8760
	},
	{
	"epoch": 0.09808691372937182,
	"grad_norm": 0.2681150436401367,
	"learning_rate": 0.00032253643382520905,
	"loss": 0.8699,
	"step": 8770
	},
	{
	"epoch": 0.09819875741663452,
	"grad_norm": 0.27205002307891846,
	"learning_rate": 0.0003223080085887889,
	"loss": 0.8743,
	"step": 8780
	},
	{
	"epoch": 0.0983106011038972,
	"grad_norm": 0.27747979760169983,
	"learning_rate": 0.00032207958335236876,
	"loss": 0.8607,
	"step": 8790
	},
	{
	"epoch": 0.09842244479115987,
	"grad_norm": 0.2963927984237671,
	"learning_rate": 0.00032185115811594867,
	"loss": 0.8676,
	"step": 8800
	},
	{
	"epoch": 0.09853428847842256,
	"grad_norm": 0.26414602994918823,
	"learning_rate": 0.0003216227328795285,
	"loss": 0.8556,
	"step": 8810
	},
	{
	"epoch": 0.09864613216568524,
	"grad_norm": 0.3005480170249939,
	"learning_rate": 0.0003213943076431084,
	"loss": 0.8816,
	"step": 8820
	},
	{
	"epoch": 0.09875797585294792,
	"grad_norm": 0.29625314474105835,
	"learning_rate": 0.0003211658824066883,
	"loss": 0.8747,
	"step": 8830
	},
	{
	"epoch": 0.0988698195402106,
	"grad_norm": 0.2900589108467102,
	"learning_rate": 0.0003209374571702682,
	"loss": 0.8697,
	"step": 8840
	},
	{
	"epoch": 0.09898166322747329,
	"grad_norm": 0.2951551675796509,
	"learning_rate": 0.00032070903193384806,
	"loss": 0.8756,
	"step": 8850
	},
	{
	"epoch": 0.09909350691473597,
	"grad_norm": 0.3049459159374237,
	"learning_rate": 0.00032048060669742797,
	"loss": 0.8767,
	"step": 8860
	},
	{
	"epoch": 0.09920535060199864,
	"grad_norm": 0.30216872692108154,
	"learning_rate": 0.0003202521814610078,
	"loss": 0.8687,
	"step": 8870
	},
	{
	"epoch": 0.09931719428926133,
	"grad_norm": 0.2913934290409088,
	"learning_rate": 0.0003200237562245877,
	"loss": 0.8616,
	"step": 8880
	},
	{
	"epoch": 0.09942903797652401,
	"grad_norm": 0.26879578828811646,
	"learning_rate": 0.0003197953309881676,
	"loss": 0.8681,
	"step": 8890
	},
	{
	"epoch": 0.09954088166378669,
	"grad_norm": 0.28092971444129944,
	"learning_rate": 0.00031956690575174744,
	"loss": 0.8765,
	"step": 8900
	},
	{
	"epoch": 0.09965272535104937,
	"grad_norm": 0.3074035048484802,
	"learning_rate": 0.0003193384805153273,
	"loss": 0.881,
	"step": 8910
	},
	{
	"epoch": 0.09976456903831206,
	"grad_norm": 0.2945140600204468,
	"learning_rate": 0.00031911005527890726,
	"loss": 0.8913,
	"step": 8920
	},
	{
	"epoch": 0.09987641272557474,
	"grad_norm": 0.2707176208496094,
	"learning_rate": 0.0003188816300424871,
	"loss": 0.8822,
	"step": 8930
	},
	{
	"epoch": 0.09998825641283741,
	"grad_norm": 0.2639947235584259,
	"learning_rate": 0.000318653204806067,
	"loss": 0.8892,
	"step": 8940
	},
	{
	"epoch": 0.1001001001001001,
	"grad_norm": 0.2709505558013916,
	"learning_rate": 0.0003184247795696469,
	"loss": 0.8654,
	"step": 8950
	},
	{
	"epoch": 0.10021194378736278,
	"grad_norm": 0.27803289890289307,
	"learning_rate": 0.00031819635433322674,
	"loss": 0.8887,
	"step": 8960
	},
	{
	"epoch": 0.10032378747462546,
	"grad_norm": 0.25851163268089294,
	"learning_rate": 0.0003179679290968066,
	"loss": 0.8662,
	"step": 8970
	},
	{
	"epoch": 0.10043563116188814,
	"grad_norm": 0.261068731546402,
	"learning_rate": 0.0003177395038603865,
	"loss": 0.8641,
	"step": 8980
	},
	{
	"epoch": 0.10054747484915083,
	"grad_norm": 0.25510483980178833,
	"learning_rate": 0.00031751107862396636,
	"loss": 0.8762,
	"step": 8990
	},
	{
	"epoch": 0.10065931853641351,
	"grad_norm": 0.25765854120254517,
	"learning_rate": 0.00031728265338754627,
	"loss": 0.8837,
	"step": 9000
	},
	{
	"epoch": 0.10077116222367619,
	"grad_norm": 0.24198535084724426,
	"learning_rate": 0.0003170542281511262,
	"loss": 0.8791,
	"step": 9010
	},
	{
	"epoch": 0.10088300591093888,
	"grad_norm": 0.2673517167568207,
	"learning_rate": 0.00031682580291470604,
	"loss": 0.8795,
	"step": 9020
	},
	{
	"epoch": 0.10099484959820156,
	"grad_norm": 0.26392221450805664,
	"learning_rate": 0.0003165973776782859,
	"loss": 0.8788,
	"step": 9030
	},
	{
	"epoch": 0.10110669328546423,
	"grad_norm": 0.2698739171028137,
	"learning_rate": 0.0003163689524418658,
	"loss": 0.8959,
	"step": 9040
	},
	{
	"epoch": 0.10121853697272691,
	"grad_norm": 0.2800233066082001,
	"learning_rate": 0.00031614052720544566,
	"loss": 0.8945,
	"step": 9050
	},
	{
	"epoch": 0.1013303806599896,
	"grad_norm": 0.29603493213653564,
	"learning_rate": 0.0003159121019690255,
	"loss": 0.892,
	"step": 9060
	},
	{
	"epoch": 0.10144222434725228,
	"grad_norm": 0.26462167501449585,
	"learning_rate": 0.0003156836767326054,
	"loss": 0.8849,
	"step": 9070
	},
	{
	"epoch": 0.10155406803451496,
	"grad_norm": 0.27941739559173584,
	"learning_rate": 0.00031545525149618534,
	"loss": 0.8782,
	"step": 9080
	},
	{
	"epoch": 0.10166591172177765,
	"grad_norm": 0.2777186334133148,
	"learning_rate": 0.0003152268262597652,
	"loss": 0.8787,
	"step": 9090
	},
	{
	"epoch": 0.10177775540904033,
	"grad_norm": 0.25893428921699524,
	"learning_rate": 0.00031499840102334505,
	"loss": 0.8629,
	"step": 9100
	},
	{
	"epoch": 0.101889599096303,
	"grad_norm": 0.27407601475715637,
	"learning_rate": 0.00031476997578692496,
	"loss": 0.8619,
	"step": 9110
	},
	{
	"epoch": 0.10200144278356568,
	"grad_norm": 0.2663459777832031,
	"learning_rate": 0.0003145415505505048,
	"loss": 0.8474,
	"step": 9120
	},
	{
	"epoch": 0.10211328647082837,
	"grad_norm": 0.2621177136898041,
	"learning_rate": 0.00031431312531408467,
	"loss": 0.8565,
	"step": 9130
	},
	{
	"epoch": 0.10222513015809105,
	"grad_norm": 0.26687386631965637,
	"learning_rate": 0.0003140847000776646,
	"loss": 0.8438,
	"step": 9140
	},
	{
	"epoch": 0.10233697384535373,
	"grad_norm": 0.24772432446479797,
	"learning_rate": 0.00031385627484124443,
	"loss": 0.8511,
	"step": 9150
	},
	{
	"epoch": 0.10244881753261642,
	"grad_norm": 0.278730183839798,
	"learning_rate": 0.00031362784960482434,
	"loss": 0.8499,
	"step": 9160
	},
	{
	"epoch": 0.1025606612198791,
	"grad_norm": 0.28657999634742737,
	"learning_rate": 0.00031339942436840425,
	"loss": 0.85,
	"step": 9170
	},
	{
	"epoch": 0.10267250490714178,
	"grad_norm": 0.2848927676677704,
	"learning_rate": 0.0003131709991319841,
	"loss": 0.8411,
	"step": 9180
	},
	{
	"epoch": 0.10278434859440445,
	"grad_norm": 0.28381872177124023,
	"learning_rate": 0.00031294257389556396,
	"loss": 0.8508,
	"step": 9190
	},
	{
	"epoch": 0.10289619228166715,
	"grad_norm": 0.26624616980552673,
	"learning_rate": 0.0003127141486591439,
	"loss": 0.8658,
	"step": 9200
	},
	{
	"epoch": 0.10300803596892982,
	"grad_norm": 0.2605401277542114,
	"learning_rate": 0.00031248572342272373,
	"loss": 0.8602,
	"step": 9210
	},
	{
	"epoch": 0.1031198796561925,
	"grad_norm": 0.2819276750087738,
	"learning_rate": 0.0003122572981863036,
	"loss": 0.8614,
	"step": 9220
	},
	{
	"epoch": 0.10323172334345519,
	"grad_norm": 0.27677878737449646,
	"learning_rate": 0.00031202887294988355,
	"loss": 0.8556,
	"step": 9230
	},
	{
	"epoch": 0.10334356703071787,
	"grad_norm": 0.25589799880981445,
	"learning_rate": 0.0003118004477134634,
	"loss": 0.8704,
	"step": 9240
	},
	{
	"epoch": 0.10345541071798055,
	"grad_norm": 0.2731853425502777,
	"learning_rate": 0.00031157202247704326,
	"loss": 0.8428,
	"step": 9250
	},
	{
	"epoch": 0.10356725440524323,
	"grad_norm": 0.3047199547290802,
	"learning_rate": 0.00031134359724062317,
	"loss": 0.8508,
	"step": 9260
	},
	{
	"epoch": 0.10367909809250592,
	"grad_norm": 0.28696686029434204,
	"learning_rate": 0.00031111517200420303,
	"loss": 0.8571,
	"step": 9270
	},
	{
	"epoch": 0.1037909417797686,
	"grad_norm": 0.23354049026966095,
	"learning_rate": 0.0003108867467677829,
	"loss": 0.8518,
	"step": 9280
	},
	{
	"epoch": 0.10390278546703127,
	"grad_norm": 0.27123787999153137,
	"learning_rate": 0.0003106583215313628,
	"loss": 0.8621,
	"step": 9290
	},
	{
	"epoch": 0.10401462915429396,
	"grad_norm": 0.2509523332118988,
	"learning_rate": 0.00031042989629494265,
	"loss": 0.8568,
	"step": 9300
	},
	{
	"epoch": 0.10412647284155664,
	"grad_norm": 0.2359481155872345,
	"learning_rate": 0.00031020147105852256,
	"loss": 0.8598,
	"step": 9310
	},
	{
	"epoch": 0.10423831652881932,
	"grad_norm": 0.27097463607788086,
	"learning_rate": 0.00030997304582210247,
	"loss": 0.8615,
	"step": 9320
	},
	{
	"epoch": 0.104350160216082,
	"grad_norm": 0.2616114020347595,
	"learning_rate": 0.0003097446205856823,
	"loss": 0.8462,
	"step": 9330
	},
	{
	"epoch": 0.10446200390334469,
	"grad_norm": 0.30027398467063904,
	"learning_rate": 0.0003095161953492622,
	"loss": 0.8683,
	"step": 9340
	},
	{
	"epoch": 0.10457384759060737,
	"grad_norm": 0.28468623757362366,
	"learning_rate": 0.0003092877701128421,
	"loss": 0.856,
	"step": 9350
	},
	{
	"epoch": 0.10468569127787004,
	"grad_norm": 0.318521112203598,
	"learning_rate": 0.00030905934487642195,
	"loss": 0.8532,
	"step": 9360
	},
	{
	"epoch": 0.10479753496513274,
	"grad_norm": 0.3118298351764679,
	"learning_rate": 0.0003088309196400018,
	"loss": 0.8546,
	"step": 9370
	},
	{
	"epoch": 0.10490937865239541,
	"grad_norm": 0.28549399971961975,
	"learning_rate": 0.0003086024944035817,
	"loss": 0.8718,
	"step": 9380
	},
	{
	"epoch": 0.10502122233965809,
	"grad_norm": 0.24803526699543,
	"learning_rate": 0.0003083740691671616,
	"loss": 0.8489,
	"step": 9390
	},
	{
	"epoch": 0.10513306602692078,
	"grad_norm": 0.26765918731689453,
	"learning_rate": 0.0003081456439307415,
	"loss": 0.8617,
	"step": 9400
	},
	{
	"epoch": 0.10524490971418346,
	"grad_norm": 0.26363757252693176,
	"learning_rate": 0.0003079172186943214,
	"loss": 0.8648,
	"step": 9410
	},
	{
	"epoch": 0.10535675340144614,
	"grad_norm": 0.2734963595867157,
	"learning_rate": 0.00030768879345790124,
	"loss": 0.8556,
	"step": 9420
	},
	{
	"epoch": 0.10546859708870882,
	"grad_norm": 0.2773530185222626,
	"learning_rate": 0.0003074603682214811,
	"loss": 0.8737,
	"step": 9430
	},
	{
	"epoch": 0.1055804407759715,
	"grad_norm": 0.2684498429298401,
	"learning_rate": 0.000307231942985061,
	"loss": 0.8657,
	"step": 9440
	},
	{
	"epoch": 0.10569228446323418,
	"grad_norm": 0.26110732555389404,
	"learning_rate": 0.00030700351774864086,
	"loss": 0.8618,
	"step": 9450
	},
	{
	"epoch": 0.10580412815049686,
	"grad_norm": 0.27595090866088867,
	"learning_rate": 0.0003067750925122207,
	"loss": 0.8654,
	"step": 9460
	},
	{
	"epoch": 0.10591597183775955,
	"grad_norm": 0.2799736559391022,
	"learning_rate": 0.0003065466672758007,
	"loss": 0.8583,
	"step": 9470
	},
	{
	"epoch": 0.10602781552502223,
	"grad_norm": 0.2729387879371643,
	"learning_rate": 0.00030631824203938054,
	"loss": 0.8628,
	"step": 9480
	},
	{
	"epoch": 0.10613965921228491,
	"grad_norm": 0.30332332849502563,
	"learning_rate": 0.0003060898168029604,
	"loss": 0.8512,
	"step": 9490
	},
	{
	"epoch": 0.10625150289954759,
	"grad_norm": 0.276753306388855,
	"learning_rate": 0.0003058613915665403,
	"loss": 0.85,
	"step": 9500
	},
	{
	"epoch": 0.10636334658681028,
	"grad_norm": 0.3190478980541229,
	"learning_rate": 0.00030563296633012016,
	"loss": 0.8534,
	"step": 9510
	},
	{
	"epoch": 0.10647519027407296,
	"grad_norm": 0.2926968038082123,
	"learning_rate": 0.0003054045410937,
	"loss": 0.8309,
	"step": 9520
	},
	{
	"epoch": 0.10658703396133563,
	"grad_norm": 0.29631507396698,
	"learning_rate": 0.0003051761158572799,
	"loss": 0.8406,
	"step": 9530
	},
	{
	"epoch": 0.10669887764859833,
	"grad_norm": 0.2881840765476227,
	"learning_rate": 0.0003049476906208598,
	"loss": 0.8274,
	"step": 9540
	},
	{
	"epoch": 0.106810721335861,
	"grad_norm": 0.2623940408229828,
	"learning_rate": 0.0003047192653844397,
	"loss": 0.8346,
	"step": 9550
	},
	{
	"epoch": 0.10692256502312368,
	"grad_norm": 0.29798468947410583,
	"learning_rate": 0.00030449084014801955,
	"loss": 0.8362,
	"step": 9560
	},
	{
	"epoch": 0.10703440871038636,
	"grad_norm": 0.2976382076740265,
	"learning_rate": 0.00030426241491159946,
	"loss": 0.8179,
	"step": 9570
	},
	{
	"epoch": 0.10714625239764905,
	"grad_norm": 0.28637486696243286,
	"learning_rate": 0.0003040339896751793,
	"loss": 0.8363,
	"step": 9580
	},
	{
	"epoch": 0.10725809608491173,
	"grad_norm": 0.3023325204849243,
	"learning_rate": 0.00030380556443875917,
	"loss": 0.8382,
	"step": 9590
	},
	{
	"epoch": 0.1073699397721744,
	"grad_norm": 0.2889160215854645,
	"learning_rate": 0.0003035771392023391,
	"loss": 0.8476,
	"step": 9600
	},
	{
	"epoch": 0.1074817834594371,
	"grad_norm": 0.2868768572807312,
	"learning_rate": 0.00030334871396591893,
	"loss": 0.8482,
	"step": 9610
	},
	{
	"epoch": 0.10759362714669977,
	"grad_norm": 0.2773813307285309,
	"learning_rate": 0.0003031202887294988,
	"loss": 0.8577,
	"step": 9620
	},
	{
	"epoch": 0.10770547083396245,
	"grad_norm": 0.28698423504829407,
	"learning_rate": 0.00030289186349307875,
	"loss": 0.8663,
	"step": 9630
	},
	{
	"epoch": 0.10781731452122513,
	"grad_norm": 0.26839759945869446,
	"learning_rate": 0.0003026634382566586,
	"loss": 0.8649,
	"step": 9640
	},
	{
	"epoch": 0.10792915820848782,
	"grad_norm": 0.2686857283115387,
	"learning_rate": 0.00030243501302023847,
	"loss": 0.8563,
	"step": 9650
	},
	{
	"epoch": 0.1080410018957505,
	"grad_norm": 0.2815250754356384,
	"learning_rate": 0.0003022065877838184,
	"loss": 0.8538,
	"step": 9660
	},
	{
	"epoch": 0.10815284558301318,
	"grad_norm": 0.24625800549983978,
	"learning_rate": 0.00030197816254739823,
	"loss": 0.87,
	"step": 9670
	},
	{
	"epoch": 0.10826468927027587,
	"grad_norm": 0.27051877975463867,
	"learning_rate": 0.0003017497373109781,
	"loss": 0.8692,
	"step": 9680
	},
	{
	"epoch": 0.10837653295753855,
	"grad_norm": 0.253892183303833,
	"learning_rate": 0.000301521312074558,
	"loss": 0.8583,
	"step": 9690
	},
	{
	"epoch": 0.10848837664480122,
	"grad_norm": 0.26951879262924194,
	"learning_rate": 0.0003012928868381379,
	"loss": 0.8699,
	"step": 9700
	},
	{
	"epoch": 0.1086002203320639,
	"grad_norm": 0.27741488814353943,
	"learning_rate": 0.00030106446160171776,
	"loss": 0.8673,
	"step": 9710
	},
	{
	"epoch": 0.10871206401932659,
	"grad_norm": 0.2655075788497925,
	"learning_rate": 0.00030083603636529767,
	"loss": 0.8628,
	"step": 9720
	},
	{
	"epoch": 0.10882390770658927,
	"grad_norm": 0.298532098531723,
	"learning_rate": 0.00030060761112887753,
	"loss": 0.8707,
	"step": 9730
	},
	{
	"epoch": 0.10893575139385195,
	"grad_norm": 0.3105684816837311,
	"learning_rate": 0.0003003791858924574,
	"loss": 0.8661,
	"step": 9740
	},
	{
	"epoch": 0.10904759508111464,
	"grad_norm": 0.27781355381011963,
	"learning_rate": 0.0003001507606560373,
	"loss": 0.8871,
	"step": 9750
	},
	{
	"epoch": 0.10915943876837732,
	"grad_norm": 0.2966761589050293,
	"learning_rate": 0.00029992233541961715,
	"loss": 0.875,
	"step": 9760
	},
	{
	"epoch": 0.10927128245564,
	"grad_norm": 0.3010736405849457,
	"learning_rate": 0.000299693910183197,
	"loss": 0.8746,
	"step": 9770
	},
	{
	"epoch": 0.10938312614290267,
	"grad_norm": 0.31352171301841736,
	"learning_rate": 0.00029946548494677697,
	"loss": 0.8733,
	"step": 9780
	},
	{
	"epoch": 0.10949496983016536,
	"grad_norm": 0.30627313256263733,
	"learning_rate": 0.0002992370597103568,
	"loss": 0.8675,
	"step": 9790
	},
	{
	"epoch": 0.10960681351742804,
	"grad_norm": 0.23990577459335327,
	"learning_rate": 0.0002990086344739367,
	"loss": 0.8614,
	"step": 9800
	},
	{
	"epoch": 0.10971865720469072,
	"grad_norm": 0.2856599688529968,
	"learning_rate": 0.0002987802092375166,
	"loss": 0.8454,
	"step": 9810
	},
	{
	"epoch": 0.10983050089195341,
	"grad_norm": 0.26476389169692993,
	"learning_rate": 0.00029855178400109645,
	"loss": 0.8616,
	"step": 9820
	},
	{
	"epoch": 0.10994234457921609,
	"grad_norm": 0.2871752381324768,
	"learning_rate": 0.0002983233587646763,
	"loss": 0.8444,
	"step": 9830
	},
	{
	"epoch": 0.11005418826647877,
	"grad_norm": 0.27318039536476135,
	"learning_rate": 0.0002980949335282562,
	"loss": 0.8487,
	"step": 9840
	},
	{
	"epoch": 0.11016603195374144,
	"grad_norm": 0.25630125403404236,
	"learning_rate": 0.00029786650829183607,
	"loss": 0.846,
	"step": 9850
	},
	{
	"epoch": 0.11027787564100414,
	"grad_norm": 0.23908184468746185,
	"learning_rate": 0.000297638083055416,
	"loss": 0.8403,
	"step": 9860
	},
	{
	"epoch": 0.11038971932826681,
	"grad_norm": 0.2978418469429016,
	"learning_rate": 0.0002974096578189959,
	"loss": 0.8652,
	"step": 9870
	},
	{
	"epoch": 0.11050156301552949,
	"grad_norm": 0.2503781318664551,
	"learning_rate": 0.00029718123258257574,
	"loss": 0.8657,
	"step": 9880
	},
	{
	"epoch": 0.11061340670279218,
	"grad_norm": 0.28556469082832336,
	"learning_rate": 0.0002969528073461556,
	"loss": 0.8501,
	"step": 9890
	},
	{
	"epoch": 0.11072525039005486,
	"grad_norm": 0.2643977701663971,
	"learning_rate": 0.0002967243821097355,
	"loss": 0.8742,
	"step": 9900
	},
	{
	"epoch": 0.11083709407731754,
	"grad_norm": 0.2757241725921631,
	"learning_rate": 0.00029649595687331536,
	"loss": 0.8837,
	"step": 9910
	},
	{
	"epoch": 0.11094893776458022,
	"grad_norm": 0.28263452649116516,
	"learning_rate": 0.0002962675316368952,
	"loss": 0.8793,
	"step": 9920
	},
	{
	"epoch": 0.11106078145184291,
	"grad_norm": 0.27624276280403137,
	"learning_rate": 0.00029603910640047513,
	"loss": 0.8669,
	"step": 9930
	},
	{
	"epoch": 0.11117262513910559,
	"grad_norm": 0.2814600467681885,
	"learning_rate": 0.00029581068116405504,
	"loss": 0.8858,
	"step": 9940
	},
	{
	"epoch": 0.11128446882636826,
	"grad_norm": 0.2871972918510437,
	"learning_rate": 0.0002955822559276349,
	"loss": 0.8714,
	"step": 9950
	},
	{
	"epoch": 0.11139631251363095,
	"grad_norm": 0.2885976731777191,
	"learning_rate": 0.0002953538306912148,
	"loss": 0.8675,
	"step": 9960
	},
	{
	"epoch": 0.11150815620089363,
	"grad_norm": 0.281021386384964,
	"learning_rate": 0.00029512540545479466,
	"loss": 0.8762,
	"step": 9970
	},
	{
	"epoch": 0.11161999988815631,
	"grad_norm": 0.2923888862133026,
	"learning_rate": 0.0002948969802183745,
	"loss": 0.87,
	"step": 9980
	},
	{
	"epoch": 0.11173184357541899,
	"grad_norm": 0.2596036195755005,
	"learning_rate": 0.00029466855498195443,
	"loss": 0.8696,
	"step": 9990
	},
	{
	"epoch": 0.11184368726268168,
	"grad_norm": 0.2749873697757721,
	"learning_rate": 0.0002944401297455343,
	"loss": 0.8604,
	"step": 10000
	},
	{
	"epoch": 0.11195553094994436,
	"grad_norm": 0.2696766257286072,
	"learning_rate": 0.00029421170450911414,
	"loss": 0.8743,
	"step": 10010
	},
	{
	"epoch": 0.11206737463720703,
	"grad_norm": 0.2824450731277466,
	"learning_rate": 0.00029398327927269405,
	"loss": 0.8734,
	"step": 10020
	},
	{
	"epoch": 0.11217921832446973,
	"grad_norm": 0.2795054614543915,
	"learning_rate": 0.00029375485403627396,
	"loss": 0.865,
	"step": 10030
	},
	{
	"epoch": 0.1122910620117324,
	"grad_norm": 0.2974453866481781,
	"learning_rate": 0.0002935264287998538,
	"loss": 0.8762,
	"step": 10040
	},
	{
	"epoch": 0.11240290569899508,
	"grad_norm": 0.27134743332862854,
	"learning_rate": 0.00029329800356343367,
	"loss": 0.8616,
	"step": 10050
	},
	{
	"epoch": 0.11251474938625777,
	"grad_norm": 0.2651810348033905,
	"learning_rate": 0.0002930695783270136,
	"loss": 0.8653,
	"step": 10060
	},
	{
	"epoch": 0.11262659307352045,
	"grad_norm": 0.29161420464515686,
	"learning_rate": 0.00029284115309059344,
	"loss": 0.8583,
	"step": 10070
	},
	{
	"epoch": 0.11273843676078313,
	"grad_norm": 0.27624139189720154,
	"learning_rate": 0.0002926127278541733,
	"loss": 0.8447,
	"step": 10080
	},
	{
	"epoch": 0.1128502804480458,
	"grad_norm": 0.290632039308548,
	"learning_rate": 0.00029238430261775326,
	"loss": 0.8568,
	"step": 10090
	},
	{
	"epoch": 0.1129621241353085,
	"grad_norm": 0.2906644940376282,
	"learning_rate": 0.0002921558773813331,
	"loss": 0.8566,
	"step": 10100
	},
	{
	"epoch": 0.11307396782257118,
	"grad_norm": 0.29284584522247314,
	"learning_rate": 0.00029192745214491297,
	"loss": 0.8679,
	"step": 10110
	},
	{
	"epoch": 0.11318581150983385,
	"grad_norm": 0.29635393619537354,
	"learning_rate": 0.0002916990269084929,
	"loss": 0.8648,
	"step": 10120
	},
	{
	"epoch": 0.11329765519709654,
	"grad_norm": 0.2560585141181946,
	"learning_rate": 0.00029147060167207273,
	"loss": 0.8565,
	"step": 10130
	},
	{
	"epoch": 0.11340949888435922,
	"grad_norm": 0.2480679154396057,
	"learning_rate": 0.0002912421764356526,
	"loss": 0.8574,
	"step": 10140
	},
	{
	"epoch": 0.1135213425716219,
	"grad_norm": 0.28708118200302124,
	"learning_rate": 0.0002910137511992325,
	"loss": 0.8658,
	"step": 10150
	},
	{
	"epoch": 0.11363318625888458,
	"grad_norm": 0.2553873062133789,
	"learning_rate": 0.00029078532596281235,
	"loss": 0.8721,
	"step": 10160
	},
	{
	"epoch": 0.11374502994614727,
	"grad_norm": 0.26742488145828247,
	"learning_rate": 0.00029055690072639226,
	"loss": 0.8608,
	"step": 10170
	},
	{
	"epoch": 0.11385687363340995,
	"grad_norm": 0.2674279510974884,
	"learning_rate": 0.0002903284754899722,
	"loss": 0.8763,
	"step": 10180
	},
	{
	"epoch": 0.11396871732067262,
	"grad_norm": 0.2484348863363266,
	"learning_rate": 0.00029010005025355203,
	"loss": 0.8799,
	"step": 10190
	},
	{
	"epoch": 0.11408056100793532,
	"grad_norm": 0.2603932321071625,
	"learning_rate": 0.0002898716250171319,
	"loss": 0.8922,
	"step": 10200
	},
	{
	"epoch": 0.114192404695198,
	"grad_norm": 0.2510204613208771,
	"learning_rate": 0.0002896431997807118,
	"loss": 0.8851,
	"step": 10210
	},
	{
	"epoch": 0.11430424838246067,
	"grad_norm": 0.26795732975006104,
	"learning_rate": 0.00028941477454429165,
	"loss": 0.8917,
	"step": 10220
	},
	{
	"epoch": 0.11441609206972335,
	"grad_norm": 0.2880701422691345,
	"learning_rate": 0.0002891863493078715,
	"loss": 0.8903,
	"step": 10230
	},
	{
	"epoch": 0.11452793575698604,
	"grad_norm": 0.23970642685890198,
	"learning_rate": 0.0002889579240714514,
	"loss": 0.8882,
	"step": 10240
	},
	{
	"epoch": 0.11463977944424872,
	"grad_norm": 0.2786742150783539,
	"learning_rate": 0.0002887294988350313,
	"loss": 0.8827,
	"step": 10250
	},
	{
	"epoch": 0.1147516231315114,
	"grad_norm": 0.2780776619911194,
	"learning_rate": 0.0002885010735986112,
	"loss": 0.8879,
	"step": 10260
	},
	{
	"epoch": 0.11486346681877409,
	"grad_norm": 0.26984742283821106,
	"learning_rate": 0.0002882726483621911,
	"loss": 0.8732,
	"step": 10270
	},
	{
	"epoch": 0.11497531050603677,
	"grad_norm": 0.26902884244918823,
	"learning_rate": 0.00028804422312577095,
	"loss": 0.878,
	"step": 10280
	},
	{
	"epoch": 0.11508715419329944,
	"grad_norm": 0.24787285923957825,
	"learning_rate": 0.0002878157978893508,
	"loss": 0.8573,
	"step": 10290
	},
	{
	"epoch": 0.11519899788056212,
	"grad_norm": 0.22702965140342712,
	"learning_rate": 0.0002875873726529307,
	"loss": 0.8621,
	"step": 10300
	},
	{
	"epoch": 0.11531084156782481,
	"grad_norm": 0.27474096417427063,
	"learning_rate": 0.00028735894741651057,
	"loss": 0.8763,
	"step": 10310
	},
	{
	"epoch": 0.11542268525508749,
	"grad_norm": 0.2605912983417511,
	"learning_rate": 0.0002871305221800904,
	"loss": 0.8706,
	"step": 10320
	},
	{
	"epoch": 0.11553452894235017,
	"grad_norm": 0.25281742215156555,
	"learning_rate": 0.0002869020969436704,
	"loss": 0.855,
	"step": 10330
	},
	{
	"epoch": 0.11564637262961286,
	"grad_norm": 0.2559000849723816,
	"learning_rate": 0.00028667367170725024,
	"loss": 0.8549,
	"step": 10340
	},
	{
	"epoch": 0.11575821631687554,
	"grad_norm": 0.2439345121383667,
	"learning_rate": 0.0002864452464708301,
	"loss": 0.8639,
	"step": 10350
	},
	{
	"epoch": 0.11587006000413821,
	"grad_norm": 0.2690776288509369,
	"learning_rate": 0.00028621682123441,
	"loss": 0.8487,
	"step": 10360
	},
	{
	"epoch": 0.11598190369140089,
	"grad_norm": 0.25111067295074463,
	"learning_rate": 0.00028598839599798987,
	"loss": 0.8558,
	"step": 10370
	},
	{
	"epoch": 0.11609374737866358,
	"grad_norm": 0.26838451623916626,
	"learning_rate": 0.0002857599707615697,
	"loss": 0.8603,
	"step": 10380
	},
	{
	"epoch": 0.11620559106592626,
	"grad_norm": 0.2401856780052185,
	"learning_rate": 0.00028553154552514963,
	"loss": 0.8286,
	"step": 10390
	},
	{
	"epoch": 0.11631743475318894,
	"grad_norm": 0.26284924149513245,
	"learning_rate": 0.0002853031202887295,
	"loss": 0.8402,
	"step": 10400
	},
	{
	"epoch": 0.11642927844045163,
	"grad_norm": 0.28734955191612244,
	"learning_rate": 0.0002850746950523094,
	"loss": 0.8358,
	"step": 10410
	},
	{
	"epoch": 0.11654112212771431,
	"grad_norm": 0.2564549446105957,
	"learning_rate": 0.0002848462698158893,
	"loss": 0.8458,
	"step": 10420
	},
	{
	"epoch": 0.11665296581497699,
	"grad_norm": 0.2507050633430481,
	"learning_rate": 0.00028461784457946916,
	"loss": 0.8371,
	"step": 10430
	},
	{
	"epoch": 0.11676480950223966,
	"grad_norm": 0.25748834013938904,
	"learning_rate": 0.000284389419343049,
	"loss": 0.8527,
	"step": 10440
	},
	{
	"epoch": 0.11687665318950236,
	"grad_norm": 0.24484454095363617,
	"learning_rate": 0.00028416099410662893,
	"loss": 0.8372,
	"step": 10450
	},
	{
	"epoch": 0.11698849687676503,
	"grad_norm": 0.24171967804431915,
	"learning_rate": 0.0002839325688702088,
	"loss": 0.8327,
	"step": 10460
	},
	{
	"epoch": 0.11710034056402771,
	"grad_norm": 0.30423420667648315,
	"learning_rate": 0.00028370414363378864,
	"loss": 0.8271,
	"step": 10470
	},
	{
	"epoch": 0.1172121842512904,
	"grad_norm": 0.2598424553871155,
	"learning_rate": 0.0002834757183973685,
	"loss": 0.8169,
	"step": 10480
	},
	{
	"epoch": 0.11732402793855308,
	"grad_norm": 0.2608656585216522,
	"learning_rate": 0.00028324729316094846,
	"loss": 0.8261,
	"step": 10490
	},
	{
	"epoch": 0.11743587162581576,
	"grad_norm": 0.25370126962661743,
	"learning_rate": 0.0002830188679245283,
	"loss": 0.8227,
	"step": 10500
	},
	{
	"epoch": 0.11754771531307844,
	"grad_norm": 0.2760542333126068,
	"learning_rate": 0.00028279044268810817,
	"loss": 0.8413,
	"step": 10510
	},
	{
	"epoch": 0.11765955900034113,
	"grad_norm": 0.24994856119155884,
	"learning_rate": 0.0002825620174516881,
	"loss": 0.8288,
	"step": 10520
	},
	{
	"epoch": 0.1177714026876038,
	"grad_norm": 0.25439032912254333,
	"learning_rate": 0.00028233359221526794,
	"loss": 0.8318,
	"step": 10530
	},
	{
	"epoch": 0.11788324637486648,
	"grad_norm": 0.28182244300842285,
	"learning_rate": 0.0002821051669788478,
	"loss": 0.8437,
	"step": 10540
	},
	{
	"epoch": 0.11799509006212917,
	"grad_norm": 0.2419012039899826,
	"learning_rate": 0.0002818767417424277,
	"loss": 0.8446,
	"step": 10550
	},
	{
	"epoch": 0.11810693374939185,
	"grad_norm": 0.2598857581615448,
	"learning_rate": 0.0002816483165060076,
	"loss": 0.8428,
	"step": 10560
	},
	{
	"epoch": 0.11821877743665453,
	"grad_norm": 0.25206229090690613,
	"learning_rate": 0.00028141989126958747,
	"loss": 0.8533,
	"step": 10570
	},
	{
	"epoch": 0.1183306211239172,
	"grad_norm": 0.25155991315841675,
	"learning_rate": 0.0002811914660331674,
	"loss": 0.8538,
	"step": 10580
	},
	{
	"epoch": 0.1184424648111799,
	"grad_norm": 0.2342199832201004,
	"learning_rate": 0.00028096304079674723,
	"loss": 0.8519,
	"step": 10590
	},
	{
	"epoch": 0.11855430849844258,
	"grad_norm": 0.25823327898979187,
	"learning_rate": 0.0002807346155603271,
	"loss": 0.8483,
	"step": 10600
	},
	{
	"epoch": 0.11866615218570525,
	"grad_norm": 0.26428598165512085,
	"learning_rate": 0.000280506190323907,
	"loss": 0.86,
	"step": 10610
	},
	{
	"epoch": 0.11877799587296795,
	"grad_norm": 0.25176918506622314,
	"learning_rate": 0.00028027776508748685,
	"loss": 0.8589,
	"step": 10620
	},
	{
	"epoch": 0.11888983956023062,
	"grad_norm": 0.28826919198036194,
	"learning_rate": 0.0002800493398510667,
	"loss": 0.8627,
	"step": 10630
	},
	{
	"epoch": 0.1190016832474933,
	"grad_norm": 0.24679958820343018,
	"learning_rate": 0.0002798209146146467,
	"loss": 0.8563,
	"step": 10640
	},
	{
	"epoch": 0.11911352693475598,
	"grad_norm": 0.2550687789916992,
	"learning_rate": 0.00027959248937822653,
	"loss": 0.8535,
	"step": 10650
	},
	{
	"epoch": 0.11922537062201867,
	"grad_norm": 0.2506476640701294,
	"learning_rate": 0.0002793640641418064,
	"loss": 0.8553,
	"step": 10660
	},
	{
	"epoch": 0.11933721430928135,
	"grad_norm": 0.24980700016021729,
	"learning_rate": 0.0002791356389053863,
	"loss": 0.854,
	"step": 10670
	},
	{
	"epoch": 0.11944905799654403,
	"grad_norm": 0.2280970811843872,
	"learning_rate": 0.00027890721366896615,
	"loss": 0.8569,
	"step": 10680
	},
	{
	"epoch": 0.11956090168380672,
	"grad_norm": 0.25191232562065125,
	"learning_rate": 0.000278678788432546,
	"loss": 0.8566,
	"step": 10690
	},
	{
	"epoch": 0.1196727453710694,
	"grad_norm": 0.2748493552207947,
	"learning_rate": 0.0002784503631961259,
	"loss": 0.8573,
	"step": 10700
	},
	{
	"epoch": 0.11978458905833207,
	"grad_norm": 0.25123515725135803,
	"learning_rate": 0.00027822193795970577,
	"loss": 0.8473,
	"step": 10710
	},
	{
	"epoch": 0.11989643274559475,
	"grad_norm": 0.25573378801345825,
	"learning_rate": 0.0002779935127232857,
	"loss": 0.8469,
	"step": 10720
	},
	{
	"epoch": 0.12000827643285744,
	"grad_norm": 0.23367713391780853,
	"learning_rate": 0.0002777650874868656,
	"loss": 0.8452,
	"step": 10730
	},
	{
	"epoch": 0.12012012012012012,
	"grad_norm": 0.24593010544776917,
	"learning_rate": 0.00027753666225044545,
	"loss": 0.838,
	"step": 10740
	},
	{
	"epoch": 0.1202319638073828,
	"grad_norm": 0.2422724962234497,
	"learning_rate": 0.0002773082370140253,
	"loss": 0.8398,
	"step": 10750
	},
	{
	"epoch": 0.12034380749464549,
	"grad_norm": 0.24471783638000488,
	"learning_rate": 0.0002770798117776052,
	"loss": 0.8409,
	"step": 10760
	},
	{
	"epoch": 0.12045565118190817,
	"grad_norm": 0.25523480772972107,
	"learning_rate": 0.00027685138654118507,
	"loss": 0.835,
	"step": 10770
	},
	{
	"epoch": 0.12056749486917084,
	"grad_norm": 0.24846532940864563,
	"learning_rate": 0.0002766229613047649,
	"loss": 0.842,
	"step": 10780
	},
	{
	"epoch": 0.12067933855643354,
	"grad_norm": 0.26955240964889526,
	"learning_rate": 0.00027639453606834484,
	"loss": 0.8525,
	"step": 10790
	},
	{
	"epoch": 0.12079118224369621,
	"grad_norm": 0.2711884081363678,
	"learning_rate": 0.00027616611083192475,
	"loss": 0.8352,
	"step": 10800
	},
	{
	"epoch": 0.12090302593095889,
	"grad_norm": 0.24954953789710999,
	"learning_rate": 0.0002759376855955046,
	"loss": 0.8257,
	"step": 10810
	},
	{
	"epoch": 0.12101486961822157,
	"grad_norm": 0.27029111981391907,
	"learning_rate": 0.0002757092603590845,
	"loss": 0.8147,
	"step": 10820
	},
	{
	"epoch": 0.12112671330548426,
	"grad_norm": 0.2440258413553238,
	"learning_rate": 0.00027548083512266437,
	"loss": 0.8239,
	"step": 10830
	},
	{
	"epoch": 0.12123855699274694,
	"grad_norm": 0.27082934975624084,
	"learning_rate": 0.0002752524098862442,
	"loss": 0.8391,
	"step": 10840
	},
	{
	"epoch": 0.12135040068000962,
	"grad_norm": 0.27641886472702026,
	"learning_rate": 0.00027502398464982413,
	"loss": 0.8276,
	"step": 10850
	},
	{
	"epoch": 0.1214622443672723,
	"grad_norm": 0.24772177636623383,
	"learning_rate": 0.000274795559413404,
	"loss": 0.8226,
	"step": 10860
	},
	{
	"epoch": 0.12157408805453498,
	"grad_norm": 0.2585364580154419,
	"learning_rate": 0.00027456713417698384,
	"loss": 0.8096,
	"step": 10870
	},
	{
	"epoch": 0.12168593174179766,
	"grad_norm": 0.2730146050453186,
	"learning_rate": 0.0002743387089405638,
	"loss": 0.8156,
	"step": 10880
	},
	{
	"epoch": 0.12179777542906034,
	"grad_norm": 0.2693599760532379,
	"learning_rate": 0.00027411028370414366,
	"loss": 0.8125,
	"step": 10890
	},
	{
	"epoch": 0.12190961911632303,
	"grad_norm": 0.26071295142173767,
	"learning_rate": 0.0002738818584677235,
	"loss": 0.8106,
	"step": 10900
	},
	{
	"epoch": 0.12202146280358571,
	"grad_norm": 0.2560258209705353,
	"learning_rate": 0.0002736534332313034,
	"loss": 0.8195,
	"step": 10910
	},
	{
	"epoch": 0.12213330649084839,
	"grad_norm": 0.27529552578926086,
	"learning_rate": 0.0002734250079948833,
	"loss": 0.8104,
	"step": 10920
	},
	{
	"epoch": 0.12224515017811108,
	"grad_norm": 0.2782133221626282,
	"learning_rate": 0.00027319658275846314,
	"loss": 0.8105,
	"step": 10930
	},
	{
	"epoch": 0.12235699386537376,
	"grad_norm": 0.27981024980545044,
	"learning_rate": 0.000272968157522043,
	"loss": 0.8085,
	"step": 10940
	},
	{
	"epoch": 0.12246883755263643,
	"grad_norm": 0.2741667926311493,
	"learning_rate": 0.0002727397322856229,
	"loss": 0.8042,
	"step": 10950
	},
	{
	"epoch": 0.12258068123989911,
	"grad_norm": 0.2468159943819046,
	"learning_rate": 0.0002725113070492028,
	"loss": 0.8198,
	"step": 10960
	},
	{
	"epoch": 0.1226925249271618,
	"grad_norm": 0.26167941093444824,
	"learning_rate": 0.00027228288181278267,
	"loss": 0.8176,
	"step": 10970
	},
	{
	"epoch": 0.12280436861442448,
	"grad_norm": 0.26660802960395813,
	"learning_rate": 0.0002720544565763626,
	"loss": 0.8036,
	"step": 10980
	},
	{
	"epoch": 0.12291621230168716,
	"grad_norm": 0.301575243473053,
	"learning_rate": 0.00027182603133994244,
	"loss": 0.8049,
	"step": 10990
	},
	{
	"epoch": 0.12302805598894985,
	"grad_norm": 0.2759682834148407,
	"learning_rate": 0.0002715976061035223,
	"loss": 0.8024,
	"step": 11000
	},
	{
	"epoch": 0.12313989967621253,
	"grad_norm": 0.25659626722335815,
	"learning_rate": 0.0002713691808671022,
	"loss": 0.8229,
	"step": 11010
	},
	{
	"epoch": 0.1232517433634752,
	"grad_norm": 0.2672923505306244,
	"learning_rate": 0.00027114075563068206,
	"loss": 0.8018,
	"step": 11020
	},
	{
	"epoch": 0.12336358705073788,
	"grad_norm": 0.25423988699913025,
	"learning_rate": 0.0002709123303942619,
	"loss": 0.836,
	"step": 11030
	},
	{
	"epoch": 0.12347543073800057,
	"grad_norm": 0.28428804874420166,
	"learning_rate": 0.0002706839051578419,
	"loss": 0.8299,
	"step": 11040
	},
	{
	"epoch": 0.12358727442526325,
	"grad_norm": 0.2924467921257019,
	"learning_rate": 0.00027045547992142173,
	"loss": 0.8236,
	"step": 11050
	},
	{
	"epoch": 0.12369911811252593,
	"grad_norm": 0.25230658054351807,
	"learning_rate": 0.0002702270546850016,
	"loss": 0.8274,
	"step": 11060
	},
	{
	"epoch": 0.12381096179978862,
	"grad_norm": 0.27876734733581543,
	"learning_rate": 0.0002699986294485815,
	"loss": 0.8244,
	"step": 11070
	},
	{
	"epoch": 0.1239228054870513,
	"grad_norm": 0.29841694235801697,
	"learning_rate": 0.00026977020421216136,
	"loss": 0.8327,
	"step": 11080
	},
	{
	"epoch": 0.12403464917431398,
	"grad_norm": 0.3055926263332367,
	"learning_rate": 0.0002695417789757412,
	"loss": 0.8247,
	"step": 11090
	},
	{
	"epoch": 0.12414649286157665,
	"grad_norm": 0.275919109582901,
	"learning_rate": 0.0002693133537393211,
	"loss": 0.8263,
	"step": 11100
	},
	{
	"epoch": 0.12425833654883935,
	"grad_norm": 0.3069559931755066,
	"learning_rate": 0.00026908492850290103,
	"loss": 0.8242,
	"step": 11110
	},
	{
	"epoch": 0.12437018023610202,
	"grad_norm": 0.2574029564857483,
	"learning_rate": 0.0002688565032664809,
	"loss": 0.819,
	"step": 11120
	},
	{
	"epoch": 0.1244820239233647,
	"grad_norm": 0.25053170323371887,
	"learning_rate": 0.0002686280780300608,
	"loss": 0.8022,
	"step": 11130
	},
	{
	"epoch": 0.12459386761062739,
	"grad_norm": 0.27337634563446045,
	"learning_rate": 0.00026839965279364065,
	"loss": 0.8127,
	"step": 11140
	},
	{
	"epoch": 0.12470571129789007,
	"grad_norm": 0.2531510889530182,
	"learning_rate": 0.0002681712275572205,
	"loss": 0.8138,
	"step": 11150
	},
	{
	"epoch": 0.12481755498515275,
	"grad_norm": 0.27455076575279236,
	"learning_rate": 0.0002679428023208004,
	"loss": 0.7974,
	"step": 11160
	},
	{
	"epoch": 0.12492939867241543,
	"grad_norm": 0.2515604496002197,
	"learning_rate": 0.0002677143770843803,
	"loss": 0.8077,
	"step": 11170
	},
	{
	"epoch": 0.12504124235967812,
	"grad_norm": 0.27941974997520447,
	"learning_rate": 0.00026748595184796013,
	"loss": 0.8099,
	"step": 11180
	},
	{
	"epoch": 0.1251530860469408,
	"grad_norm": 0.2508449852466583,
	"learning_rate": 0.0002672575266115401,
	"loss": 0.8077,
	"step": 11190
	},
	{
	"epoch": 0.12526492973420347,
	"grad_norm": 0.24805410206317902,
	"learning_rate": 0.00026702910137511995,
	"loss": 0.8029,
	"step": 11200
	},
	{
	"epoch": 0.12537677342146616,
	"grad_norm": 0.2730201184749603,
	"learning_rate": 0.0002668006761386998,
	"loss": 0.8383,
	"step": 11210
	},
	{
	"epoch": 0.12548861710872883,
	"grad_norm": 0.24301932752132416,
	"learning_rate": 0.0002665722509022797,
	"loss": 0.8245,
	"step": 11220
	},
	{
	"epoch": 0.12560046079599152,
	"grad_norm": 0.270059734582901,
	"learning_rate": 0.00026634382566585957,
	"loss": 0.8287,
	"step": 11230
	},
	{
	"epoch": 0.1257123044832542,
	"grad_norm": 0.24491746723651886,
	"learning_rate": 0.0002661154004294394,
	"loss": 0.8283,
	"step": 11240
	},
	{
	"epoch": 0.12582414817051688,
	"grad_norm": 0.2461182177066803,
	"learning_rate": 0.00026588697519301934,
	"loss": 0.8285,
	"step": 11250
	},
	{
	"epoch": 0.12593599185777957,
	"grad_norm": 0.26306700706481934,
	"learning_rate": 0.0002656585499565992,
	"loss": 0.8366,
	"step": 11260
	},
	{
	"epoch": 0.12604783554504226,
	"grad_norm": 0.2317613661289215,
	"learning_rate": 0.0002654301247201791,
	"loss": 0.8373,
	"step": 11270
	},
	{
	"epoch": 0.12615967923230492,
	"grad_norm": 0.25218284130096436,
	"learning_rate": 0.000265201699483759,
	"loss": 0.8163,
	"step": 11280
	},
	{
	"epoch": 0.1262715229195676,
	"grad_norm": 0.2527898848056793,
	"learning_rate": 0.00026497327424733887,
	"loss": 0.819,
	"step": 11290
	},
	{
	"epoch": 0.1263833666068303,
	"grad_norm": 0.2344309389591217,
	"learning_rate": 0.0002647448490109187,
	"loss": 0.8335,
	"step": 11300
	},
	{
	"epoch": 0.12649521029409297,
	"grad_norm": 0.23913320899009705,
	"learning_rate": 0.00026451642377449863,
	"loss": 0.8289,
	"step": 11310
	},
	{
	"epoch": 0.12660705398135566,
	"grad_norm": 0.24901095032691956,
	"learning_rate": 0.0002642879985380785,
	"loss": 0.8159,
	"step": 11320
	},
	{
	"epoch": 0.12671889766861835,
	"grad_norm": 0.2503173351287842,
	"learning_rate": 0.00026405957330165834,
	"loss": 0.8372,
	"step": 11330
	},
	{
	"epoch": 0.12683074135588102,
	"grad_norm": 0.2341470569372177,
	"learning_rate": 0.00026383114806523825,
	"loss": 0.8264,
	"step": 11340
	},
	{
	"epoch": 0.1269425850431437,
	"grad_norm": 0.23143555223941803,
	"learning_rate": 0.00026360272282881816,
	"loss": 0.824,
	"step": 11350
	},
	{
	"epoch": 0.12705442873040637,
	"grad_norm": 0.24911652505397797,
	"learning_rate": 0.000263374297592398,
	"loss": 0.82,
	"step": 11360
	},
	{
	"epoch": 0.12716627241766906,
	"grad_norm": 0.21931353211402893,
	"learning_rate": 0.0002631458723559779,
	"loss": 0.8194,
	"step": 11370
	},
	{
	"epoch": 0.12727811610493175,
	"grad_norm": 0.2432345151901245,
	"learning_rate": 0.0002629174471195578,
	"loss": 0.8371,
	"step": 11380
	},
	{
	"epoch": 0.12738995979219442,
	"grad_norm": 0.24188277125358582,
	"learning_rate": 0.00026268902188313764,
	"loss": 0.8096,
	"step": 11390
	},
	{
	"epoch": 0.1275018034794571,
	"grad_norm": 0.2522214651107788,
	"learning_rate": 0.0002624605966467175,
	"loss": 0.8187,
	"step": 11400
	},
	{
	"epoch": 0.1276136471667198,
	"grad_norm": 0.2596495449542999,
	"learning_rate": 0.0002622321714102974,
	"loss": 0.8138,
	"step": 11410
	},
	{
	"epoch": 0.12772549085398247,
	"grad_norm": 0.2708049714565277,
	"learning_rate": 0.00026200374617387726,
	"loss": 0.8066,
	"step": 11420
	},
	{
	"epoch": 0.12783733454124516,
	"grad_norm": 0.27820831537246704,
	"learning_rate": 0.00026177532093745717,
	"loss": 0.8112,
	"step": 11430
	},
	{
	"epoch": 0.12794917822850785,
	"grad_norm": 0.23918400704860687,
	"learning_rate": 0.0002615468957010371,
	"loss": 0.8148,
	"step": 11440
	},
	{
	"epoch": 0.1280610219157705,
	"grad_norm": 0.22054031491279602,
	"learning_rate": 0.00026131847046461694,
	"loss": 0.8183,
	"step": 11450
	},
	{
	"epoch": 0.1281728656030332,
	"grad_norm": 0.25998455286026,
	"learning_rate": 0.0002610900452281968,
	"loss": 0.8242,
	"step": 11460
	},
	{
	"epoch": 0.1282847092902959,
	"grad_norm": 0.26852914690971375,
	"learning_rate": 0.0002608616199917767,
	"loss": 0.8161,
	"step": 11470
	},
	{
	"epoch": 0.12839655297755856,
	"grad_norm": 0.24028563499450684,
	"learning_rate": 0.00026063319475535656,
	"loss": 0.8083,
	"step": 11480
	},
	{
	"epoch": 0.12850839666482125,
	"grad_norm": 0.24944745004177094,
	"learning_rate": 0.0002604047695189364,
	"loss": 0.8168,
	"step": 11490
	},
	{
	"epoch": 0.12862024035208391,
	"grad_norm": 0.26595303416252136,
	"learning_rate": 0.0002601763442825164,
	"loss": 0.8178,
	"step": 11500
	},
	{
	"epoch": 0.1287320840393466,
	"grad_norm": 0.24556541442871094,
	"learning_rate": 0.00025994791904609623,
	"loss": 0.8229,
	"step": 11510
	},
	{
	"epoch": 0.1288439277266093,
	"grad_norm": 0.24716900289058685,
	"learning_rate": 0.0002597194938096761,
	"loss": 0.809,
	"step": 11520
	},
	{
	"epoch": 0.12895577141387196,
	"grad_norm": 0.24745820462703705,
	"learning_rate": 0.000259491068573256,
	"loss": 0.8293,
	"step": 11530
	},
	{
	"epoch": 0.12906761510113465,
	"grad_norm": 0.2732492983341217,
	"learning_rate": 0.00025926264333683586,
	"loss": 0.8,
	"step": 11540
	},
	{
	"epoch": 0.12917945878839734,
	"grad_norm": 0.23239663243293762,
	"learning_rate": 0.0002590342181004157,
	"loss": 0.8175,
	"step": 11550
	},
	{
	"epoch": 0.12929130247566,
	"grad_norm": 0.24953389167785645,
	"learning_rate": 0.0002588057928639956,
	"loss": 0.8152,
	"step": 11560
	},
	{
	"epoch": 0.1294031461629227,
	"grad_norm": 0.25258156657218933,
	"learning_rate": 0.0002585773676275755,
	"loss": 0.8301,
	"step": 11570
	},
	{
	"epoch": 0.1295149898501854,
	"grad_norm": 0.2609168291091919,
	"learning_rate": 0.0002583489423911554,
	"loss": 0.8197,
	"step": 11580
	},
	{
	"epoch": 0.12962683353744806,
	"grad_norm": 0.2484872192144394,
	"learning_rate": 0.0002581205171547353,
	"loss": 0.8362,
	"step": 11590
	},
	{
	"epoch": 0.12973867722471075,
	"grad_norm": 0.2833307385444641,
	"learning_rate": 0.00025789209191831515,
	"loss": 0.8338,
	"step": 11600
	},
	{
	"epoch": 0.12985052091197344,
	"grad_norm": 0.24657459557056427,
	"learning_rate": 0.000257663666681895,
	"loss": 0.8205,
	"step": 11610
	},
	{
	"epoch": 0.1299623645992361,
	"grad_norm": 0.2499598115682602,
	"learning_rate": 0.0002574352414454749,
	"loss": 0.8406,
	"step": 11620
	},
	{
	"epoch": 0.1300742082864988,
	"grad_norm": 0.2757512629032135,
	"learning_rate": 0.0002572068162090548,
	"loss": 0.8247,
	"step": 11630
	},
	{
	"epoch": 0.13018605197376146,
	"grad_norm": 0.25661805272102356,
	"learning_rate": 0.00025697839097263463,
	"loss": 0.8384,
	"step": 11640
	},
	{
	"epoch": 0.13029789566102415,
	"grad_norm": 0.27651283144950867,
	"learning_rate": 0.00025674996573621454,
	"loss": 0.818,
	"step": 11650
	},
	{
	"epoch": 0.13040973934828684,
	"grad_norm": 0.247050940990448,
	"learning_rate": 0.00025652154049979445,
	"loss": 0.8261,
	"step": 11660
	},
	{
	"epoch": 0.1305215830355495,
	"grad_norm": 0.23124581575393677,
	"learning_rate": 0.0002562931152633743,
	"loss": 0.8259,
	"step": 11670
	},
	{
	"epoch": 0.1306334267228122,
	"grad_norm": 0.2694045603275299,
	"learning_rate": 0.0002560646900269542,
	"loss": 0.8304,
	"step": 11680
	},
	{
	"epoch": 0.1307452704100749,
	"grad_norm": 0.26821568608283997,
	"learning_rate": 0.00025583626479053407,
	"loss": 0.8441,
	"step": 11690
	},
	{
	"epoch": 0.13085711409733755,
	"grad_norm": 0.2747989892959595,
	"learning_rate": 0.0002556078395541139,
	"loss": 0.841,
	"step": 11700
	},
	{
	"epoch": 0.13096895778460024,
	"grad_norm": 0.28248855471611023,
	"learning_rate": 0.00025537941431769384,
	"loss": 0.857,
	"step": 11710
	},
	{
	"epoch": 0.13108080147186293,
	"grad_norm": 0.25378182530403137,
	"learning_rate": 0.0002551509890812737,
	"loss": 0.8437,
	"step": 11720
	},
	{
	"epoch": 0.1311926451591256,
	"grad_norm": 0.25950944423675537,
	"learning_rate": 0.00025492256384485355,
	"loss": 0.8497,
	"step": 11730
	},
	{
	"epoch": 0.1313044888463883,
	"grad_norm": 0.26261699199676514,
	"learning_rate": 0.0002546941386084335,
	"loss": 0.8477,
	"step": 11740
	},
	{
	"epoch": 0.13141633253365098,
	"grad_norm": 0.30151599645614624,
	"learning_rate": 0.00025446571337201337,
	"loss": 0.8405,
	"step": 11750
	},
	{
	"epoch": 0.13152817622091365,
	"grad_norm": 0.2556060254573822,
	"learning_rate": 0.0002542372881355932,
	"loss": 0.831,
	"step": 11760
	},
	{
	"epoch": 0.13164001990817634,
	"grad_norm": 0.26560309529304504,
	"learning_rate": 0.00025400886289917313,
	"loss": 0.8445,
	"step": 11770
	},
	{
	"epoch": 0.13175186359543903,
	"grad_norm": 0.28504636883735657,
	"learning_rate": 0.000253780437662753,
	"loss": 0.8432,
	"step": 11780
	},
	{
	"epoch": 0.1318637072827017,
	"grad_norm": 0.2985188663005829,
	"learning_rate": 0.00025355201242633285,
	"loss": 0.8584,
	"step": 11790
	},
	{
	"epoch": 0.13197555096996438,
	"grad_norm": 0.28022414445877075,
	"learning_rate": 0.00025332358718991276,
	"loss": 0.8393,
	"step": 11800
	},
	{
	"epoch": 0.13208739465722705,
	"grad_norm": 0.28535568714141846,
	"learning_rate": 0.0002530951619534926,
	"loss": 0.8369,
	"step": 11810
	},
	{
	"epoch": 0.13219923834448974,
	"grad_norm": 0.27764952182769775,
	"learning_rate": 0.0002528667367170725,
	"loss": 0.8435,
	"step": 11820
	},
	{
	"epoch": 0.13231108203175243,
	"grad_norm": 0.28943151235580444,
	"learning_rate": 0.0002526383114806524,
	"loss": 0.8334,
	"step": 11830
	},
	{
	"epoch": 0.1324229257190151,
	"grad_norm": 0.28240668773651123,
	"learning_rate": 0.0002524098862442323,
	"loss": 0.8338,
	"step": 11840
	},
	{
	"epoch": 0.13253476940627779,
	"grad_norm": 0.27650541067123413,
	"learning_rate": 0.00025218146100781214,
	"loss": 0.8275,
	"step": 11850
	},
	{
	"epoch": 0.13264661309354048,
	"grad_norm": 0.27569788694381714,
	"learning_rate": 0.000251953035771392,
	"loss": 0.8323,
	"step": 11860
	},
	{
	"epoch": 0.13275845678080314,
	"grad_norm": 0.29103782773017883,
	"learning_rate": 0.0002517246105349719,
	"loss": 0.8401,
	"step": 11870
	},
	{
	"epoch": 0.13287030046806583,
	"grad_norm": 0.28769806027412415,
	"learning_rate": 0.00025149618529855176,
	"loss": 0.8369,
	"step": 11880
	},
	{
	"epoch": 0.13298214415532852,
	"grad_norm": 0.2803378701210022,
	"learning_rate": 0.0002512677600621316,
	"loss": 0.8308,
	"step": 11890
	},
	{
	"epoch": 0.1330939878425912,
	"grad_norm": 0.29264572262763977,
	"learning_rate": 0.0002510393348257116,
	"loss": 0.8314,
	"step": 11900
	},
	{
	"epoch": 0.13320583152985388,
	"grad_norm": 0.27434802055358887,
	"learning_rate": 0.00025081090958929144,
	"loss": 0.8337,
	"step": 11910
	},
	{
	"epoch": 0.13331767521711657,
	"grad_norm": 0.270589143037796,
	"learning_rate": 0.0002505824843528713,
	"loss": 0.8503,
	"step": 11920
	},
	{
	"epoch": 0.13342951890437924,
	"grad_norm": 0.27260124683380127,
	"learning_rate": 0.0002503540591164512,
	"loss": 0.8293,
	"step": 11930
	},
	{
	"epoch": 0.13354136259164193,
	"grad_norm": 0.2684808075428009,
	"learning_rate": 0.00025012563388003106,
	"loss": 0.8339,
	"step": 11940
	},
	{
	"epoch": 0.1336532062789046,
	"grad_norm": 0.2510156035423279,
	"learning_rate": 0.00024989720864361097,
	"loss": 0.8464,
	"step": 11950
	},
	{
	"epoch": 0.13376504996616728,
	"grad_norm": 0.24331960082054138,
	"learning_rate": 0.0002496687834071908,
	"loss": 0.8443,
	"step": 11960
	},
	{
	"epoch": 0.13387689365342997,
	"grad_norm": 0.2688249349594116,
	"learning_rate": 0.00024944035817077074,
	"loss": 0.8483,
	"step": 11970
	},
	{
	"epoch": 0.13398873734069264,
	"grad_norm": 0.2608729898929596,
	"learning_rate": 0.0002492119329343506,
	"loss": 0.852,
	"step": 11980
	},
	{
	"epoch": 0.13410058102795533,
	"grad_norm": 0.28415507078170776,
	"learning_rate": 0.00024898350769793045,
	"loss": 0.8449,
	"step": 11990
	},
	{
	"epoch": 0.13421242471521802,
	"grad_norm": 0.2920886278152466,
	"learning_rate": 0.00024875508246151036,
	"loss": 0.8281,
	"step": 12000
	},
	{
	"epoch": 0.13432426840248068,
	"grad_norm": 0.2763430178165436,
	"learning_rate": 0.00024852665722509027,
	"loss": 0.8492,
	"step": 12010
	},
	{
	"epoch": 0.13443611208974338,
	"grad_norm": 0.26460400223731995,
	"learning_rate": 0.0002482982319886701,
	"loss": 0.8409,
	"step": 12020
	},
	{
	"epoch": 0.13454795577700607,
	"grad_norm": 0.2698183059692383,
	"learning_rate": 0.00024806980675225,
	"loss": 0.8295,
	"step": 12030
	},
	{
	"epoch": 0.13465979946426873,
	"grad_norm": 0.2728478014469147,
	"learning_rate": 0.0002478413815158299,
	"loss": 0.837,
	"step": 12040
	},
	{
	"epoch": 0.13477164315153142,
	"grad_norm": 0.282924085855484,
	"learning_rate": 0.00024761295627940974,
	"loss": 0.8482,
	"step": 12050
	},
	{
	"epoch": 0.13488348683879411,
	"grad_norm": 0.264614999294281,
	"learning_rate": 0.00024738453104298965,
	"loss": 0.8432,
	"step": 12060
	},
	{
	"epoch": 0.13499533052605678,
	"grad_norm": 0.2475707232952118,
	"learning_rate": 0.0002471561058065695,
	"loss": 0.8387,
	"step": 12070
	},
	{
	"epoch": 0.13510717421331947,
	"grad_norm": 0.2620779573917389,
	"learning_rate": 0.00024692768057014937,
	"loss": 0.8559,
	"step": 12080
	},
	{
	"epoch": 0.13521901790058213,
	"grad_norm": 0.2645311951637268,
	"learning_rate": 0.0002466992553337293,
	"loss": 0.8363,
	"step": 12090
	},
	{
	"epoch": 0.13533086158784483,
	"grad_norm": 0.27586236596107483,
	"learning_rate": 0.0002464708300973092,
	"loss": 0.8365,
	"step": 12100
	},
	{
	"epoch": 0.13544270527510752,
	"grad_norm": 0.2695125341415405,
	"learning_rate": 0.00024624240486088904,
	"loss": 0.8412,
	"step": 12110
	},
	{
	"epoch": 0.13555454896237018,
	"grad_norm": 0.2473846971988678,
	"learning_rate": 0.0002460139796244689,
	"loss": 0.8362,
	"step": 12120
	},
	{
	"epoch": 0.13566639264963287,
	"grad_norm": 0.28001588582992554,
	"learning_rate": 0.0002457855543880488,
	"loss": 0.8462,
	"step": 12130
	},
	{
	"epoch": 0.13577823633689556,
	"grad_norm": 0.29486599564552307,
	"learning_rate": 0.00024555712915162866,
	"loss": 0.8607,
	"step": 12140
	},
	{
	"epoch": 0.13589008002415823,
	"grad_norm": 0.2761843204498291,
	"learning_rate": 0.00024532870391520857,
	"loss": 0.8668,
	"step": 12150
	},
	{
	"epoch": 0.13600192371142092,
	"grad_norm": 0.25779953598976135,
	"learning_rate": 0.00024510027867878843,
	"loss": 0.853,
	"step": 12160
	},
	{
	"epoch": 0.1361137673986836,
	"grad_norm": 0.27593857049942017,
	"learning_rate": 0.00024487185344236834,
	"loss": 0.8506,
	"step": 12170
	},
	{
	"epoch": 0.13622561108594627,
	"grad_norm": 0.24426791071891785,
	"learning_rate": 0.0002446434282059482,
	"loss": 0.8623,
	"step": 12180
	},
	{
	"epoch": 0.13633745477320897,
	"grad_norm": 0.25555628538131714,
	"learning_rate": 0.00024441500296952805,
	"loss": 0.8493,
	"step": 12190
	},
	{
	"epoch": 0.13644929846047166,
	"grad_norm": 0.2234913557767868,
	"learning_rate": 0.00024418657773310796,
	"loss": 0.8644,
	"step": 12200
	},
	{
	"epoch": 0.13656114214773432,
	"grad_norm": 0.27130651473999023,
	"learning_rate": 0.00024395815249668784,
	"loss": 0.8791,
	"step": 12210
	},
	{
	"epoch": 0.136672985834997,
	"grad_norm": 0.24734824895858765,
	"learning_rate": 0.0002437297272602677,
	"loss": 0.8719,
	"step": 12220
	},
	{
	"epoch": 0.13678482952225968,
	"grad_norm": 0.24316945672035217,
	"learning_rate": 0.0002435013020238476,
	"loss": 0.8546,
	"step": 12230
	},
	{
	"epoch": 0.13689667320952237,
	"grad_norm": 0.2349976748228073,
	"learning_rate": 0.0002432728767874275,
	"loss": 0.8458,
	"step": 12240
	},
	{
	"epoch": 0.13700851689678506,
	"grad_norm": 0.26791033148765564,
	"learning_rate": 0.00024304445155100735,
	"loss": 0.8485,
	"step": 12250
	},
	{
	"epoch": 0.13712036058404772,
	"grad_norm": 0.23598451912403107,
	"learning_rate": 0.00024281602631458723,
	"loss": 0.8451,
	"step": 12260
	},
	{
	"epoch": 0.13723220427131042,
	"grad_norm": 0.23012129962444305,
	"learning_rate": 0.00024258760107816714,
	"loss": 0.8332,
	"step": 12270
	},
	{
	"epoch": 0.1373440479585731,
	"grad_norm": 0.22834524512290955,
	"learning_rate": 0.000242359175841747,
	"loss": 0.8203,
	"step": 12280
	},
	{
	"epoch": 0.13745589164583577,
	"grad_norm": 0.2247861921787262,
	"learning_rate": 0.00024213075060532688,
	"loss": 0.8303,
	"step": 12290
	},
	{
	"epoch": 0.13756773533309846,
	"grad_norm": 0.2438284307718277,
	"learning_rate": 0.00024190232536890676,
	"loss": 0.8216,
	"step": 12300
	},
	{
	"epoch": 0.13767957902036115,
	"grad_norm": 0.24075888097286224,
	"learning_rate": 0.00024167390013248664,
	"loss": 0.7964,
	"step": 12310
	},
	{
	"epoch": 0.13779142270762382,
	"grad_norm": 0.24668976664543152,
	"learning_rate": 0.00024144547489606653,
	"loss": 0.8028,
	"step": 12320
	},
	{
	"epoch": 0.1379032663948865,
	"grad_norm": 0.26727405190467834,
	"learning_rate": 0.0002412170496596464,
	"loss": 0.8081,
	"step": 12330
	},
	{
	"epoch": 0.1380151100821492,
	"grad_norm": 0.2645564377307892,
	"learning_rate": 0.00024098862442322626,
	"loss": 0.8116,
	"step": 12340
	},
	{
	"epoch": 0.13812695376941186,
	"grad_norm": 0.25368645787239075,
	"learning_rate": 0.00024076019918680617,
	"loss": 0.8105,
	"step": 12350
	},
	{
	"epoch": 0.13823879745667456,
	"grad_norm": 0.26823967695236206,
	"learning_rate": 0.00024053177395038606,
	"loss": 0.8249,
	"step": 12360
	},
	{
	"epoch": 0.13835064114393722,
	"grad_norm": 0.2827225625514984,
	"learning_rate": 0.0002403033487139659,
	"loss": 0.8191,
	"step": 12370
	},
	{
	"epoch": 0.1384624848311999,
	"grad_norm": 0.23261433839797974,
	"learning_rate": 0.00024007492347754582,
	"loss": 0.8215,
	"step": 12380
	},
	{
	"epoch": 0.1385743285184626,
	"grad_norm": 0.27331966161727905,
	"learning_rate": 0.00023984649824112568,
	"loss": 0.8232,
	"step": 12390
	},
	{
	"epoch": 0.13868617220572527,
	"grad_norm": 0.2801966369152069,
	"learning_rate": 0.00023961807300470556,
	"loss": 0.8074,
	"step": 12400
	},
	{
	"epoch": 0.13879801589298796,
	"grad_norm": 0.2379591315984726,
	"learning_rate": 0.00023938964776828544,
	"loss": 0.8209,
	"step": 12410
	},
	{
	"epoch": 0.13890985958025065,
	"grad_norm": 0.27151694893836975,
	"learning_rate": 0.00023916122253186533,
	"loss": 0.8258,
	"step": 12420
	},
	{
	"epoch": 0.1390217032675133,
	"grad_norm": 0.21429865062236786,
	"learning_rate": 0.0002389327972954452,
	"loss": 0.8178,
	"step": 12430
	},
	{
	"epoch": 0.139133546954776,
	"grad_norm": 0.2777722477912903,
	"learning_rate": 0.0002387043720590251,
	"loss": 0.826,
	"step": 12440
	},
	{
	"epoch": 0.1392453906420387,
	"grad_norm": 0.2514742910861969,
	"learning_rate": 0.00023847594682260495,
	"loss": 0.8362,
	"step": 12450
	},
	{
	"epoch": 0.13935723432930136,
	"grad_norm": 0.23247656226158142,
	"learning_rate": 0.00023824752158618486,
	"loss": 0.8049,
	"step": 12460
	},
	{
	"epoch": 0.13946907801656405,
	"grad_norm": 0.2391313910484314,
	"learning_rate": 0.00023801909634976474,
	"loss": 0.8082,
	"step": 12470
	},
	{
	"epoch": 0.13958092170382674,
	"grad_norm": 0.2366340011358261,
	"learning_rate": 0.0002377906711133446,
	"loss": 0.8214,
	"step": 12480
	},
	{
	"epoch": 0.1396927653910894,
	"grad_norm": 0.2570713758468628,
	"learning_rate": 0.00023756224587692448,
	"loss": 0.827,
	"step": 12490
	},
	{
	"epoch": 0.1398046090783521,
	"grad_norm": 0.22823789715766907,
	"learning_rate": 0.0002373338206405044,
	"loss": 0.8314,
	"step": 12500
	},
	{
	"epoch": 0.1399164527656148,
	"grad_norm": 0.24660278856754303,
	"learning_rate": 0.00023710539540408424,
	"loss": 0.838,
	"step": 12510
	},
	{
	"epoch": 0.14002829645287745,
	"grad_norm": 0.25041723251342773,
	"learning_rate": 0.00023687697016766413,
	"loss": 0.8371,
	"step": 12520
	},
	{
	"epoch": 0.14014014014014015,
	"grad_norm": 0.23942531645298004,
	"learning_rate": 0.000236648544931244,
	"loss": 0.8282,
	"step": 12530
	},
	{
	"epoch": 0.1402519838274028,
	"grad_norm": 0.2445865273475647,
	"learning_rate": 0.0002364201196948239,
	"loss": 0.8307,
	"step": 12540
	},
	{
	"epoch": 0.1403638275146655,
	"grad_norm": 0.25278452038764954,
	"learning_rate": 0.00023619169445840378,
	"loss": 0.8483,
	"step": 12550
	},
	{
	"epoch": 0.1404756712019282,
	"grad_norm": 0.22890037298202515,
	"learning_rate": 0.00023596326922198366,
	"loss": 0.8328,
	"step": 12560
	},
	{
	"epoch": 0.14058751488919086,
	"grad_norm": 0.2360977679491043,
	"learning_rate": 0.00023573484398556351,
	"loss": 0.8373,
	"step": 12570
	},
	{
	"epoch": 0.14069935857645355,
	"grad_norm": 0.22873692214488983,
	"learning_rate": 0.00023550641874914342,
	"loss": 0.8399,
	"step": 12580
	},
	{
	"epoch": 0.14081120226371624,
	"grad_norm": 0.228402242064476,
	"learning_rate": 0.0002352779935127233,
	"loss": 0.8272,
	"step": 12590
	},
	{
	"epoch": 0.1409230459509789,
	"grad_norm": 0.2625369131565094,
	"learning_rate": 0.00023504956827630316,
	"loss": 0.8413,
	"step": 12600
	},
	{
	"epoch": 0.1410348896382416,
	"grad_norm": 0.2744843363761902,
	"learning_rate": 0.00023482114303988305,
	"loss": 0.823,
	"step": 12610
	},
	{
	"epoch": 0.1411467333255043,
	"grad_norm": 0.24845914542675018,
	"learning_rate": 0.00023459271780346293,
	"loss": 0.8089,
	"step": 12620
	},
	{
	"epoch": 0.14125857701276695,
	"grad_norm": 0.2431713193655014,
	"learning_rate": 0.0002343642925670428,
	"loss": 0.8204,
	"step": 12630
	},
	{
	"epoch": 0.14137042070002964,
	"grad_norm": 0.2636731266975403,
	"learning_rate": 0.0002341358673306227,
	"loss": 0.8241,
	"step": 12640
	},
	{
	"epoch": 0.14148226438729233,
	"grad_norm": 0.24605631828308105,
	"learning_rate": 0.00023390744209420255,
	"loss": 0.837,
	"step": 12650
	},
	{
	"epoch": 0.141594108074555,
	"grad_norm": 0.25722581148147583,
	"learning_rate": 0.00023367901685778246,
	"loss": 0.8338,
	"step": 12660
	},
	{
	"epoch": 0.1417059517618177,
	"grad_norm": 0.2628157138824463,
	"learning_rate": 0.00023345059162136234,
	"loss": 0.8271,
	"step": 12670
	},
	{
	"epoch": 0.14181779544908035,
	"grad_norm": 0.24534687399864197,
	"learning_rate": 0.0002332221663849422,
	"loss": 0.8281,
	"step": 12680
	},
	{
	"epoch": 0.14192963913634304,
	"grad_norm": 0.24370639026165009,
	"learning_rate": 0.00023299374114852208,
	"loss": 0.8243,
	"step": 12690
	},
	{
	"epoch": 0.14204148282360574,
	"grad_norm": 0.2993674576282501,
	"learning_rate": 0.000232765315912102,
	"loss": 0.8191,
	"step": 12700
	},
	{
	"epoch": 0.1421533265108684,
	"grad_norm": 0.2372383326292038,
	"learning_rate": 0.00023253689067568185,
	"loss": 0.8115,
	"step": 12710
	},
	{
	"epoch": 0.1422651701981311,
	"grad_norm": 0.2405237853527069,
	"learning_rate": 0.00023230846543926173,
	"loss": 0.8012,
	"step": 12720
	},
	{
	"epoch": 0.14237701388539378,
	"grad_norm": 0.23501497507095337,
	"learning_rate": 0.0002320800402028416,
	"loss": 0.8272,
	"step": 12730
	},
	{
	"epoch": 0.14248885757265645,
	"grad_norm": 0.2573966085910797,
	"learning_rate": 0.0002318516149664215,
	"loss": 0.8231,
	"step": 12740
	},
	{
	"epoch": 0.14260070125991914,
	"grad_norm": 0.25884565711021423,
	"learning_rate": 0.00023162318973000138,
	"loss": 0.8293,
	"step": 12750
	},
	{
	"epoch": 0.14271254494718183,
	"grad_norm": 0.24788953363895416,
	"learning_rate": 0.00023139476449358126,
	"loss": 0.8338,
	"step": 12760
	},
	{
	"epoch": 0.1428243886344445,
	"grad_norm": 0.23874413967132568,
	"learning_rate": 0.00023116633925716112,
	"loss": 0.8184,
	"step": 12770
	},
	{
	"epoch": 0.14293623232170719,
	"grad_norm": 0.2358027547597885,
	"learning_rate": 0.00023093791402074103,
	"loss": 0.8143,
	"step": 12780
	},
	{
	"epoch": 0.14304807600896988,
	"grad_norm": 0.22447925806045532,
	"learning_rate": 0.0002307094887843209,
	"loss": 0.8093,
	"step": 12790
	},
	{
	"epoch": 0.14315991969623254,
	"grad_norm": 0.25550246238708496,
	"learning_rate": 0.00023048106354790077,
	"loss": 0.8178,
	"step": 12800
	},
	{
	"epoch": 0.14327176338349523,
	"grad_norm": 0.2370327264070511,
	"learning_rate": 0.00023025263831148065,
	"loss": 0.8035,
	"step": 12810
	},
	{
	"epoch": 0.1433836070707579,
	"grad_norm": 0.24910229444503784,
	"learning_rate": 0.00023002421307506056,
	"loss": 0.7965,
	"step": 12820
	},
	{
	"epoch": 0.1434954507580206,
	"grad_norm": 0.23592302203178406,
	"learning_rate": 0.0002297957878386404,
	"loss": 0.808,
	"step": 12830
	},
	{
	"epoch": 0.14360729444528328,
	"grad_norm": 0.24010522663593292,
	"learning_rate": 0.0002295673626022203,
	"loss": 0.8047,
	"step": 12840
	},
	{
	"epoch": 0.14371913813254594,
	"grad_norm": 0.26334619522094727,
	"learning_rate": 0.00022933893736580015,
	"loss": 0.8011,
	"step": 12850
	},
	{
	"epoch": 0.14383098181980863,
	"grad_norm": 0.23162928223609924,
	"learning_rate": 0.00022911051212938006,
	"loss": 0.811,
	"step": 12860
	},
	{
	"epoch": 0.14394282550707133,
	"grad_norm": 0.24273565411567688,
	"learning_rate": 0.00022888208689295994,
	"loss": 0.8249,
	"step": 12870
	},
	{
	"epoch": 0.144054669194334,
	"grad_norm": 0.239716574549675,
	"learning_rate": 0.0002286536616565398,
	"loss": 0.8146,
	"step": 12880
	},
	{
	"epoch": 0.14416651288159668,
	"grad_norm": 0.22947145998477936,
	"learning_rate": 0.0002284252364201197,
	"loss": 0.8037,
	"step": 12890
	},
	{
	"epoch": 0.14427835656885937,
	"grad_norm": 0.2369975745677948,
	"learning_rate": 0.0002281968111836996,
	"loss": 0.7938,
	"step": 12900
	},
	{
	"epoch": 0.14439020025612204,
	"grad_norm": 0.23150302469730377,
	"learning_rate": 0.00022796838594727945,
	"loss": 0.7971,
	"step": 12910
	},
	{
	"epoch": 0.14450204394338473,
	"grad_norm": 0.25659120082855225,
	"learning_rate": 0.00022773996071085933,
	"loss": 0.7897,
	"step": 12920
	},
	{
	"epoch": 0.14461388763064742,
	"grad_norm": 0.26838308572769165,
	"learning_rate": 0.00022751153547443924,
	"loss": 0.8025,
	"step": 12930
	},
	{
	"epoch": 0.14472573131791008,
	"grad_norm": 0.2421617954969406,
	"learning_rate": 0.0002272831102380191,
	"loss": 0.7937,
	"step": 12940
	},
	{
	"epoch": 0.14483757500517278,
	"grad_norm": 0.22780479490756989,
	"learning_rate": 0.00022705468500159898,
	"loss": 0.7861,
	"step": 12950
	},
	{
	"epoch": 0.14494941869243544,
	"grad_norm": 0.2561044692993164,
	"learning_rate": 0.00022682625976517886,
	"loss": 0.7817,
	"step": 12960
	},
	{
	"epoch": 0.14506126237969813,
	"grad_norm": 0.24073092639446259,
	"learning_rate": 0.00022659783452875875,
	"loss": 0.8024,
	"step": 12970
	},
	{
	"epoch": 0.14517310606696082,
	"grad_norm": 0.24959658086299896,
	"learning_rate": 0.00022636940929233863,
	"loss": 0.7994,
	"step": 12980
	},
	{
	"epoch": 0.14528494975422349,
	"grad_norm": 0.2711149752140045,
	"learning_rate": 0.0002261409840559185,
	"loss": 0.8011,
	"step": 12990
	},
	{
	"epoch": 0.14539679344148618,
	"grad_norm": 0.2447725236415863,
	"learning_rate": 0.00022591255881949837,
	"loss": 0.7957,
	"step": 13000
	},
	{
	"epoch": 0.14550863712874887,
	"grad_norm": 0.26505330204963684,
	"learning_rate": 0.00022568413358307828,
	"loss": 0.7932,
	"step": 13010
	},
	{
	"epoch": 0.14562048081601153,
	"grad_norm": 0.256712943315506,
	"learning_rate": 0.00022545570834665816,
	"loss": 0.7919,
	"step": 13020
	},
	{
	"epoch": 0.14573232450327422,
	"grad_norm": 0.23816627264022827,
	"learning_rate": 0.00022522728311023802,
	"loss": 0.7942,
	"step": 13030
	},
	{
	"epoch": 0.14584416819053692,
	"grad_norm": 0.25607794523239136,
	"learning_rate": 0.0002249988578738179,
	"loss": 0.8058,
	"step": 13040
	},
	{
	"epoch": 0.14595601187779958,
	"grad_norm": 0.2644692361354828,
	"learning_rate": 0.0002247704326373978,
	"loss": 0.8026,
	"step": 13050
	},
	{
	"epoch": 0.14606785556506227,
	"grad_norm": 0.24160505831241608,
	"learning_rate": 0.00022454200740097766,
	"loss": 0.8013,
	"step": 13060
	},
	{
	"epoch": 0.14617969925232496,
	"grad_norm": 0.25321200489997864,
	"learning_rate": 0.00022431358216455755,
	"loss": 0.802,
	"step": 13070
	},
	{
	"epoch": 0.14629154293958763,
	"grad_norm": 0.38834208250045776,
	"learning_rate": 0.0002240851569281374,
	"loss": 0.8053,
	"step": 13080
	},
	{
	"epoch": 0.14640338662685032,
	"grad_norm": 0.2638767957687378,
	"learning_rate": 0.0002238567316917173,
	"loss": 0.803,
	"step": 13090
	},
	{
	"epoch": 0.14651523031411298,
	"grad_norm": 0.33412685990333557,
	"learning_rate": 0.0002236283064552972,
	"loss": 0.8091,
	"step": 13100
	},
	{
	"epoch": 0.14662707400137567,
	"grad_norm": 0.27539852261543274,
	"learning_rate": 0.00022339988121887705,
	"loss": 0.8019,
	"step": 13110
	},
	{
	"epoch": 0.14673891768863837,
	"grad_norm": 0.25128626823425293,
	"learning_rate": 0.00022317145598245693,
	"loss": 0.7961,
	"step": 13120
	},
	{
	"epoch": 0.14685076137590103,
	"grad_norm": 0.27428579330444336,
	"learning_rate": 0.00022294303074603684,
	"loss": 0.792,
	"step": 13130
	},
	{
	"epoch": 0.14696260506316372,
	"grad_norm": 0.25421425700187683,
	"learning_rate": 0.0002227146055096167,
	"loss": 0.8139,
	"step": 13140
	},
	{
	"epoch": 0.1470744487504264,
	"grad_norm": 0.23709440231323242,
	"learning_rate": 0.00022248618027319658,
	"loss": 0.8147,
	"step": 13150
	},
	{
	"epoch": 0.14718629243768908,
	"grad_norm": 0.2693617641925812,
	"learning_rate": 0.00022225775503677646,
	"loss": 0.8174,
	"step": 13160
	},
	{
	"epoch": 0.14729813612495177,
	"grad_norm": 0.26674261689186096,
	"learning_rate": 0.00022202932980035635,
	"loss": 0.8105,
	"step": 13170
	},
	{
	"epoch": 0.14740997981221446,
	"grad_norm": 0.2656268775463104,
	"learning_rate": 0.00022180090456393623,
	"loss": 0.8355,
	"step": 13180
	},
	{
	"epoch": 0.14752182349947712,
	"grad_norm": 0.2587822377681732,
	"learning_rate": 0.0002215724793275161,
	"loss": 0.8311,
	"step": 13190
	},
	{
	"epoch": 0.14763366718673981,
	"grad_norm": 0.29723209142684937,
	"learning_rate": 0.00022134405409109597,
	"loss": 0.8664,
	"step": 13200
	},
	{
	"epoch": 0.1477455108740025,
	"grad_norm": 0.2579325735569,
	"learning_rate": 0.00022111562885467588,
	"loss": 0.8515,
	"step": 13210
	},
	{
	"epoch": 0.14785735456126517,
	"grad_norm": 0.28357258439064026,
	"learning_rate": 0.00022088720361825576,
	"loss": 0.8562,
	"step": 13220
	},
	{
	"epoch": 0.14796919824852786,
	"grad_norm": 0.26742318272590637,
	"learning_rate": 0.00022065877838183562,
	"loss": 0.8571,
	"step": 13230
	},
	{
	"epoch": 0.14808104193579055,
	"grad_norm": 0.2750874161720276,
	"learning_rate": 0.0002204303531454155,
	"loss": 0.8449,
	"step": 13240
	},
	{
	"epoch": 0.14819288562305322,
	"grad_norm": 0.3043031692504883,
	"learning_rate": 0.0002202019279089954,
	"loss": 0.8472,
	"step": 13250
	},
	{
	"epoch": 0.1483047293103159,
	"grad_norm": 0.27216988801956177,
	"learning_rate": 0.00021997350267257527,
	"loss": 0.8732,
	"step": 13260
	},
	{
	"epoch": 0.14841657299757857,
	"grad_norm": 0.2818603515625,
	"learning_rate": 0.00021974507743615515,
	"loss": 0.8333,
	"step": 13270
	},
	{
	"epoch": 0.14852841668484126,
	"grad_norm": 0.2604407072067261,
	"learning_rate": 0.000219516652199735,
	"loss": 0.8467,
	"step": 13280
	},
	{
	"epoch": 0.14864026037210396,
	"grad_norm": 0.28342294692993164,
	"learning_rate": 0.00021928822696331491,
	"loss": 0.8292,
	"step": 13290
	},
	{
	"epoch": 0.14875210405936662,
	"grad_norm": 0.2564396262168884,
	"learning_rate": 0.0002190598017268948,
	"loss": 0.8355,
	"step": 13300
	},
	{
	"epoch": 0.1488639477466293,
	"grad_norm": 0.2528108060359955,
	"learning_rate": 0.00021883137649047465,
	"loss": 0.8269,
	"step": 13310
	},
	{
	"epoch": 0.148975791433892,
	"grad_norm": 0.26454785466194153,
	"learning_rate": 0.00021860295125405456,
	"loss": 0.8425,
	"step": 13320
	},
	{
	"epoch": 0.14908763512115467,
	"grad_norm": 0.25204601883888245,
	"learning_rate": 0.00021837452601763445,
	"loss": 0.8251,
	"step": 13330
	},
	{
	"epoch": 0.14919947880841736,
	"grad_norm": 0.24680152535438538,
	"learning_rate": 0.0002181461007812143,
	"loss": 0.8247,
	"step": 13340
	},
	{
	"epoch": 0.14931132249568005,
	"grad_norm": 0.27356913685798645,
	"learning_rate": 0.00021791767554479418,
	"loss": 0.811,
	"step": 13350
	},
	{
	"epoch": 0.1494231661829427,
	"grad_norm": 0.24703428149223328,
	"learning_rate": 0.0002176892503083741,
	"loss": 0.8145,
	"step": 13360
	},
	{
	"epoch": 0.1495350098702054,
	"grad_norm": 0.27793166041374207,
	"learning_rate": 0.00021746082507195395,
	"loss": 0.8162,
	"step": 13370
	},
	{
	"epoch": 0.1496468535574681,
	"grad_norm": 0.28826582431793213,
	"learning_rate": 0.00021723239983553383,
	"loss": 0.8258,
	"step": 13380
	},
	{
	"epoch": 0.14975869724473076,
	"grad_norm": 0.24826544523239136,
	"learning_rate": 0.00021700397459911372,
	"loss": 0.8131,
	"step": 13390
	},
	{
	"epoch": 0.14987054093199345,
	"grad_norm": 0.29015326499938965,
	"learning_rate": 0.0002167755493626936,
	"loss": 0.8241,
	"step": 13400
	},
	{
	"epoch": 0.14998238461925611,
	"grad_norm": 0.2692265510559082,
	"learning_rate": 0.00021654712412627348,
	"loss": 0.8046,
	"step": 13410
	},
	{
	"epoch": 0.1500942283065188,
	"grad_norm": 0.28277263045310974,
	"learning_rate": 0.00021631869888985336,
	"loss": 0.8075,
	"step": 13420
	},
	{
	"epoch": 0.1502060719937815,
	"grad_norm": 0.25920721888542175,
	"learning_rate": 0.00021609027365343322,
	"loss": 0.8146,
	"step": 13430
	},
	{
	"epoch": 0.15031791568104416,
	"grad_norm": 0.2548248767852783,
	"learning_rate": 0.00021586184841701313,
	"loss": 0.82,
	"step": 13440
	},
	{
	"epoch": 0.15042975936830685,
	"grad_norm": 0.3121783435344696,
	"learning_rate": 0.000215633423180593,
	"loss": 0.796,
	"step": 13450
	},
	{
	"epoch": 0.15054160305556955,
	"grad_norm": 0.2799825370311737,
	"learning_rate": 0.00021540499794417287,
	"loss": 0.8073,
	"step": 13460
	},
	{
	"epoch": 0.1506534467428322,
	"grad_norm": 0.24525675177574158,
	"learning_rate": 0.00021517657270775275,
	"loss": 0.804,
	"step": 13470
	},
	{
	"epoch": 0.1507652904300949,
	"grad_norm": 0.26799294352531433,
	"learning_rate": 0.00021494814747133266,
	"loss": 0.8086,
	"step": 13480
	},
	{
	"epoch": 0.1508771341173576,
	"grad_norm": 0.24744056165218353,
	"learning_rate": 0.00021471972223491252,
	"loss": 0.7972,
	"step": 13490
	},
	{
	"epoch": 0.15098897780462026,
	"grad_norm": 0.27284878492355347,
	"learning_rate": 0.0002144912969984924,
	"loss": 0.8048,
	"step": 13500
	},
	{
	"epoch": 0.15110082149188295,
	"grad_norm": 0.2427281141281128,
	"learning_rate": 0.00021426287176207225,
	"loss": 0.8043,
	"step": 13510
	},
	{
	"epoch": 0.15121266517914564,
	"grad_norm": 0.27432921528816223,
	"learning_rate": 0.00021403444652565216,
	"loss": 0.8198,
	"step": 13520
	},
	{
	"epoch": 0.1513245088664083,
	"grad_norm": 0.26843661069869995,
	"learning_rate": 0.00021380602128923205,
	"loss": 0.8156,
	"step": 13530
	},
	{
	"epoch": 0.151436352553671,
	"grad_norm": 0.2460176795721054,
	"learning_rate": 0.0002135775960528119,
	"loss": 0.806,
	"step": 13540
	},
	{
	"epoch": 0.15154819624093366,
	"grad_norm": 0.24147658050060272,
	"learning_rate": 0.00021334917081639179,
	"loss": 0.8146,
	"step": 13550
	},
	{
	"epoch": 0.15166003992819635,
	"grad_norm": 0.2715270221233368,
	"learning_rate": 0.0002131207455799717,
	"loss": 0.8065,
	"step": 13560
	},
	{
	"epoch": 0.15177188361545904,
	"grad_norm": 0.2851991653442383,
	"learning_rate": 0.00021289232034355155,
	"loss": 0.8042,
	"step": 13570
	},
	{
	"epoch": 0.1518837273027217,
	"grad_norm": 0.2779170870780945,
	"learning_rate": 0.00021266389510713143,
	"loss": 0.8163,
	"step": 13580
	},
	{
	"epoch": 0.1519955709899844,
	"grad_norm": 0.2853197455406189,
	"learning_rate": 0.00021243546987071132,
	"loss": 0.8025,
	"step": 13590
	},
	{
	"epoch": 0.1521074146772471,
	"grad_norm": 0.2753603160381317,
	"learning_rate": 0.0002122070446342912,
	"loss": 0.8187,
	"step": 13600
	},
	{
	"epoch": 0.15221925836450975,
	"grad_norm": 0.29546552896499634,
	"learning_rate": 0.00021197861939787108,
	"loss": 0.8189,
	"step": 13610
	},
	{
	"epoch": 0.15233110205177244,
	"grad_norm": 0.2799798250198364,
	"learning_rate": 0.00021175019416145097,
	"loss": 0.8098,
	"step": 13620
	},
	{
	"epoch": 0.15244294573903514,
	"grad_norm": 0.23527085781097412,
	"learning_rate": 0.00021152176892503082,
	"loss": 0.8212,
	"step": 13630
	},
	{
	"epoch": 0.1525547894262978,
	"grad_norm": 0.27207401394844055,
	"learning_rate": 0.00021129334368861073,
	"loss": 0.808,
	"step": 13640
	},
	{
	"epoch": 0.1526666331135605,
	"grad_norm": 0.26520609855651855,
	"learning_rate": 0.00021106491845219061,
	"loss": 0.8133,
	"step": 13650
	},
	{
	"epoch": 0.15277847680082318,
	"grad_norm": 0.2750151455402374,
	"learning_rate": 0.00021083649321577047,
	"loss": 0.8248,
	"step": 13660
	},
	{
	"epoch": 0.15289032048808585,
	"grad_norm": 0.28339120745658875,
	"learning_rate": 0.00021060806797935035,
	"loss": 0.8175,
	"step": 13670
	},
	{
	"epoch": 0.15300216417534854,
	"grad_norm": 0.27611440420150757,
	"learning_rate": 0.00021037964274293026,
	"loss": 0.8232,
	"step": 13680
	},
	{
	"epoch": 0.1531140078626112,
	"grad_norm": 0.264113187789917,
	"learning_rate": 0.00021015121750651012,
	"loss": 0.8217,
	"step": 13690
	},
	{
	"epoch": 0.1532258515498739,
	"grad_norm": 0.27031853795051575,
	"learning_rate": 0.00020992279227009,
	"loss": 0.8242,
	"step": 13700
	},
	{
	"epoch": 0.15333769523713658,
	"grad_norm": 0.2753359079360962,
	"learning_rate": 0.00020969436703366988,
	"loss": 0.8311,
	"step": 13710
	},
	{
	"epoch": 0.15344953892439925,
	"grad_norm": 0.24859648942947388,
	"learning_rate": 0.00020946594179724977,
	"loss": 0.8285,
	"step": 13720
	},
	{
	"epoch": 0.15356138261166194,
	"grad_norm": 0.2773294448852539,
	"learning_rate": 0.00020923751656082965,
	"loss": 0.8201,
	"step": 13730
	},
	{
	"epoch": 0.15367322629892463,
	"grad_norm": 0.23855488002300262,
	"learning_rate": 0.0002090090913244095,
	"loss": 0.8145,
	"step": 13740
	},
	{
	"epoch": 0.1537850699861873,
	"grad_norm": 0.27641457319259644,
	"learning_rate": 0.0002087806660879894,
	"loss": 0.8233,
	"step": 13750
	},
	{
	"epoch": 0.15389691367345,
	"grad_norm": 0.26556023955345154,
	"learning_rate": 0.0002085522408515693,
	"loss": 0.8309,
	"step": 13760
	},
	{
	"epoch": 0.15400875736071268,
	"grad_norm": 0.2980164885520935,
	"learning_rate": 0.00020832381561514915,
	"loss": 0.8585,
	"step": 13770
	},
	{
	"epoch": 0.15412060104797534,
	"grad_norm": 0.21802592277526855,
	"learning_rate": 0.00020809539037872904,
	"loss": 0.8385,
	"step": 13780
	},
	{
	"epoch": 0.15423244473523803,
	"grad_norm": 0.3153620958328247,
	"learning_rate": 0.00020786696514230895,
	"loss": 0.8423,
	"step": 13790
	},
	{
	"epoch": 0.15434428842250072,
	"grad_norm": 0.2928372621536255,
	"learning_rate": 0.0002076385399058888,
	"loss": 0.8399,
	"step": 13800
	},
	{
	"epoch": 0.1544561321097634,
	"grad_norm": 0.3015557527542114,
	"learning_rate": 0.00020741011466946868,
	"loss": 0.843,
	"step": 13810
	},
	{
	"epoch": 0.15456797579702608,
	"grad_norm": 0.2243575006723404,
	"learning_rate": 0.00020718168943304857,
	"loss": 0.8302,
	"step": 13820
	},
	{
	"epoch": 0.15467981948428874,
	"grad_norm": 0.23281534016132355,
	"learning_rate": 0.00020695326419662845,
	"loss": 0.8268,
	"step": 13830
	},
	{
	"epoch": 0.15479166317155144,
	"grad_norm": 0.2412877380847931,
	"learning_rate": 0.00020672483896020833,
	"loss": 0.849,
	"step": 13840
	},
	{
	"epoch": 0.15490350685881413,
	"grad_norm": 0.2762492001056671,
	"learning_rate": 0.00020649641372378822,
	"loss": 0.8324,
	"step": 13850
	},
	{
	"epoch": 0.1550153505460768,
	"grad_norm": 0.27976560592651367,
	"learning_rate": 0.00020626798848736807,
	"loss": 0.843,
	"step": 13860
	},
	{
	"epoch": 0.15512719423333948,
	"grad_norm": 0.29076194763183594,
	"learning_rate": 0.00020603956325094798,
	"loss": 0.8575,
	"step": 13870
	},
	{
	"epoch": 0.15523903792060217,
	"grad_norm": 0.2367868423461914,
	"learning_rate": 0.00020581113801452786,
	"loss": 0.8465,
	"step": 13880
	},
	{
	"epoch": 0.15535088160786484,
	"grad_norm": 0.26191186904907227,
	"learning_rate": 0.00020558271277810772,
	"loss": 0.8291,
	"step": 13890
	},
	{
	"epoch": 0.15546272529512753,
	"grad_norm": 0.27254414558410645,
	"learning_rate": 0.0002053542875416876,
	"loss": 0.8347,
	"step": 13900
	},
	{
	"epoch": 0.15557456898239022,
	"grad_norm": 0.2718988060951233,
	"learning_rate": 0.0002051258623052675,
	"loss": 0.8319,
	"step": 13910
	},
	{
	"epoch": 0.15568641266965288,
	"grad_norm": 0.24478264153003693,
	"learning_rate": 0.00020489743706884737,
	"loss": 0.8369,
	"step": 13920
	},
	{
	"epoch": 0.15579825635691558,
	"grad_norm": 0.27791038155555725,
	"learning_rate": 0.00020466901183242725,
	"loss": 0.8486,
	"step": 13930
	},
	{
	"epoch": 0.15591010004417827,
	"grad_norm": 0.27220630645751953,
	"learning_rate": 0.00020444058659600713,
	"loss": 0.8335,
	"step": 13940
	},
	{
	"epoch": 0.15602194373144093,
	"grad_norm": 0.2945479154586792,
	"learning_rate": 0.00020421216135958702,
	"loss": 0.8234,
	"step": 13950
	},
	{
	"epoch": 0.15613378741870362,
	"grad_norm": 0.2911258041858673,
	"learning_rate": 0.0002039837361231669,
	"loss": 0.8279,
	"step": 13960
	},
	{
	"epoch": 0.15624563110596631,
	"grad_norm": 0.3039700984954834,
	"learning_rate": 0.00020375531088674676,
	"loss": 0.8409,
	"step": 13970
	},
	{
	"epoch": 0.15635747479322898,
	"grad_norm": 0.27290788292884827,
	"learning_rate": 0.00020352688565032664,
	"loss": 0.8394,
	"step": 13980
	},
	{
	"epoch": 0.15646931848049167,
	"grad_norm": 0.28534916043281555,
	"learning_rate": 0.00020329846041390655,
	"loss": 0.8431,
	"step": 13990
	},
	{
	"epoch": 0.15658116216775433,
	"grad_norm": 0.304221510887146,
	"learning_rate": 0.0002030700351774864,
	"loss": 0.8476,
	"step": 14000
	},
	{
	"epoch": 0.15669300585501703,
	"grad_norm": 0.3151461184024811,
	"learning_rate": 0.0002028416099410663,
	"loss": 0.852,
	"step": 14010
	},
	{
	"epoch": 0.15680484954227972,
	"grad_norm": 0.2947019040584564,
	"learning_rate": 0.00020261318470464617,
	"loss": 0.8396,
	"step": 14020
	},
	{
	"epoch": 0.15691669322954238,
	"grad_norm": 0.2737627625465393,
	"learning_rate": 0.00020238475946822605,
	"loss": 0.8337,
	"step": 14030
	},
	{
	"epoch": 0.15702853691680507,
	"grad_norm": 0.28257089853286743,
	"learning_rate": 0.00020215633423180594,
	"loss": 0.8475,
	"step": 14040
	},
	{
	"epoch": 0.15714038060406776,
	"grad_norm": 0.3102625608444214,
	"learning_rate": 0.00020192790899538582,
	"loss": 0.8451,
	"step": 14050
	},
	{
	"epoch": 0.15725222429133043,
	"grad_norm": 0.2839931845664978,
	"learning_rate": 0.00020169948375896567,
	"loss": 0.8365,
	"step": 14060
	},
	{
	"epoch": 0.15736406797859312,
	"grad_norm": 0.25566980242729187,
	"learning_rate": 0.00020147105852254558,
	"loss": 0.8287,
	"step": 14070
	},
	{
	"epoch": 0.1574759116658558,
	"grad_norm": 0.267791211605072,
	"learning_rate": 0.00020124263328612547,
	"loss": 0.8289,
	"step": 14080
	},
	{
	"epoch": 0.15758775535311847,
	"grad_norm": 0.267635703086853,
	"learning_rate": 0.00020101420804970532,
	"loss": 0.8357,
	"step": 14090
	},
	{
	"epoch": 0.15769959904038117,
	"grad_norm": 0.28065699338912964,
	"learning_rate": 0.0002007857828132852,
	"loss": 0.8363,
	"step": 14100
	},
	{
	"epoch": 0.15781144272764386,
	"grad_norm": 0.26585736870765686,
	"learning_rate": 0.00020055735757686512,
	"loss": 0.8409,
	"step": 14110
	},
	{
	"epoch": 0.15792328641490652,
	"grad_norm": 0.2562732398509979,
	"learning_rate": 0.00020032893234044497,
	"loss": 0.8374,
	"step": 14120
	},
	{
	"epoch": 0.1580351301021692,
	"grad_norm": 0.2572222650051117,
	"learning_rate": 0.00020010050710402485,
	"loss": 0.8405,
	"step": 14130
	},
	{
	"epoch": 0.15814697378943188,
	"grad_norm": 0.3075050413608551,
	"learning_rate": 0.00019987208186760474,
	"loss": 0.825,
	"step": 14140
	},
	{
	"epoch": 0.15825881747669457,
	"grad_norm": 0.2630293071269989,
	"learning_rate": 0.00019964365663118462,
	"loss": 0.8326,
	"step": 14150
	},
	{
	"epoch": 0.15837066116395726,
	"grad_norm": 0.255015105009079,
	"learning_rate": 0.0001994152313947645,
	"loss": 0.8181,
	"step": 14160
	},
	{
	"epoch": 0.15848250485121992,
	"grad_norm": 0.25929179787635803,
	"learning_rate": 0.00019918680615834438,
	"loss": 0.8067,
	"step": 14170
	},
	{
	"epoch": 0.15859434853848262,
	"grad_norm": 0.27078965306282043,
	"learning_rate": 0.00019895838092192424,
	"loss": 0.8043,
	"step": 14180
	},
	{
	"epoch": 0.1587061922257453,
	"grad_norm": 0.2618376612663269,
	"learning_rate": 0.00019872995568550415,
	"loss": 0.8191,
	"step": 14190
	},
	{
	"epoch": 0.15881803591300797,
	"grad_norm": 0.246153324842453,
	"learning_rate": 0.000198501530449084,
	"loss": 0.8251,
	"step": 14200
	},
	{
	"epoch": 0.15892987960027066,
	"grad_norm": 0.25498026609420776,
	"learning_rate": 0.0001982731052126639,
	"loss": 0.8319,
	"step": 14210
	},
	{
	"epoch": 0.15904172328753335,
	"grad_norm": 0.2517942190170288,
	"learning_rate": 0.0001980446799762438,
	"loss": 0.8106,
	"step": 14220
	},
	{
	"epoch": 0.15915356697479602,
	"grad_norm": 0.2659161388874054,
	"learning_rate": 0.00019781625473982365,
	"loss": 0.8163,
	"step": 14230
	},
	{
	"epoch": 0.1592654106620587,
	"grad_norm": 0.24527288973331451,
	"learning_rate": 0.00019758782950340354,
	"loss": 0.8359,
	"step": 14240
	},
	{
	"epoch": 0.1593772543493214,
	"grad_norm": 0.23943792283535004,
	"learning_rate": 0.00019735940426698342,
	"loss": 0.8253,
	"step": 14250
	},
	{
	"epoch": 0.15948909803658406,
	"grad_norm": 0.30401650071144104,
	"learning_rate": 0.0001971309790305633,
	"loss": 0.8369,
	"step": 14260
	},
	{
	"epoch": 0.15960094172384676,
	"grad_norm": 0.25001001358032227,
	"learning_rate": 0.00019690255379414319,
	"loss": 0.8354,
	"step": 14270
	},
	{
	"epoch": 0.15971278541110942,
	"grad_norm": 0.2378586083650589,
	"learning_rate": 0.00019667412855772307,
	"loss": 0.8324,
	"step": 14280
	},
	{
	"epoch": 0.1598246290983721,
	"grad_norm": 0.26216059923171997,
	"learning_rate": 0.00019644570332130292,
	"loss": 0.8227,
	"step": 14290
	},
	{
	"epoch": 0.1599364727856348,
	"grad_norm": 0.24156969785690308,
	"learning_rate": 0.00019621727808488283,
	"loss": 0.8362,
	"step": 14300
	},
	{
	"epoch": 0.16004831647289747,
	"grad_norm": 0.24192091822624207,
	"learning_rate": 0.00019598885284846272,
	"loss": 0.835,
	"step": 14310
	},
	{
	"epoch": 0.16016016016016016,
	"grad_norm": 0.24861887097358704,
	"learning_rate": 0.00019576042761204257,
	"loss": 0.8232,
	"step": 14320
	},
	{
	"epoch": 0.16027200384742285,
	"grad_norm": 0.27175864577293396,
	"learning_rate": 0.00019553200237562246,
	"loss": 0.8303,
	"step": 14330
	},
	{
	"epoch": 0.16038384753468551,
	"grad_norm": 0.272334486246109,
	"learning_rate": 0.00019530357713920237,
	"loss": 0.8217,
	"step": 14340
	},
	{
	"epoch": 0.1604956912219482,
	"grad_norm": 0.28357213735580444,
	"learning_rate": 0.00019507515190278222,
	"loss": 0.8343,
	"step": 14350
	},
	{
	"epoch": 0.1606075349092109,
	"grad_norm": 0.272276371717453,
	"learning_rate": 0.0001948467266663621,
	"loss": 0.8235,
	"step": 14360
	},
	{
	"epoch": 0.16071937859647356,
	"grad_norm": 0.26771044731140137,
	"learning_rate": 0.000194618301429942,
	"loss": 0.8292,
	"step": 14370
	},
	{
	"epoch": 0.16083122228373625,
	"grad_norm": 0.27449774742126465,
	"learning_rate": 0.00019438987619352187,
	"loss": 0.8485,
	"step": 14380
	},
	{
	"epoch": 0.16094306597099894,
	"grad_norm": 0.26026156544685364,
	"learning_rate": 0.00019416145095710175,
	"loss": 0.8458,
	"step": 14390
	},
	{
	"epoch": 0.1610549096582616,
	"grad_norm": 0.2667345404624939,
	"learning_rate": 0.00019393302572068164,
	"loss": 0.8519,
	"step": 14400
	},
	{
	"epoch": 0.1611667533455243,
	"grad_norm": 0.26302048563957214,
	"learning_rate": 0.0001937046004842615,
	"loss": 0.8353,
	"step": 14410
	},
	{
	"epoch": 0.16127859703278696,
	"grad_norm": 0.24420003592967987,
	"learning_rate": 0.0001934761752478414,
	"loss": 0.8464,
	"step": 14420
	},
	{
	"epoch": 0.16139044072004965,
	"grad_norm": 0.2739315629005432,
	"learning_rate": 0.00019324775001142126,
	"loss": 0.8257,
	"step": 14430
	},
	{
	"epoch": 0.16150228440731235,
	"grad_norm": 0.2370629757642746,
	"learning_rate": 0.00019301932477500114,
	"loss": 0.8324,
	"step": 14440
	},
	{
	"epoch": 0.161614128094575,
	"grad_norm": 0.2616153955459595,
	"learning_rate": 0.00019279089953858102,
	"loss": 0.8513,
	"step": 14450
	},
	{
	"epoch": 0.1617259717818377,
	"grad_norm": 0.2527558207511902,
	"learning_rate": 0.0001925624743021609,
	"loss": 0.8435,
	"step": 14460
	},
	{
	"epoch": 0.1618378154691004,
	"grad_norm": 0.28255122900009155,
	"learning_rate": 0.0001923340490657408,
	"loss": 0.8497,
	"step": 14470
	},
	{
	"epoch": 0.16194965915636306,
	"grad_norm": 0.23198026418685913,
	"learning_rate": 0.00019210562382932067,
	"loss": 0.8357,
	"step": 14480
	},
	{
	"epoch": 0.16206150284362575,
	"grad_norm": 0.2534460127353668,
	"learning_rate": 0.00019187719859290053,
	"loss": 0.8396,
	"step": 14490
	},
	{
	"epoch": 0.16217334653088844,
	"grad_norm": 0.2693686783313751,
	"learning_rate": 0.00019164877335648044,
	"loss": 0.8438,
	"step": 14500
	},
	{
	"epoch": 0.1622851902181511,
	"grad_norm": 0.26181599497795105,
	"learning_rate": 0.00019142034812006032,
	"loss": 0.8452,
	"step": 14510
	},
	{
	"epoch": 0.1623970339054138,
	"grad_norm": 0.2268761545419693,
	"learning_rate": 0.00019119192288364017,
	"loss": 0.8496,
	"step": 14520
	},
	{
	"epoch": 0.1625088775926765,
	"grad_norm": 0.27698907256126404,
	"learning_rate": 0.00019096349764722006,
	"loss": 0.8265,
	"step": 14530
	},
	{
	"epoch": 0.16262072127993915,
	"grad_norm": 0.30570700764656067,
	"learning_rate": 0.00019073507241079997,
	"loss": 0.8399,
	"step": 14540
	},
	{
	"epoch": 0.16273256496720184,
	"grad_norm": 0.2894477844238281,
	"learning_rate": 0.00019050664717437982,
	"loss": 0.8488,
	"step": 14550
	},
	{
	"epoch": 0.16284440865446453,
	"grad_norm": 0.3094457685947418,
	"learning_rate": 0.0001902782219379597,
	"loss": 0.8243,
	"step": 14560
	},
	{
	"epoch": 0.1629562523417272,
	"grad_norm": 0.2908037602901459,
	"learning_rate": 0.0001900497967015396,
	"loss": 0.835,
	"step": 14570
	},
	{
	"epoch": 0.1630680960289899,
	"grad_norm": 0.27222102880477905,
	"learning_rate": 0.00018982137146511947,
	"loss": 0.8306,
	"step": 14580
	},
	{
	"epoch": 0.16317993971625255,
	"grad_norm": 0.2542339563369751,
	"learning_rate": 0.00018959294622869935,
	"loss": 0.8259,
	"step": 14590
	},
	{
	"epoch": 0.16329178340351524,
	"grad_norm": 0.28288012742996216,
	"learning_rate": 0.00018936452099227924,
	"loss": 0.8243,
	"step": 14600
	},
	{
	"epoch": 0.16340362709077794,
	"grad_norm": 0.2584143877029419,
	"learning_rate": 0.0001891360957558591,
	"loss": 0.8224,
	"step": 14610
	},
	{
	"epoch": 0.1635154707780406,
	"grad_norm": 0.26679450273513794,
	"learning_rate": 0.000188907670519439,
	"loss": 0.8142,
	"step": 14620
	},
	{
	"epoch": 0.1636273144653033,
	"grad_norm": 0.24589306116104126,
	"learning_rate": 0.00018867924528301889,
	"loss": 0.81,
	"step": 14630
	},
	{
	"epoch": 0.16373915815256598,
	"grad_norm": 0.28474611043930054,
	"learning_rate": 0.00018845082004659874,
	"loss": 0.7989,
	"step": 14640
	},
	{
	"epoch": 0.16385100183982865,
	"grad_norm": 0.27567991614341736,
	"learning_rate": 0.00018822239481017862,
	"loss": 0.8049,
	"step": 14650
	},
	{
	"epoch": 0.16396284552709134,
	"grad_norm": 0.2509905695915222,
	"learning_rate": 0.0001879939695737585,
	"loss": 0.8168,
	"step": 14660
	},
	{
	"epoch": 0.16407468921435403,
	"grad_norm": 0.30284953117370605,
	"learning_rate": 0.0001877655443373384,
	"loss": 0.8055,
	"step": 14670
	},
	{
	"epoch": 0.1641865329016167,
	"grad_norm": 0.27638325095176697,
	"learning_rate": 0.00018753711910091827,
	"loss": 0.8368,
	"step": 14680
	},
	{
	"epoch": 0.16429837658887939,
	"grad_norm": 0.29546642303466797,
	"learning_rate": 0.00018730869386449816,
	"loss": 0.8161,
	"step": 14690
	},
	{
	"epoch": 0.16441022027614208,
	"grad_norm": 0.2483370304107666,
	"learning_rate": 0.00018708026862807804,
	"loss": 0.8136,
	"step": 14700
	},
	{
	"epoch": 0.16452206396340474,
	"grad_norm": 0.2862898111343384,
	"learning_rate": 0.00018685184339165792,
	"loss": 0.836,
	"step": 14710
	},
	{
	"epoch": 0.16463390765066743,
	"grad_norm": 0.2730434238910675,
	"learning_rate": 0.00018662341815523778,
	"loss": 0.8279,
	"step": 14720
	},
	{
	"epoch": 0.1647457513379301,
	"grad_norm": 0.2846275269985199,
	"learning_rate": 0.0001863949929188177,
	"loss": 0.7991,
	"step": 14730
	},
	{
	"epoch": 0.1648575950251928,
	"grad_norm": 0.2455524355173111,
	"learning_rate": 0.00018616656768239757,
	"loss": 0.7931,
	"step": 14740
	},
	{
	"epoch": 0.16496943871245548,
	"grad_norm": 0.25060829520225525,
	"learning_rate": 0.00018593814244597743,
	"loss": 0.8009,
	"step": 14750
	},
	{
	"epoch": 0.16508128239971814,
	"grad_norm": 0.2687000334262848,
	"learning_rate": 0.0001857097172095573,
	"loss": 0.7968,
	"step": 14760
	},
	{
	"epoch": 0.16519312608698083,
	"grad_norm": 0.28619691729545593,
	"learning_rate": 0.00018548129197313722,
	"loss": 0.7818,
	"step": 14770
	},
	{
	"epoch": 0.16530496977424353,
	"grad_norm": 0.2549494206905365,
	"learning_rate": 0.00018525286673671707,
	"loss": 0.7877,
	"step": 14780
	},
	{
	"epoch": 0.1654168134615062,
	"grad_norm": 0.2419700175523758,
	"learning_rate": 0.00018502444150029696,
	"loss": 0.7899,
	"step": 14790
	},
	{
	"epoch": 0.16552865714876888,
	"grad_norm": 0.2636066675186157,
	"learning_rate": 0.00018479601626387684,
	"loss": 0.7893,
	"step": 14800
	},
	{
	"epoch": 0.16564050083603157,
	"grad_norm": 0.264072984457016,
	"learning_rate": 0.00018456759102745672,
	"loss": 0.7984,
	"step": 14810
	},
	{
	"epoch": 0.16575234452329424,
	"grad_norm": 0.2661677598953247,
	"learning_rate": 0.0001843391657910366,
	"loss": 0.8085,
	"step": 14820
	},
	{
	"epoch": 0.16586418821055693,
	"grad_norm": 0.28324052691459656,
	"learning_rate": 0.0001841107405546165,
	"loss": 0.8066,
	"step": 14830
	},
	{
	"epoch": 0.16597603189781962,
	"grad_norm": 0.277761310338974,
	"learning_rate": 0.00018388231531819634,
	"loss": 0.8008,
	"step": 14840
	},
	{
	"epoch": 0.16608787558508228,
	"grad_norm": 0.2669602036476135,
	"learning_rate": 0.00018365389008177625,
	"loss": 0.8285,
	"step": 14850
	},
	{
	"epoch": 0.16619971927234498,
	"grad_norm": 0.28757140040397644,
	"learning_rate": 0.00018342546484535614,
	"loss": 0.8121,
	"step": 14860
	},
	{
	"epoch": 0.16631156295960764,
	"grad_norm": 0.2616439163684845,
	"learning_rate": 0.000183197039608936,
	"loss": 0.8185,
	"step": 14870
	},
	{
	"epoch": 0.16642340664687033,
	"grad_norm": 0.28334370255470276,
	"learning_rate": 0.00018296861437251587,
	"loss": 0.8229,
	"step": 14880
	},
	{
	"epoch": 0.16653525033413302,
	"grad_norm": 0.2659022808074951,
	"learning_rate": 0.00018274018913609576,
	"loss": 0.82,
	"step": 14890
	},
	{
	"epoch": 0.1666470940213957,
	"grad_norm": 0.2544262111186981,
	"learning_rate": 0.00018251176389967564,
	"loss": 0.84,
	"step": 14900
	},
	{
	"epoch": 0.16675893770865838,
	"grad_norm": 0.27492937445640564,
	"learning_rate": 0.00018228333866325552,
	"loss": 0.8411,
	"step": 14910
	},
	{
	"epoch": 0.16687078139592107,
	"grad_norm": 0.2961216866970062,
	"learning_rate": 0.00018205491342683538,
	"loss": 0.8178,
	"step": 14920
	},
	{
	"epoch": 0.16698262508318373,
	"grad_norm": 0.2704416811466217,
	"learning_rate": 0.0001818264881904153,
	"loss": 0.8264,
	"step": 14930
	},
	{
	"epoch": 0.16709446877044642,
	"grad_norm": 0.261704683303833,
	"learning_rate": 0.00018159806295399517,
	"loss": 0.8307,
	"step": 14940
	},
	{
	"epoch": 0.16720631245770912,
	"grad_norm": 0.26157405972480774,
	"learning_rate": 0.00018136963771757503,
	"loss": 0.8064,
	"step": 14950
	},
	{
	"epoch": 0.16731815614497178,
	"grad_norm": 0.2589896023273468,
	"learning_rate": 0.0001811412124811549,
	"loss": 0.8195,
	"step": 14960
	},
	{
	"epoch": 0.16742999983223447,
	"grad_norm": 0.24691319465637207,
	"learning_rate": 0.00018091278724473482,
	"loss": 0.8283,
	"step": 14970
	},
	{
	"epoch": 0.16754184351949716,
	"grad_norm": 0.2527819871902466,
	"learning_rate": 0.00018068436200831468,
	"loss": 0.8229,
	"step": 14980
	},
	{
	"epoch": 0.16765368720675983,
	"grad_norm": 0.2639094293117523,
	"learning_rate": 0.00018045593677189456,
	"loss": 0.8393,
	"step": 14990
	},
	{
	"epoch": 0.16776553089402252,
	"grad_norm": 0.24417634308338165,
	"learning_rate": 0.00018022751153547444,
	"loss": 0.8204,
	"step": 15000
	},
	{
	"epoch": 0.16787737458128518,
	"grad_norm": 0.25673115253448486,
	"learning_rate": 0.00017999908629905432,
	"loss": 0.8184,
	"step": 15010
	},
	{
	"epoch": 0.16798921826854787,
	"grad_norm": 0.254077285528183,
	"learning_rate": 0.0001797706610626342,
	"loss": 0.8195,
	"step": 15020
	},
	{
	"epoch": 0.16810106195581057,
	"grad_norm": 0.2455417662858963,
	"learning_rate": 0.0001795422358262141,
	"loss": 0.8255,
	"step": 15030
	},
	{
	"epoch": 0.16821290564307323,
	"grad_norm": 0.27918189764022827,
	"learning_rate": 0.00017931381058979395,
	"loss": 0.8345,
	"step": 15040
	},
	{
	"epoch": 0.16832474933033592,
	"grad_norm": 0.2272186279296875,
	"learning_rate": 0.00017908538535337386,
	"loss": 0.8178,
	"step": 15050
	},
	{
	"epoch": 0.1684365930175986,
	"grad_norm": 0.269189715385437,
	"learning_rate": 0.00017885696011695374,
	"loss": 0.8343,
	"step": 15060
	},
	{
	"epoch": 0.16854843670486128,
	"grad_norm": 0.2805529832839966,
	"learning_rate": 0.0001786285348805336,
	"loss": 0.8126,
	"step": 15070
	},
	{
	"epoch": 0.16866028039212397,
	"grad_norm": 0.28788769245147705,
	"learning_rate": 0.00017840010964411348,
	"loss": 0.8278,
	"step": 15080
	},
	{
	"epoch": 0.16877212407938666,
	"grad_norm": 0.2439277619123459,
	"learning_rate": 0.00017817168440769336,
	"loss": 0.8272,
	"step": 15090
	},
	{
	"epoch": 0.16888396776664932,
	"grad_norm": 0.3151440918445587,
	"learning_rate": 0.00017794325917127324,
	"loss": 0.8201,
	"step": 15100
	},
	{
	"epoch": 0.16899581145391201,
	"grad_norm": 0.2562885880470276,
	"learning_rate": 0.00017771483393485313,
	"loss": 0.8275,
	"step": 15110
	},
	{
	"epoch": 0.1691076551411747,
	"grad_norm": 0.2718476355075836,
	"learning_rate": 0.00017748640869843298,
	"loss": 0.821,
	"step": 15120
	},
	{
	"epoch": 0.16921949882843737,
	"grad_norm": 0.2699459493160248,
	"learning_rate": 0.0001772579834620129,
	"loss": 0.8352,
	"step": 15130
	},
	{
	"epoch": 0.16933134251570006,
	"grad_norm": 0.29737600684165955,
	"learning_rate": 0.00017702955822559277,
	"loss": 0.8279,
	"step": 15140
	},
	{
	"epoch": 0.16944318620296273,
	"grad_norm": 0.3075369894504547,
	"learning_rate": 0.00017680113298917263,
	"loss": 0.8037,
	"step": 15150
	},
	{
	"epoch": 0.16955502989022542,
	"grad_norm": 0.27061593532562256,
	"learning_rate": 0.00017657270775275254,
	"loss": 0.8149,
	"step": 15160
	},
	{
	"epoch": 0.1696668735774881,
	"grad_norm": 0.26719844341278076,
	"learning_rate": 0.00017634428251633242,
	"loss": 0.7896,
	"step": 15170
	},
	{
	"epoch": 0.16977871726475077,
	"grad_norm": 0.2871409058570862,
	"learning_rate": 0.00017611585727991228,
	"loss": 0.7863,
	"step": 15180
	},
	{
	"epoch": 0.16989056095201346,
	"grad_norm": 0.2502906620502472,
	"learning_rate": 0.00017588743204349216,
	"loss": 0.7817,
	"step": 15190
	},
	{
	"epoch": 0.17000240463927616,
	"grad_norm": 0.2579248547554016,
	"learning_rate": 0.00017565900680707207,
	"loss": 0.796,
	"step": 15200
	},
	{
	"epoch": 0.17011424832653882,
	"grad_norm": 0.2537415325641632,
	"learning_rate": 0.00017543058157065193,
	"loss": 0.78,
	"step": 15210
	},
	{
	"epoch": 0.1702260920138015,
	"grad_norm": 0.2420157790184021,
	"learning_rate": 0.0001752021563342318,
	"loss": 0.7946,
	"step": 15220
	},
	{
	"epoch": 0.1703379357010642,
	"grad_norm": 0.2423790544271469,
	"learning_rate": 0.0001749737310978117,
	"loss": 0.797,
	"step": 15230
	},
	{
	"epoch": 0.17044977938832687,
	"grad_norm": 0.2521071434020996,
	"learning_rate": 0.00017474530586139157,
	"loss": 0.8073,
	"step": 15240
	},
	{
	"epoch": 0.17056162307558956,
	"grad_norm": 0.22921273112297058,
	"learning_rate": 0.00017451688062497146,
	"loss": 0.7916,
	"step": 15250
	},
	{
	"epoch": 0.17067346676285225,
	"grad_norm": 0.35150206089019775,
	"learning_rate": 0.00017428845538855134,
	"loss": 0.8001,
	"step": 15260
	},
	{
	"epoch": 0.1707853104501149,
	"grad_norm": 0.27637869119644165,
	"learning_rate": 0.0001740600301521312,
	"loss": 0.7948,
	"step": 15270
	},
	{
	"epoch": 0.1708971541373776,
	"grad_norm": 0.22480230033397675,
	"learning_rate": 0.0001738316049157111,
	"loss": 0.7932,
	"step": 15280
	},
	{
	"epoch": 0.1710089978246403,
	"grad_norm": 0.27264508605003357,
	"learning_rate": 0.000173603179679291,
	"loss": 0.8083,
	"step": 15290
	},
	{
	"epoch": 0.17112084151190296,
	"grad_norm": 0.2647417485713959,
	"learning_rate": 0.00017337475444287084,
	"loss": 0.8177,
	"step": 15300
	},
	{
	"epoch": 0.17123268519916565,
	"grad_norm": 0.23619987070560455,
	"learning_rate": 0.00017314632920645073,
	"loss": 0.8068,
	"step": 15310
	},
	{
	"epoch": 0.17134452888642832,
	"grad_norm": 0.22450131177902222,
	"learning_rate": 0.0001729179039700306,
	"loss": 0.8004,
	"step": 15320
	},
	{
	"epoch": 0.171456372573691,
	"grad_norm": 0.2784859240055084,
	"learning_rate": 0.0001726894787336105,
	"loss": 0.7938,
	"step": 15330
	},
	{
	"epoch": 0.1715682162609537,
	"grad_norm": 0.25513574481010437,
	"learning_rate": 0.00017246105349719038,
	"loss": 0.7844,
	"step": 15340
	},
	{
	"epoch": 0.17168005994821636,
	"grad_norm": 0.27425146102905273,
	"learning_rate": 0.00017223262826077023,
	"loss": 0.7906,
	"step": 15350
	},
	{
	"epoch": 0.17179190363547905,
	"grad_norm": 0.2500791847705841,
	"learning_rate": 0.00017200420302435014,
	"loss": 0.7834,
	"step": 15360
	},
	{
	"epoch": 0.17190374732274175,
	"grad_norm": 0.2550630271434784,
	"learning_rate": 0.00017177577778793002,
	"loss": 0.7736,
	"step": 15370
	},
	{
	"epoch": 0.1720155910100044,
	"grad_norm": 0.25209444761276245,
	"learning_rate": 0.00017154735255150988,
	"loss": 0.773,
	"step": 15380
	},
	{
	"epoch": 0.1721274346972671,
	"grad_norm": 0.2347812056541443,
	"learning_rate": 0.00017131892731508976,
	"loss": 0.7745,
	"step": 15390
	},
	{
	"epoch": 0.1722392783845298,
	"grad_norm": 0.2858305871486664,
	"learning_rate": 0.00017109050207866967,
	"loss": 0.7776,
	"step": 15400
	},
	{
	"epoch": 0.17235112207179246,
	"grad_norm": 0.30414941906929016,
	"learning_rate": 0.00017086207684224953,
	"loss": 0.7701,
	"step": 15410
	},
	{
	"epoch": 0.17246296575905515,
	"grad_norm": 0.2645011842250824,
	"learning_rate": 0.0001706336516058294,
	"loss": 0.7746,
	"step": 15420
	},
	{
	"epoch": 0.17257480944631784,
	"grad_norm": 0.2984048128128052,
	"learning_rate": 0.0001704052263694093,
	"loss": 0.771,
	"step": 15430
	},
	{
	"epoch": 0.1726866531335805,
	"grad_norm": 0.2734147906303406,
	"learning_rate": 0.00017017680113298918,
	"loss": 0.7769,
	"step": 15440
	},
	{
	"epoch": 0.1727984968208432,
	"grad_norm": 0.2632124125957489,
	"learning_rate": 0.00016994837589656906,
	"loss": 0.7754,
	"step": 15450
	},
	{
	"epoch": 0.17291034050810586,
	"grad_norm": 0.29384443163871765,
	"learning_rate": 0.00016971995066014894,
	"loss": 0.7833,
	"step": 15460
	},
	{
	"epoch": 0.17302218419536855,
	"grad_norm": 0.3194182813167572,
	"learning_rate": 0.0001694915254237288,
	"loss": 0.7813,
	"step": 15470
	},
	{
	"epoch": 0.17313402788263124,
	"grad_norm": 0.25995251536369324,
	"learning_rate": 0.0001692631001873087,
	"loss": 0.7796,
	"step": 15480
	},
	{
	"epoch": 0.1732458715698939,
	"grad_norm": 0.272419810295105,
	"learning_rate": 0.0001690346749508886,
	"loss": 0.7839,
	"step": 15490
	},
	{
	"epoch": 0.1733577152571566,
	"grad_norm": 0.26239413022994995,
	"learning_rate": 0.00016880624971446845,
	"loss": 0.7807,
	"step": 15500
	},
	{
	"epoch": 0.1734695589444193,
	"grad_norm": 0.29991698265075684,
	"learning_rate": 0.00016857782447804833,
	"loss": 0.7941,
	"step": 15510
	},
	{
	"epoch": 0.17358140263168195,
	"grad_norm": 0.2812528908252716,
	"learning_rate": 0.00016834939924162824,
	"loss": 0.7863,
	"step": 15520
	},
	{
	"epoch": 0.17369324631894464,
	"grad_norm": 0.2557685077190399,
	"learning_rate": 0.0001681209740052081,
	"loss": 0.7953,
	"step": 15530
	},
	{
	"epoch": 0.17380509000620734,
	"grad_norm": 0.28565913438796997,
	"learning_rate": 0.00016789254876878798,
	"loss": 0.7934,
	"step": 15540
	},
	{
	"epoch": 0.17391693369347,
	"grad_norm": 0.25316086411476135,
	"learning_rate": 0.00016766412353236783,
	"loss": 0.7969,
	"step": 15550
	},
	{
	"epoch": 0.1740287773807327,
	"grad_norm": 0.2636478543281555,
	"learning_rate": 0.00016743569829594774,
	"loss": 0.8021,
	"step": 15560
	},
	{
	"epoch": 0.17414062106799538,
	"grad_norm": 0.28839442133903503,
	"learning_rate": 0.00016720727305952763,
	"loss": 0.8108,
	"step": 15570
	},
	{
	"epoch": 0.17425246475525805,
	"grad_norm": 0.2453639954328537,
	"learning_rate": 0.00016697884782310748,
	"loss": 0.8034,
	"step": 15580
	},
	{
	"epoch": 0.17436430844252074,
	"grad_norm": 0.2550848424434662,
	"learning_rate": 0.0001667504225866874,
	"loss": 0.8169,
	"step": 15590
	},
	{
	"epoch": 0.1744761521297834,
	"grad_norm": 0.24949923157691956,
	"learning_rate": 0.00016652199735026727,
	"loss": 0.8167,
	"step": 15600
	},
	{
	"epoch": 0.1745879958170461,
	"grad_norm": 0.24357125163078308,
	"learning_rate": 0.00016629357211384713,
	"loss": 0.821,
	"step": 15610
	},
	{
	"epoch": 0.17469983950430878,
	"grad_norm": 0.2246461659669876,
	"learning_rate": 0.000166065146877427,
	"loss": 0.82,
	"step": 15620
	},
	{
	"epoch": 0.17481168319157145,
	"grad_norm": 0.26160740852355957,
	"learning_rate": 0.00016583672164100692,
	"loss": 0.8167,
	"step": 15630
	},
	{
	"epoch": 0.17492352687883414,
	"grad_norm": 0.25773337483406067,
	"learning_rate": 0.00016560829640458678,
	"loss": 0.8305,
	"step": 15640
	},
	{
	"epoch": 0.17503537056609683,
	"grad_norm": 0.24051527678966522,
	"learning_rate": 0.00016537987116816666,
	"loss": 0.8201,
	"step": 15650
	},
	{
	"epoch": 0.1751472142533595,
	"grad_norm": 0.2507860064506531,
	"learning_rate": 0.00016515144593174654,
	"loss": 0.8444,
	"step": 15660
	},
	{
	"epoch": 0.1752590579406222,
	"grad_norm": 0.24071821570396423,
	"learning_rate": 0.00016492302069532643,
	"loss": 0.8071,
	"step": 15670
	},
	{
	"epoch": 0.17537090162788488,
	"grad_norm": 0.2533905506134033,
	"learning_rate": 0.0001646945954589063,
	"loss": 0.8164,
	"step": 15680
	},
	{
	"epoch": 0.17548274531514754,
	"grad_norm": 0.2546316683292389,
	"learning_rate": 0.0001644661702224862,
	"loss": 0.8237,
	"step": 15690
	},
	{
	"epoch": 0.17559458900241023,
	"grad_norm": 0.25692155957221985,
	"learning_rate": 0.00016423774498606605,
	"loss": 0.8198,
	"step": 15700
	},
	{
	"epoch": 0.17570643268967293,
	"grad_norm": 0.254535436630249,
	"learning_rate": 0.00016400931974964596,
	"loss": 0.8061,
	"step": 15710
	},
	{
	"epoch": 0.1758182763769356,
	"grad_norm": 0.2557326555252075,
	"learning_rate": 0.00016378089451322584,
	"loss": 0.8194,
	"step": 15720
	},
	{
	"epoch": 0.17593012006419828,
	"grad_norm": 0.24234241247177124,
	"learning_rate": 0.0001635524692768057,
	"loss": 0.8183,
	"step": 15730
	},
	{
	"epoch": 0.17604196375146094,
	"grad_norm": 0.2597709596157074,
	"learning_rate": 0.00016332404404038558,
	"loss": 0.7957,
	"step": 15740
	},
	{
	"epoch": 0.17615380743872364,
	"grad_norm": 0.2896418273448944,
	"learning_rate": 0.0001630956188039655,
	"loss": 0.8146,
	"step": 15750
	},
	{
	"epoch": 0.17626565112598633,
	"grad_norm": 0.2686966061592102,
	"learning_rate": 0.00016286719356754535,
	"loss": 0.7988,
	"step": 15760
	},
	{
	"epoch": 0.176377494813249,
	"grad_norm": 0.26220840215682983,
	"learning_rate": 0.00016263876833112523,
	"loss": 0.7936,
	"step": 15770
	},
	{
	"epoch": 0.17648933850051168,
	"grad_norm": 0.260547012090683,
	"learning_rate": 0.00016241034309470508,
	"loss": 0.8002,
	"step": 15780
	},
	{
	"epoch": 0.17660118218777437,
	"grad_norm": 0.22341471910476685,
	"learning_rate": 0.000162181917858285,
	"loss": 0.7935,
	"step": 15790
	},
	{
	"epoch": 0.17671302587503704,
	"grad_norm": 0.24994009733200073,
	"learning_rate": 0.00016195349262186488,
	"loss": 0.7971,
	"step": 15800
	},
	{
	"epoch": 0.17682486956229973,
	"grad_norm": 0.24070651829242706,
	"learning_rate": 0.00016172506738544473,
	"loss": 0.7844,
	"step": 15810
	},
	{
	"epoch": 0.17693671324956242,
	"grad_norm": 0.23858696222305298,
	"learning_rate": 0.00016149664214902461,
	"loss": 0.7687,
	"step": 15820
	},
	{
	"epoch": 0.17704855693682509,
	"grad_norm": 0.24684946238994598,
	"learning_rate": 0.00016126821691260452,
	"loss": 0.7848,
	"step": 15830
	},
	{
	"epoch": 0.17716040062408778,
	"grad_norm": 0.2525545656681061,
	"learning_rate": 0.00016103979167618438,
	"loss": 0.773,
	"step": 15840
	},
	{
	"epoch": 0.17727224431135047,
	"grad_norm": 0.2485392689704895,
	"learning_rate": 0.00016081136643976426,
	"loss": 0.7787,
	"step": 15850
	},
	{
	"epoch": 0.17738408799861313,
	"grad_norm": 0.2384241223335266,
	"learning_rate": 0.00016058294120334415,
	"loss": 0.7732,
	"step": 15860
	},
	{
	"epoch": 0.17749593168587582,
	"grad_norm": 0.25029659271240234,
	"learning_rate": 0.00016035451596692403,
	"loss": 0.7819,
	"step": 15870
	},
	{
	"epoch": 0.1776077753731385,
	"grad_norm": 0.2988499701023102,
	"learning_rate": 0.0001601260907305039,
	"loss": 0.7815,
	"step": 15880
	},
	{
	"epoch": 0.17771961906040118,
	"grad_norm": 0.25840380787849426,
	"learning_rate": 0.0001598976654940838,
	"loss": 0.7899,
	"step": 15890
	},
	{
	"epoch": 0.17783146274766387,
	"grad_norm": 0.2870889902114868,
	"learning_rate": 0.00015966924025766365,
	"loss": 0.7964,
	"step": 15900
	},
	{
	"epoch": 0.17794330643492653,
	"grad_norm": 0.270702987909317,
	"learning_rate": 0.00015944081502124356,
	"loss": 0.7907,
	"step": 15910
	},
	{
	"epoch": 0.17805515012218923,
	"grad_norm": 0.24939289689064026,
	"learning_rate": 0.00015921238978482344,
	"loss": 0.7909,
	"step": 15920
	},
	{
	"epoch": 0.17816699380945192,
	"grad_norm": 0.25692620873451233,
	"learning_rate": 0.0001589839645484033,
	"loss": 0.7864,
	"step": 15930
	},
	{
	"epoch": 0.17827883749671458,
	"grad_norm": 0.25667235255241394,
	"learning_rate": 0.00015875553931198318,
	"loss": 0.7792,
	"step": 15940
	},
	{
	"epoch": 0.17839068118397727,
	"grad_norm": 0.27988189458847046,
	"learning_rate": 0.0001585271140755631,
	"loss": 0.78,
	"step": 15950
	},
	{
	"epoch": 0.17850252487123996,
	"grad_norm": 0.26706936955451965,
	"learning_rate": 0.00015829868883914295,
	"loss": 0.7764,
	"step": 15960
	},
	{
	"epoch": 0.17861436855850263,
	"grad_norm": 0.25825801491737366,
	"learning_rate": 0.00015807026360272283,
	"loss": 0.7798,
	"step": 15970
	},
	{
	"epoch": 0.17872621224576532,
	"grad_norm": 0.26630404591560364,
	"learning_rate": 0.0001578418383663027,
	"loss": 0.7877,
	"step": 15980
	},
	{
	"epoch": 0.178838055933028,
	"grad_norm": 0.24562442302703857,
	"learning_rate": 0.0001576134131298826,
	"loss": 0.7761,
	"step": 15990
	},
	{
	"epoch": 0.17894989962029068,
	"grad_norm": 0.2607520818710327,
	"learning_rate": 0.00015738498789346248,
	"loss": 0.7844,
	"step": 16000
	},
	{
	"epoch": 0.17906174330755337,
	"grad_norm": 0.25256794691085815,
	"learning_rate": 0.00015715656265704233,
	"loss": 0.7712,
	"step": 16010
	},
	{
	"epoch": 0.17917358699481606,
	"grad_norm": 0.24657808244228363,
	"learning_rate": 0.00015692813742062222,
	"loss": 0.7766,
	"step": 16020
	},
	{
	"epoch": 0.17928543068207872,
	"grad_norm": 0.2546744644641876,
	"learning_rate": 0.00015669971218420213,
	"loss": 0.781,
	"step": 16030
	},
	{
	"epoch": 0.17939727436934141,
	"grad_norm": 0.24849241971969604,
	"learning_rate": 0.00015647128694778198,
	"loss": 0.786,
	"step": 16040
	},
	{
	"epoch": 0.17950911805660408,
	"grad_norm": 0.2447352409362793,
	"learning_rate": 0.00015624286171136187,
	"loss": 0.7805,
	"step": 16050
	},
	{
	"epoch": 0.17962096174386677,
	"grad_norm": 0.3004114031791687,
	"learning_rate": 0.00015601443647494178,
	"loss": 0.7748,
	"step": 16060
	},
	{
	"epoch": 0.17973280543112946,
	"grad_norm": 0.24974007904529572,
	"learning_rate": 0.00015578601123852163,
	"loss": 0.7823,
	"step": 16070
	},
	{
	"epoch": 0.17984464911839212,
	"grad_norm": 0.2995624542236328,
	"learning_rate": 0.00015555758600210151,
	"loss": 0.7894,
	"step": 16080
	},
	{
	"epoch": 0.17995649280565482,
	"grad_norm": 0.2560220956802368,
	"learning_rate": 0.0001553291607656814,
	"loss": 0.7849,
	"step": 16090
	},
	{
	"epoch": 0.1800683364929175,
	"grad_norm": 0.24940122663974762,
	"learning_rate": 0.00015510073552926128,
	"loss": 0.7903,
	"step": 16100
	},
	{
	"epoch": 0.18018018018018017,
	"grad_norm": 0.22082312405109406,
	"learning_rate": 0.00015487231029284116,
	"loss": 0.783,
	"step": 16110
	},
	{
	"epoch": 0.18029202386744286,
	"grad_norm": 0.2670224606990814,
	"learning_rate": 0.00015464388505642104,
	"loss": 0.7919,
	"step": 16120
	},
	{
	"epoch": 0.18040386755470555,
	"grad_norm": 0.2533135414123535,
	"learning_rate": 0.0001544154598200009,
	"loss": 0.8007,
	"step": 16130
	},
	{
	"epoch": 0.18051571124196822,
	"grad_norm": 0.2660861909389496,
	"learning_rate": 0.0001541870345835808,
	"loss": 0.7913,
	"step": 16140
	},
	{
	"epoch": 0.1806275549292309,
	"grad_norm": 0.2556677460670471,
	"learning_rate": 0.0001539586093471607,
	"loss": 0.7826,
	"step": 16150
	},
	{
	"epoch": 0.1807393986164936,
	"grad_norm": 0.275900661945343,
	"learning_rate": 0.00015373018411074055,
	"loss": 0.8048,
	"step": 16160
	},
	{
	"epoch": 0.18085124230375627,
	"grad_norm": 0.29176998138427734,
	"learning_rate": 0.00015350175887432043,
	"loss": 0.8241,
	"step": 16170
	},
	{
	"epoch": 0.18096308599101896,
	"grad_norm": 0.2635776996612549,
	"learning_rate": 0.00015327333363790034,
	"loss": 0.8211,
	"step": 16180
	},
	{
	"epoch": 0.18107492967828162,
	"grad_norm": 0.27744734287261963,
	"learning_rate": 0.0001530449084014802,
	"loss": 0.8254,
	"step": 16190
	},
	{
	"epoch": 0.1811867733655443,
	"grad_norm": 0.28162074089050293,
	"learning_rate": 0.00015281648316506008,
	"loss": 0.8182,
	"step": 16200
	},
	{
	"epoch": 0.181298617052807,
	"grad_norm": 0.29347339272499084,
	"learning_rate": 0.00015258805792863996,
	"loss": 0.812,
	"step": 16210
	},
	{
	"epoch": 0.18141046074006967,
	"grad_norm": 0.26170992851257324,
	"learning_rate": 0.00015235963269221985,
	"loss": 0.8221,
	"step": 16220
	},
	{
	"epoch": 0.18152230442733236,
	"grad_norm": 0.27848196029663086,
	"learning_rate": 0.00015213120745579973,
	"loss": 0.825,
	"step": 16230
	},
	{
	"epoch": 0.18163414811459505,
	"grad_norm": 0.2994973659515381,
	"learning_rate": 0.00015190278221937958,
	"loss": 0.8158,
	"step": 16240
	},
	{
	"epoch": 0.18174599180185771,
	"grad_norm": 0.27873843908309937,
	"learning_rate": 0.00015167435698295947,
	"loss": 0.816,
	"step": 16250
	},
	{
	"epoch": 0.1818578354891204,
	"grad_norm": 0.3014775812625885,
	"learning_rate": 0.00015144593174653938,
	"loss": 0.8174,
	"step": 16260
	},
	{
	"epoch": 0.1819696791763831,
	"grad_norm": 0.29963594675064087,
	"learning_rate": 0.00015121750651011923,
	"loss": 0.8104,
	"step": 16270
	},
	{
	"epoch": 0.18208152286364576,
	"grad_norm": 0.3388141393661499,
	"learning_rate": 0.00015098908127369912,
	"loss": 0.826,
	"step": 16280
	},
	{
	"epoch": 0.18219336655090845,
	"grad_norm": 0.29143062233924866,
	"learning_rate": 0.000150760656037279,
	"loss": 0.8222,
	"step": 16290
	},
	{
	"epoch": 0.18230521023817114,
	"grad_norm": 0.327824205160141,
	"learning_rate": 0.00015053223080085888,
	"loss": 0.8186,
	"step": 16300
	},
	{
	"epoch": 0.1824170539254338,
	"grad_norm": 0.3053797483444214,
	"learning_rate": 0.00015030380556443876,
	"loss": 0.8214,
	"step": 16310
	},
	{
	"epoch": 0.1825288976126965,
	"grad_norm": 0.3030015230178833,
	"learning_rate": 0.00015007538032801865,
	"loss": 0.8198,
	"step": 16320
	},
	{
	"epoch": 0.18264074129995916,
	"grad_norm": 0.3147192597389221,
	"learning_rate": 0.0001498469550915985,
	"loss": 0.8224,
	"step": 16330
	},
	{
	"epoch": 0.18275258498722186,
	"grad_norm": 0.2838999927043915,
	"learning_rate": 0.0001496185298551784,
	"loss": 0.8142,
	"step": 16340
	},
	{
	"epoch": 0.18286442867448455,
	"grad_norm": 0.27273476123809814,
	"learning_rate": 0.0001493901046187583,
	"loss": 0.8054,
	"step": 16350
	},
	{
	"epoch": 0.1829762723617472,
	"grad_norm": 0.2754770517349243,
	"learning_rate": 0.00014916167938233815,
	"loss": 0.8131,
	"step": 16360
	},
	{
	"epoch": 0.1830881160490099,
	"grad_norm": 0.29061514139175415,
	"learning_rate": 0.00014893325414591803,
	"loss": 0.7988,
	"step": 16370
	},
	{
	"epoch": 0.1831999597362726,
	"grad_norm": 0.2525017559528351,
	"learning_rate": 0.00014870482890949794,
	"loss": 0.8023,
	"step": 16380
	},
	{
	"epoch": 0.18331180342353526,
	"grad_norm": 0.3019058108329773,
	"learning_rate": 0.0001484764036730778,
	"loss": 0.8077,
	"step": 16390
	},
	{
	"epoch": 0.18342364711079795,
	"grad_norm": 0.302090048789978,
	"learning_rate": 0.00014824797843665768,
	"loss": 0.812,
	"step": 16400
	},
	{
	"epoch": 0.18353549079806064,
	"grad_norm": 0.29742154479026794,
	"learning_rate": 0.00014801955320023757,
	"loss": 0.7911,
	"step": 16410
	},
	{
	"epoch": 0.1836473344853233,
	"grad_norm": 0.31950804591178894,
	"learning_rate": 0.00014779112796381745,
	"loss": 0.7875,
	"step": 16420
	},
	{
	"epoch": 0.183759178172586,
	"grad_norm": 0.32971978187561035,
	"learning_rate": 0.00014756270272739733,
	"loss": 0.7788,
	"step": 16430
	},
	{
	"epoch": 0.1838710218598487,
	"grad_norm": 0.2941220700740814,
	"learning_rate": 0.00014733427749097721,
	"loss": 0.7772,
	"step": 16440
	},
	{
	"epoch": 0.18398286554711135,
	"grad_norm": 0.2639923393726349,
	"learning_rate": 0.00014710585225455707,
	"loss": 0.7708,
	"step": 16450
	},
	{
	"epoch": 0.18409470923437404,
	"grad_norm": 0.2483467161655426,
	"learning_rate": 0.00014687742701813698,
	"loss": 0.7846,
	"step": 16460
	},
	{
	"epoch": 0.1842065529216367,
	"grad_norm": 0.31150713562965393,
	"learning_rate": 0.00014664900178171683,
	"loss": 0.7853,
	"step": 16470
	},
	{
	"epoch": 0.1843183966088994,
	"grad_norm": 0.30439406633377075,
	"learning_rate": 0.00014642057654529672,
	"loss": 0.7779,
	"step": 16480
	},
	{
	"epoch": 0.1844302402961621,
	"grad_norm": 0.29318898916244507,
	"learning_rate": 0.00014619215130887663,
	"loss": 0.7911,
	"step": 16490
	},
	{
	"epoch": 0.18454208398342475,
	"grad_norm": 0.2726874053478241,
	"learning_rate": 0.00014596372607245648,
	"loss": 0.7869,
	"step": 16500
	},
	{
	"epoch": 0.18465392767068745,
	"grad_norm": 0.2978016436100006,
	"learning_rate": 0.00014573530083603637,
	"loss": 0.783,
	"step": 16510
	},
	{
	"epoch": 0.18476577135795014,
	"grad_norm": 0.3107501268386841,
	"learning_rate": 0.00014550687559961625,
	"loss": 0.801,
	"step": 16520
	},
	{
	"epoch": 0.1848776150452128,
	"grad_norm": 0.2848517894744873,
	"learning_rate": 0.00014527845036319613,
	"loss": 0.8063,
	"step": 16530
	},
	{
	"epoch": 0.1849894587324755,
	"grad_norm": 0.2625429332256317,
	"learning_rate": 0.00014505002512677601,
	"loss": 0.8074,
	"step": 16540
	},
	{
	"epoch": 0.18510130241973818,
	"grad_norm": 0.2805044949054718,
	"learning_rate": 0.0001448215998903559,
	"loss": 0.8013,
	"step": 16550
	},
	{
	"epoch": 0.18521314610700085,
	"grad_norm": 0.27657589316368103,
	"learning_rate": 0.00014459317465393575,
	"loss": 0.8012,
	"step": 16560
	},
	{
	"epoch": 0.18532498979426354,
	"grad_norm": 0.2780141532421112,
	"learning_rate": 0.00014436474941751566,
	"loss": 0.8161,
	"step": 16570
	},
	{
	"epoch": 0.18543683348152623,
	"grad_norm": 0.2871207892894745,
	"learning_rate": 0.00014413632418109555,
	"loss": 0.7899,
	"step": 16580
	},
	{
	"epoch": 0.1855486771687889,
	"grad_norm": 0.2656658887863159,
	"learning_rate": 0.0001439078989446754,
	"loss": 0.7985,
	"step": 16590
	},
	{
	"epoch": 0.1856605208560516,
	"grad_norm": 0.2766350209712982,
	"learning_rate": 0.00014367947370825528,
	"loss": 0.7999,
	"step": 16600
	},
	{
	"epoch": 0.18577236454331428,
	"grad_norm": 0.2616749107837677,
	"learning_rate": 0.0001434510484718352,
	"loss": 0.8002,
	"step": 16610
	},
	{
	"epoch": 0.18588420823057694,
	"grad_norm": 0.25887414813041687,
	"learning_rate": 0.00014322262323541505,
	"loss": 0.8112,
	"step": 16620
	},
	{
	"epoch": 0.18599605191783963,
	"grad_norm": 0.2594297528266907,
	"learning_rate": 0.00014299419799899493,
	"loss": 0.802,
	"step": 16630
	},
	{
	"epoch": 0.1861078956051023,
	"grad_norm": 0.2535499036312103,
	"learning_rate": 0.00014276577276257482,
	"loss": 0.7867,
	"step": 16640
	},
	{
	"epoch": 0.186219739292365,
	"grad_norm": 0.25161436200141907,
	"learning_rate": 0.0001425373475261547,
	"loss": 0.8059,
	"step": 16650
	},
	{
	"epoch": 0.18633158297962768,
	"grad_norm": 0.22897444665431976,
	"learning_rate": 0.00014230892228973458,
	"loss": 0.7864,
	"step": 16660
	},
	{
	"epoch": 0.18644342666689034,
	"grad_norm": 0.27164047956466675,
	"learning_rate": 0.00014208049705331446,
	"loss": 0.796,
	"step": 16670
	},
	{
	"epoch": 0.18655527035415304,
	"grad_norm": 0.2717941701412201,
	"learning_rate": 0.00014185207181689432,
	"loss": 0.7801,
	"step": 16680
	},
	{
	"epoch": 0.18666711404141573,
	"grad_norm": 0.27144837379455566,
	"learning_rate": 0.00014162364658047423,
	"loss": 0.7758,
	"step": 16690
	},
	{
	"epoch": 0.1867789577286784,
	"grad_norm": 0.2357831746339798,
	"learning_rate": 0.00014139522134405409,
	"loss": 0.7674,
	"step": 16700
	},
	{
	"epoch": 0.18689080141594108,
	"grad_norm": 0.23233544826507568,
	"learning_rate": 0.00014116679610763397,
	"loss": 0.7827,
	"step": 16710
	},
	{
	"epoch": 0.18700264510320377,
	"grad_norm": 0.2399321347475052,
	"learning_rate": 0.00014093837087121385,
	"loss": 0.7811,
	"step": 16720
	},
	{
	"epoch": 0.18711448879046644,
	"grad_norm": 0.2493642419576645,
	"learning_rate": 0.00014070994563479373,
	"loss": 0.7762,
	"step": 16730
	},
	{
	"epoch": 0.18722633247772913,
	"grad_norm": 0.23383350670337677,
	"learning_rate": 0.00014048152039837362,
	"loss": 0.7754,
	"step": 16740
	},
	{
	"epoch": 0.18733817616499182,
	"grad_norm": 0.2624364197254181,
	"learning_rate": 0.0001402530951619535,
	"loss": 0.7766,
	"step": 16750
	},
	{
	"epoch": 0.18745001985225448,
	"grad_norm": 0.24138151109218597,
	"learning_rate": 0.00014002466992553336,
	"loss": 0.7869,
	"step": 16760
	},
	{
	"epoch": 0.18756186353951718,
	"grad_norm": 0.2397204041481018,
	"learning_rate": 0.00013979624468911326,
	"loss": 0.7974,
	"step": 16770
	},
	{
	"epoch": 0.18767370722677984,
	"grad_norm": 0.27491655945777893,
	"learning_rate": 0.00013956781945269315,
	"loss": 0.8011,
	"step": 16780
	},
	{
	"epoch": 0.18778555091404253,
	"grad_norm": 0.2321402132511139,
	"learning_rate": 0.000139339394216273,
	"loss": 0.803,
	"step": 16790
	},
	{
	"epoch": 0.18789739460130522,
	"grad_norm": 0.24487042427062988,
	"learning_rate": 0.00013911096897985289,
	"loss": 0.7975,
	"step": 16800
	},
	{
	"epoch": 0.1880092382885679,
	"grad_norm": 0.23328396677970886,
	"learning_rate": 0.0001388825437434328,
	"loss": 0.795,
	"step": 16810
	},
	{
	"epoch": 0.18812108197583058,
	"grad_norm": 0.22705566883087158,
	"learning_rate": 0.00013865411850701265,
	"loss": 0.7895,
	"step": 16820
	},
	{
	"epoch": 0.18823292566309327,
	"grad_norm": 0.24339929223060608,
	"learning_rate": 0.00013842569327059253,
	"loss": 0.7931,
	"step": 16830
	},
	{
	"epoch": 0.18834476935035593,
	"grad_norm": 0.2613057494163513,
	"learning_rate": 0.00013819726803417242,
	"loss": 0.7785,
	"step": 16840
	},
	{
	"epoch": 0.18845661303761863,
	"grad_norm": 0.27011603116989136,
	"learning_rate": 0.0001379688427977523,
	"loss": 0.7853,
	"step": 16850
	},
	{
	"epoch": 0.18856845672488132,
	"grad_norm": 0.26589342951774597,
	"learning_rate": 0.00013774041756133218,
	"loss": 0.7893,
	"step": 16860
	},
	{
	"epoch": 0.18868030041214398,
	"grad_norm": 0.26286208629608154,
	"learning_rate": 0.00013751199232491207,
	"loss": 0.7707,
	"step": 16870
	},
	{
	"epoch": 0.18879214409940667,
	"grad_norm": 0.3021993637084961,
	"learning_rate": 0.00013728356708849192,
	"loss": 0.7896,
	"step": 16880
	},
	{
	"epoch": 0.18890398778666936,
	"grad_norm": 0.30742523074150085,
	"learning_rate": 0.00013705514185207183,
	"loss": 0.7895,
	"step": 16890
	},
	{
	"epoch": 0.18901583147393203,
	"grad_norm": 0.3027999699115753,
	"learning_rate": 0.0001368267166156517,
	"loss": 0.7839,
	"step": 16900
	},
	{
	"epoch": 0.18912767516119472,
	"grad_norm": 0.29199281334877014,
	"learning_rate": 0.00013659829137923157,
	"loss": 0.7771,
	"step": 16910
	},
	{
	"epoch": 0.18923951884845738,
	"grad_norm": 0.2460477203130722,
	"learning_rate": 0.00013636986614281145,
	"loss": 0.7823,
	"step": 16920
	},
	{
	"epoch": 0.18935136253572007,
	"grad_norm": 0.2608555853366852,
	"learning_rate": 0.00013614144090639134,
	"loss": 0.7664,
	"step": 16930
	},
	{
	"epoch": 0.18946320622298277,
	"grad_norm": 0.2723162770271301,
	"learning_rate": 0.00013591301566997122,
	"loss": 0.7768,
	"step": 16940
	},
	{
	"epoch": 0.18957504991024543,
	"grad_norm": 0.2690962255001068,
	"learning_rate": 0.0001356845904335511,
	"loss": 0.7697,
	"step": 16950
	},
	{
	"epoch": 0.18968689359750812,
	"grad_norm": 0.2892717719078064,
	"learning_rate": 0.00013545616519713096,
	"loss": 0.769,
	"step": 16960
	},
	{
	"epoch": 0.1897987372847708,
	"grad_norm": 0.2581406533718109,
	"learning_rate": 0.00013522773996071087,
	"loss": 0.7766,
	"step": 16970
	},
	{
	"epoch": 0.18991058097203348,
	"grad_norm": 0.2944723963737488,
	"learning_rate": 0.00013499931472429075,
	"loss": 0.7638,
	"step": 16980
	},
	{
	"epoch": 0.19002242465929617,
	"grad_norm": 0.2776504158973694,
	"learning_rate": 0.0001347708894878706,
	"loss": 0.7731,
	"step": 16990
	},
	{
	"epoch": 0.19013426834655886,
	"grad_norm": 0.267098993062973,
	"learning_rate": 0.00013454246425145052,
	"loss": 0.7772,
	"step": 17000
	},
	{
	"epoch": 0.19024611203382152,
	"grad_norm": 0.2806127071380615,
	"learning_rate": 0.0001343140390150304,
	"loss": 0.772,
	"step": 17010
	},
	{
	"epoch": 0.19035795572108422,
	"grad_norm": 0.2872319519519806,
	"learning_rate": 0.00013408561377861025,
	"loss": 0.7695,
	"step": 17020
	},
	{
	"epoch": 0.1904697994083469,
	"grad_norm": 0.24477818608283997,
	"learning_rate": 0.00013385718854219014,
	"loss": 0.7764,
	"step": 17030
	},
	{
	"epoch": 0.19058164309560957,
	"grad_norm": 0.2637476623058319,
	"learning_rate": 0.00013362876330577005,
	"loss": 0.7712,
	"step": 17040
	},
	{
	"epoch": 0.19069348678287226,
	"grad_norm": 0.2676442861557007,
	"learning_rate": 0.0001334003380693499,
	"loss": 0.7707,
	"step": 17050
	},
	{
	"epoch": 0.19080533047013493,
	"grad_norm": 0.2592306435108185,
	"learning_rate": 0.00013317191283292979,
	"loss": 0.7808,
	"step": 17060
	},
	{
	"epoch": 0.19091717415739762,
	"grad_norm": 0.3543199896812439,
	"learning_rate": 0.00013294348759650967,
	"loss": 0.7928,
	"step": 17070
	},
	{
	"epoch": 0.1910290178446603,
	"grad_norm": 0.26262548565864563,
	"learning_rate": 0.00013271506236008955,
	"loss": 0.7677,
	"step": 17080
	},
	{
	"epoch": 0.19114086153192297,
	"grad_norm": 0.2845424711704254,
	"learning_rate": 0.00013248663712366943,
	"loss": 0.7758,
	"step": 17090
	},
	{
	"epoch": 0.19125270521918566,
	"grad_norm": 0.2694297730922699,
	"learning_rate": 0.00013225821188724932,
	"loss": 0.7857,
	"step": 17100
	},
	{
	"epoch": 0.19136454890644836,
	"grad_norm": 0.2682325839996338,
	"learning_rate": 0.00013202978665082917,
	"loss": 0.782,
	"step": 17110
	},
	{
	"epoch": 0.19147639259371102,
	"grad_norm": 0.26535049080848694,
	"learning_rate": 0.00013180136141440908,
	"loss": 0.7796,
	"step": 17120
	},
	{
	"epoch": 0.1915882362809737,
	"grad_norm": 0.2759861946105957,
	"learning_rate": 0.00013157293617798894,
	"loss": 0.7732,
	"step": 17130
	},
	{
	"epoch": 0.1917000799682364,
	"grad_norm": 0.24873244762420654,
	"learning_rate": 0.00013134451094156882,
	"loss": 0.7763,
	"step": 17140
	},
	{
	"epoch": 0.19181192365549907,
	"grad_norm": 0.2826152443885803,
	"learning_rate": 0.0001311160857051487,
	"loss": 0.7748,
	"step": 17150
	},
	{
	"epoch": 0.19192376734276176,
	"grad_norm": 0.2823798358440399,
	"learning_rate": 0.00013088766046872859,
	"loss": 0.768,
	"step": 17160
	},
	{
	"epoch": 0.19203561103002445,
	"grad_norm": 0.2591745853424072,
	"learning_rate": 0.00013065923523230847,
	"loss": 0.7831,
	"step": 17170
	},
	{
	"epoch": 0.19214745471728711,
	"grad_norm": 0.24773742258548737,
	"learning_rate": 0.00013043080999588835,
	"loss": 0.7799,
	"step": 17180
	},
	{
	"epoch": 0.1922592984045498,
	"grad_norm": 0.28184765577316284,
	"learning_rate": 0.0001302023847594682,
	"loss": 0.787,
	"step": 17190
	},
	{
	"epoch": 0.19237114209181247,
	"grad_norm": 0.24396668374538422,
	"learning_rate": 0.00012997395952304812,
	"loss": 0.7777,
	"step": 17200
	},
	{
	"epoch": 0.19248298577907516,
	"grad_norm": 0.25493332743644714,
	"learning_rate": 0.000129745534286628,
	"loss": 0.7842,
	"step": 17210
	},
	{
	"epoch": 0.19259482946633785,
	"grad_norm": 0.2615022361278534,
	"learning_rate": 0.00012951710905020786,
	"loss": 0.788,
	"step": 17220
	},
	{
	"epoch": 0.19270667315360052,
	"grad_norm": 0.28270524740219116,
	"learning_rate": 0.00012928868381378774,
	"loss": 0.7788,
	"step": 17230
	},
	{
	"epoch": 0.1928185168408632,
	"grad_norm": 0.24917210638523102,
	"learning_rate": 0.00012906025857736765,
	"loss": 0.7731,
	"step": 17240
	},
	{
	"epoch": 0.1929303605281259,
	"grad_norm": 0.2589946985244751,
	"learning_rate": 0.0001288318333409475,
	"loss": 0.7781,
	"step": 17250
	},
	{
	"epoch": 0.19304220421538856,
	"grad_norm": 0.23770585656166077,
	"learning_rate": 0.0001286034081045274,
	"loss": 0.7902,
	"step": 17260
	},
	{
	"epoch": 0.19315404790265125,
	"grad_norm": 0.22782771289348602,
	"learning_rate": 0.00012837498286810727,
	"loss": 0.7875,
	"step": 17270
	},
	{
	"epoch": 0.19326589158991395,
	"grad_norm": 0.2611001431941986,
	"learning_rate": 0.00012814655763168715,
	"loss": 0.794,
	"step": 17280
	},
	{
	"epoch": 0.1933777352771766,
	"grad_norm": 0.2642746865749359,
	"learning_rate": 0.00012791813239526704,
	"loss": 0.8005,
	"step": 17290
	},
	{
	"epoch": 0.1934895789644393,
	"grad_norm": 0.2470688372850418,
	"learning_rate": 0.00012768970715884692,
	"loss": 0.7854,
	"step": 17300
	},
	{
	"epoch": 0.193601422651702,
	"grad_norm": 0.24735964834690094,
	"learning_rate": 0.00012746128192242677,
	"loss": 0.7918,
	"step": 17310
	},
	{
	"epoch": 0.19371326633896466,
	"grad_norm": 0.2734208405017853,
	"learning_rate": 0.00012723285668600668,
	"loss": 0.7719,
	"step": 17320
	},
	{
	"epoch": 0.19382511002622735,
	"grad_norm": 0.28373652696609497,
	"learning_rate": 0.00012700443144958657,
	"loss": 0.7743,
	"step": 17330
	},
	{
	"epoch": 0.19393695371349004,
	"grad_norm": 0.25755295157432556,
	"learning_rate": 0.00012677600621316642,
	"loss": 0.7761,
	"step": 17340
	},
	{
	"epoch": 0.1940487974007527,
	"grad_norm": 0.2918241322040558,
	"learning_rate": 0.0001265475809767463,
	"loss": 0.7885,
	"step": 17350
	},
	{
	"epoch": 0.1941606410880154,
	"grad_norm": 0.2589518427848816,
	"learning_rate": 0.0001263191557403262,
	"loss": 0.7781,
	"step": 17360
	},
	{
	"epoch": 0.19427248477527806,
	"grad_norm": 0.2941739857196808,
	"learning_rate": 0.00012609073050390607,
	"loss": 0.7896,
	"step": 17370
	},
	{
	"epoch": 0.19438432846254075,
	"grad_norm": 0.2625831663608551,
	"learning_rate": 0.00012586230526748595,
	"loss": 0.7797,
	"step": 17380
	},
	{
	"epoch": 0.19449617214980344,
	"grad_norm": 0.2731517255306244,
	"learning_rate": 0.0001256338800310658,
	"loss": 0.7861,
	"step": 17390
	},
	{
	"epoch": 0.1946080158370661,
	"grad_norm": 0.2802453637123108,
	"learning_rate": 0.00012540545479464572,
	"loss": 0.8066,
	"step": 17400
	},
	{
	"epoch": 0.1947198595243288,
	"grad_norm": 0.24151596426963806,
	"learning_rate": 0.0001251770295582256,
	"loss": 0.7746,
	"step": 17410
	},
	{
	"epoch": 0.1948317032115915,
	"grad_norm": 0.27006617188453674,
	"learning_rate": 0.00012494860432180549,
	"loss": 0.7796,
	"step": 17420
	},
	{
	"epoch": 0.19494354689885415,
	"grad_norm": 0.2574283480644226,
	"learning_rate": 0.00012472017908538537,
	"loss": 0.7809,
	"step": 17430
	},
	{
	"epoch": 0.19505539058611684,
	"grad_norm": 0.25741514563560486,
	"learning_rate": 0.00012449175384896522,
	"loss": 0.7792,
	"step": 17440
	},
	{
	"epoch": 0.19516723427337954,
	"grad_norm": 0.2619360685348511,
	"learning_rate": 0.00012426332861254513,
	"loss": 0.7768,
	"step": 17450
	},
	{
	"epoch": 0.1952790779606422,
	"grad_norm": 0.28053224086761475,
	"learning_rate": 0.000124034903376125,
	"loss": 0.7841,
	"step": 17460
	},
	{
	"epoch": 0.1953909216479049,
	"grad_norm": 0.24019859731197357,
	"learning_rate": 0.00012380647813970487,
	"loss": 0.783,
	"step": 17470
	},
	{
	"epoch": 0.19550276533516758,
	"grad_norm": 0.2747540771961212,
	"learning_rate": 0.00012357805290328475,
	"loss": 0.7911,
	"step": 17480
	},
	{
	"epoch": 0.19561460902243025,
	"grad_norm": 0.28044483065605164,
	"learning_rate": 0.00012334962766686464,
	"loss": 0.7986,
	"step": 17490
	},
	{
	"epoch": 0.19572645270969294,
	"grad_norm": 0.24908137321472168,
	"learning_rate": 0.00012312120243044452,
	"loss": 0.8087,
	"step": 17500
	},
	{
	"epoch": 0.1958382963969556,
	"grad_norm": 0.29041793942451477,
	"learning_rate": 0.0001228927771940244,
	"loss": 0.8063,
	"step": 17510
	},
	{
	"epoch": 0.1959501400842183,
	"grad_norm": 0.3020537495613098,
	"learning_rate": 0.00012266435195760429,
	"loss": 0.8004,
	"step": 17520
	},
	{
	"epoch": 0.19606198377148099,
	"grad_norm": 0.29414400458335876,
	"learning_rate": 0.00012243592672118417,
	"loss": 0.7846,
	"step": 17530
	},
	{
	"epoch": 0.19617382745874365,
	"grad_norm": 0.2648397386074066,
	"learning_rate": 0.00012220750148476402,
	"loss": 0.7708,
	"step": 17540
	},
	{
	"epoch": 0.19628567114600634,
	"grad_norm": 0.2834302484989166,
	"learning_rate": 0.00012197907624834392,
	"loss": 0.7818,
	"step": 17550
	},
	{
	"epoch": 0.19639751483326903,
	"grad_norm": 0.2748505175113678,
	"learning_rate": 0.0001217506510119238,
	"loss": 0.7642,
	"step": 17560
	},
	{
	"epoch": 0.1965093585205317,
	"grad_norm": 0.32425326108932495,
	"learning_rate": 0.00012152222577550367,
	"loss": 0.7765,
	"step": 17570
	},
	{
	"epoch": 0.1966212022077944,
	"grad_norm": 0.27183324098587036,
	"learning_rate": 0.00012129380053908357,
	"loss": 0.7572,
	"step": 17580
	},
	{
	"epoch": 0.19673304589505708,
	"grad_norm": 0.28190943598747253,
	"learning_rate": 0.00012106537530266344,
	"loss": 0.7571,
	"step": 17590
	},
	{
	"epoch": 0.19684488958231974,
	"grad_norm": 0.5151196718215942,
	"learning_rate": 0.00012083695006624332,
	"loss": 0.7565,
	"step": 17600
	},
	{
	"epoch": 0.19695673326958243,
	"grad_norm": 0.2523132264614105,
	"learning_rate": 0.0001206085248298232,
	"loss": 0.7597,
	"step": 17610
	},
	{
	"epoch": 0.19706857695684513,
	"grad_norm": 0.27336063981056213,
	"learning_rate": 0.00012038009959340309,
	"loss": 0.7546,
	"step": 17620
	},
	{
	"epoch": 0.1971804206441078,
	"grad_norm": 0.25119057297706604,
	"learning_rate": 0.00012015167435698296,
	"loss": 0.7519,
	"step": 17630
	},
	{
	"epoch": 0.19729226433137048,
	"grad_norm": 0.281147301197052,
	"learning_rate": 0.00011992324912056284,
	"loss": 0.7623,
	"step": 17640
	},
	{
	"epoch": 0.19740410801863315,
	"grad_norm": 0.2463361769914627,
	"learning_rate": 0.00011969482388414272,
	"loss": 0.754,
	"step": 17650
	},
	{
	"epoch": 0.19751595170589584,
	"grad_norm": 0.2902059853076935,
	"learning_rate": 0.0001194663986477226,
	"loss": 0.7578,
	"step": 17660
	},
	{
	"epoch": 0.19762779539315853,
	"grad_norm": 0.2590588629245758,
	"learning_rate": 0.00011923797341130247,
	"loss": 0.7427,
	"step": 17670
	},
	{
	"epoch": 0.1977396390804212,
	"grad_norm": 0.24349506199359894,
	"learning_rate": 0.00011900954817488237,
	"loss": 0.7599,
	"step": 17680
	},
	{
	"epoch": 0.19785148276768388,
	"grad_norm": 0.2568139135837555,
	"learning_rate": 0.00011878112293846224,
	"loss": 0.7673,
	"step": 17690
	},
	{
	"epoch": 0.19796332645494658,
	"grad_norm": 0.2617419958114624,
	"learning_rate": 0.00011855269770204212,
	"loss": 0.7637,
	"step": 17700
	},
	{
	"epoch": 0.19807517014220924,
	"grad_norm": 0.24309082329273224,
	"learning_rate": 0.000118324272465622,
	"loss": 0.7583,
	"step": 17710
	},
	{
	"epoch": 0.19818701382947193,
	"grad_norm": 0.22027656435966492,
	"learning_rate": 0.00011809584722920189,
	"loss": 0.7479,
	"step": 17720
	},
	{
	"epoch": 0.19829885751673462,
	"grad_norm": 0.27296265959739685,
	"learning_rate": 0.00011786742199278176,
	"loss": 0.765,
	"step": 17730
	},
	{
	"epoch": 0.1984107012039973,
	"grad_norm": 0.2589128613471985,
	"learning_rate": 0.00011763899675636165,
	"loss": 0.777,
	"step": 17740
	},
	{
	"epoch": 0.19852254489125998,
	"grad_norm": 0.27665242552757263,
	"learning_rate": 0.00011741057151994152,
	"loss": 0.7656,
	"step": 17750
	},
	{
	"epoch": 0.19863438857852267,
	"grad_norm": 0.27103251218795776,
	"learning_rate": 0.0001171821462835214,
	"loss": 0.7716,
	"step": 17760
	},
	{
	"epoch": 0.19874623226578533,
	"grad_norm": 0.2768172025680542,
	"learning_rate": 0.00011695372104710127,
	"loss": 0.7738,
	"step": 17770
	},
	{
	"epoch": 0.19885807595304802,
	"grad_norm": 0.2424757182598114,
	"learning_rate": 0.00011672529581068117,
	"loss": 0.7793,
	"step": 17780
	},
	{
	"epoch": 0.1989699196403107,
	"grad_norm": 0.2821860909461975,
	"learning_rate": 0.00011649687057426104,
	"loss": 0.7771,
	"step": 17790
	},
	{
	"epoch": 0.19908176332757338,
	"grad_norm": 0.28263264894485474,
	"learning_rate": 0.00011626844533784092,
	"loss": 0.7812,
	"step": 17800
	},
	{
	"epoch": 0.19919360701483607,
	"grad_norm": 0.24835869669914246,
	"learning_rate": 0.0001160400201014208,
	"loss": 0.7753,
	"step": 17810
	},
	{
	"epoch": 0.19930545070209874,
	"grad_norm": 0.23325562477111816,
	"learning_rate": 0.00011581159486500069,
	"loss": 0.7763,
	"step": 17820
	},
	{
	"epoch": 0.19941729438936143,
	"grad_norm": 0.2520182132720947,
	"learning_rate": 0.00011558316962858056,
	"loss": 0.791,
	"step": 17830
	},
	{
	"epoch": 0.19952913807662412,
	"grad_norm": 0.2478768676519394,
	"learning_rate": 0.00011535474439216045,
	"loss": 0.7819,
	"step": 17840
	},
	{
	"epoch": 0.19964098176388678,
	"grad_norm": 0.2749478220939636,
	"learning_rate": 0.00011512631915574032,
	"loss": 0.7805,
	"step": 17850
	},
	{
	"epoch": 0.19975282545114947,
	"grad_norm": 0.2417723685503006,
	"learning_rate": 0.0001148978939193202,
	"loss": 0.766,
	"step": 17860
	},
	{
	"epoch": 0.19986466913841217,
	"grad_norm": 0.25219354033470154,
	"learning_rate": 0.00011466946868290008,
	"loss": 0.758,
	"step": 17870
	},
	{
	"epoch": 0.19997651282567483,
	"grad_norm": 0.24644000828266144,
	"learning_rate": 0.00011444104344647997,
	"loss": 0.7569,
	"step": 17880
	},
	{
	"epoch": 0.20008835651293752,
	"grad_norm": 0.2683338224887848,
	"learning_rate": 0.00011421261821005986,
	"loss": 0.7509,
	"step": 17890
	},
	{
	"epoch": 0.2002002002002002,
	"grad_norm": 0.29149681329727173,
	"learning_rate": 0.00011398419297363972,
	"loss": 0.7611,
	"step": 17900
	},
	{
	"epoch": 0.20031204388746288,
	"grad_norm": 0.2651118338108063,
	"learning_rate": 0.00011375576773721962,
	"loss": 0.756,
	"step": 17910
	},
	{
	"epoch": 0.20042388757472557,
	"grad_norm": 0.26990607380867004,
	"learning_rate": 0.00011352734250079949,
	"loss": 0.7726,
	"step": 17920
	},
	{
	"epoch": 0.20053573126198823,
	"grad_norm": 0.23897935450077057,
	"learning_rate": 0.00011329891726437937,
	"loss": 0.7875,
	"step": 17930
	},
	{
	"epoch": 0.20064757494925092,
	"grad_norm": 0.2300727218389511,
	"learning_rate": 0.00011307049202795926,
	"loss": 0.7697,
	"step": 17940
	},
	{
	"epoch": 0.20075941863651361,
	"grad_norm": 0.2873596251010895,
	"learning_rate": 0.00011284206679153914,
	"loss": 0.7776,
	"step": 17950
	},
	{
	"epoch": 0.20087126232377628,
	"grad_norm": 0.29036712646484375,
	"learning_rate": 0.00011261364155511901,
	"loss": 0.7794,
	"step": 17960
	},
	{
	"epoch": 0.20098310601103897,
	"grad_norm": 0.2837420701980591,
	"learning_rate": 0.0001123852163186989,
	"loss": 0.7818,
	"step": 17970
	},
	{
	"epoch": 0.20109494969830166,
	"grad_norm": 0.2920686602592468,
	"learning_rate": 0.00011215679108227877,
	"loss": 0.7851,
	"step": 17980
	},
	{
	"epoch": 0.20120679338556433,
	"grad_norm": 0.27664583921432495,
	"learning_rate": 0.00011192836584585866,
	"loss": 0.7601,
	"step": 17990
	},
	{
	"epoch": 0.20131863707282702,
	"grad_norm": 0.26870399713516235,
	"learning_rate": 0.00011169994060943853,
	"loss": 0.7961,
	"step": 18000
	},
	{
	"epoch": 0.2014304807600897,
	"grad_norm": 0.2502228021621704,
	"learning_rate": 0.00011147151537301842,
	"loss": 0.7827,
	"step": 18010
	},
	{
	"epoch": 0.20154232444735237,
	"grad_norm": 0.2473440319299698,
	"learning_rate": 0.00011124309013659829,
	"loss": 0.7815,
	"step": 18020
	},
	{
	"epoch": 0.20165416813461506,
	"grad_norm": 0.2513076663017273,
	"learning_rate": 0.00011101466490017817,
	"loss": 0.7675,
	"step": 18030
	},
	{
	"epoch": 0.20176601182187776,
	"grad_norm": 0.2829226851463318,
	"learning_rate": 0.00011078623966375806,
	"loss": 0.7669,
	"step": 18040
	},
	{
	"epoch": 0.20187785550914042,
	"grad_norm": 0.25758418440818787,
	"learning_rate": 0.00011055781442733794,
	"loss": 0.7707,
	"step": 18050
	},
	{
	"epoch": 0.2019896991964031,
	"grad_norm": 0.27185285091400146,
	"learning_rate": 0.00011032938919091781,
	"loss": 0.7742,
	"step": 18060
	},
	{
	"epoch": 0.2021015428836658,
	"grad_norm": 0.2802230417728424,
	"learning_rate": 0.0001101009639544977,
	"loss": 0.7821,
	"step": 18070
	},
	{
	"epoch": 0.20221338657092847,
	"grad_norm": 0.2882921099662781,
	"learning_rate": 0.00010987253871807757,
	"loss": 0.779,
	"step": 18080
	},
	{
	"epoch": 0.20232523025819116,
	"grad_norm": 0.2569839358329773,
	"learning_rate": 0.00010964411348165746,
	"loss": 0.7694,
	"step": 18090
	},
	{
	"epoch": 0.20243707394545382,
	"grad_norm": 0.2600938379764557,
	"learning_rate": 0.00010941568824523733,
	"loss": 0.7781,
	"step": 18100
	},
	{
	"epoch": 0.2025489176327165,
	"grad_norm": 0.28083154559135437,
	"learning_rate": 0.00010918726300881722,
	"loss": 0.7799,
	"step": 18110
	},
	{
	"epoch": 0.2026607613199792,
	"grad_norm": 0.22990182042121887,
	"learning_rate": 0.00010895883777239709,
	"loss": 0.7883,
	"step": 18120
	},
	{
	"epoch": 0.20277260500724187,
	"grad_norm": 0.27432581782341003,
	"learning_rate": 0.00010873041253597697,
	"loss": 0.7942,
	"step": 18130
	},
	{
	"epoch": 0.20288444869450456,
	"grad_norm": 0.2607738971710205,
	"learning_rate": 0.00010850198729955686,
	"loss": 0.7877,
	"step": 18140
	},
	{
	"epoch": 0.20299629238176725,
	"grad_norm": 0.2818219065666199,
	"learning_rate": 0.00010827356206313674,
	"loss": 0.7948,
	"step": 18150
	},
	{
	"epoch": 0.20310813606902992,
	"grad_norm": 0.2751563489437103,
	"learning_rate": 0.00010804513682671661,
	"loss": 0.7836,
	"step": 18160
	},
	{
	"epoch": 0.2032199797562926,
	"grad_norm": 0.2746957242488861,
	"learning_rate": 0.0001078167115902965,
	"loss": 0.7693,
	"step": 18170
	},
	{
	"epoch": 0.2033318234435553,
	"grad_norm": 0.24990054965019226,
	"learning_rate": 0.00010758828635387638,
	"loss": 0.7869,
	"step": 18180
	},
	{
	"epoch": 0.20344366713081796,
	"grad_norm": 0.24581623077392578,
	"learning_rate": 0.00010735986111745626,
	"loss": 0.768,
	"step": 18190
	},
	{
	"epoch": 0.20355551081808065,
	"grad_norm": 0.26637768745422363,
	"learning_rate": 0.00010713143588103613,
	"loss": 0.7711,
	"step": 18200
	},
	{
	"epoch": 0.20366735450534335,
	"grad_norm": 0.2510250508785248,
	"learning_rate": 0.00010690301064461602,
	"loss": 0.7748,
	"step": 18210
	},
	{
	"epoch": 0.203779198192606,
	"grad_norm": 0.2378496378660202,
	"learning_rate": 0.00010667458540819589,
	"loss": 0.7622,
	"step": 18220
	},
	{
	"epoch": 0.2038910418798687,
	"grad_norm": 0.2507869601249695,
	"learning_rate": 0.00010644616017177578,
	"loss": 0.7739,
	"step": 18230
	},
	{
	"epoch": 0.20400288556713136,
	"grad_norm": 0.24733096361160278,
	"learning_rate": 0.00010621773493535566,
	"loss": 0.7508,
	"step": 18240
	},
	{
	"epoch": 0.20411472925439406,
	"grad_norm": 0.23383109271526337,
	"learning_rate": 0.00010598930969893554,
	"loss": 0.7507,
	"step": 18250
	},
	{
	"epoch": 0.20422657294165675,
	"grad_norm": 0.2543237805366516,
	"learning_rate": 0.00010576088446251541,
	"loss": 0.7578,
	"step": 18260
	},
	{
	"epoch": 0.2043384166289194,
	"grad_norm": 0.25807520747184753,
	"learning_rate": 0.00010553245922609531,
	"loss": 0.7513,
	"step": 18270
	},
	{
	"epoch": 0.2044502603161821,
	"grad_norm": 0.23354406654834747,
	"learning_rate": 0.00010530403398967518,
	"loss": 0.7566,
	"step": 18280
	},
	{
	"epoch": 0.2045621040034448,
	"grad_norm": 0.2685154676437378,
	"learning_rate": 0.00010507560875325506,
	"loss": 0.758,
	"step": 18290
	},
	{
	"epoch": 0.20467394769070746,
	"grad_norm": 0.24349918961524963,
	"learning_rate": 0.00010484718351683494,
	"loss": 0.7686,
	"step": 18300
	},
	{
	"epoch": 0.20478579137797015,
	"grad_norm": 0.24823498725891113,
	"learning_rate": 0.00010461875828041482,
	"loss": 0.7659,
	"step": 18310
	},
	{
	"epoch": 0.20489763506523284,
	"grad_norm": 0.2511804401874542,
	"learning_rate": 0.0001043903330439947,
	"loss": 0.77,
	"step": 18320
	},
	{
	"epoch": 0.2050094787524955,
	"grad_norm": 0.24065516889095306,
	"learning_rate": 0.00010416190780757458,
	"loss": 0.7677,
	"step": 18330
	},
	{
	"epoch": 0.2051213224397582,
	"grad_norm": 0.2819323241710663,
	"learning_rate": 0.00010393348257115447,
	"loss": 0.753,
	"step": 18340
	},
	{
	"epoch": 0.2052331661270209,
	"grad_norm": 0.26467952132225037,
	"learning_rate": 0.00010370505733473434,
	"loss": 0.7826,
	"step": 18350
	},
	{
	"epoch": 0.20534500981428355,
	"grad_norm": 0.22962163388729095,
	"learning_rate": 0.00010347663209831423,
	"loss": 0.7683,
	"step": 18360
	},
	{
	"epoch": 0.20545685350154624,
	"grad_norm": 0.2582736611366272,
	"learning_rate": 0.00010324820686189411,
	"loss": 0.7951,
	"step": 18370
	},
	{
	"epoch": 0.2055686971888089,
	"grad_norm": 0.2352149486541748,
	"learning_rate": 0.00010301978162547399,
	"loss": 0.7577,
	"step": 18380
	},
	{
	"epoch": 0.2056805408760716,
	"grad_norm": 0.25687554478645325,
	"learning_rate": 0.00010279135638905386,
	"loss": 0.7696,
	"step": 18390
	},
	{
	"epoch": 0.2057923845633343,
	"grad_norm": 0.2579772472381592,
	"learning_rate": 0.00010256293115263376,
	"loss": 0.7837,
	"step": 18400
	},
	{
	"epoch": 0.20590422825059695,
	"grad_norm": 0.24537009000778198,
	"learning_rate": 0.00010233450591621363,
	"loss": 0.7799,
	"step": 18410
	},
	{
	"epoch": 0.20601607193785965,
	"grad_norm": 0.2636966109275818,
	"learning_rate": 0.00010210608067979351,
	"loss": 0.7588,
	"step": 18420
	},
	{
	"epoch": 0.20612791562512234,
	"grad_norm": 0.30670562386512756,
	"learning_rate": 0.00010187765544337338,
	"loss": 0.771,
	"step": 18430
	},
	{
	"epoch": 0.206239759312385,
	"grad_norm": 0.28400668501853943,
	"learning_rate": 0.00010164923020695327,
	"loss": 0.7686,
	"step": 18440
	},
	{
	"epoch": 0.2063516029996477,
	"grad_norm": 0.27395951747894287,
	"learning_rate": 0.00010142080497053314,
	"loss": 0.776,
	"step": 18450
	},
	{
	"epoch": 0.20646344668691038,
	"grad_norm": 0.284868061542511,
	"learning_rate": 0.00010119237973411303,
	"loss": 0.7864,
	"step": 18460
	},
	{
	"epoch": 0.20657529037417305,
	"grad_norm": 0.2859087586402893,
	"learning_rate": 0.00010096395449769291,
	"loss": 0.7749,
	"step": 18470
	},
	{
	"epoch": 0.20668713406143574,
	"grad_norm": 0.28758034110069275,
	"learning_rate": 0.00010073552926127279,
	"loss": 0.7919,
	"step": 18480
	},
	{
	"epoch": 0.20679897774869843,
	"grad_norm": 0.2752404510974884,
	"learning_rate": 0.00010050710402485266,
	"loss": 0.7808,
	"step": 18490
	},
	{
	"epoch": 0.2069108214359611,
	"grad_norm": 0.30756843090057373,
	"learning_rate": 0.00010027867878843256,
	"loss": 0.7734,
	"step": 18500
	},
	{
	"epoch": 0.2070226651232238,
	"grad_norm": 0.2694368064403534,
	"learning_rate": 0.00010005025355201243,
	"loss": 0.7751,
	"step": 18510
	},
	{
	"epoch": 0.20713450881048645,
	"grad_norm": 0.25838834047317505,
	"learning_rate": 9.982182831559231e-05,
	"loss": 0.7686,
	"step": 18520
	},
	{
	"epoch": 0.20724635249774914,
	"grad_norm": 0.257729709148407,
	"learning_rate": 9.959340307917219e-05,
	"loss": 0.7827,
	"step": 18530
	},
	{
	"epoch": 0.20735819618501183,
	"grad_norm": 0.2938844859600067,
	"learning_rate": 9.936497784275208e-05,
	"loss": 0.7685,
	"step": 18540
	},
	{
	"epoch": 0.2074700398722745,
	"grad_norm": 0.25894027948379517,
	"learning_rate": 9.913655260633194e-05,
	"loss": 0.7738,
	"step": 18550
	},
	{
	"epoch": 0.2075818835595372,
	"grad_norm": 0.2751148045063019,
	"learning_rate": 9.890812736991183e-05,
	"loss": 0.7594,
	"step": 18560
	},
	{
	"epoch": 0.20769372724679988,
	"grad_norm": 0.28643253445625305,
	"learning_rate": 9.867970213349171e-05,
	"loss": 0.7737,
	"step": 18570
	},
	{
	"epoch": 0.20780557093406254,
	"grad_norm": 0.2575749158859253,
	"learning_rate": 9.845127689707159e-05,
	"loss": 0.7778,
	"step": 18580
	},
	{
	"epoch": 0.20791741462132524,
	"grad_norm": 0.27625295519828796,
	"learning_rate": 9.822285166065146e-05,
	"loss": 0.7716,
	"step": 18590
	},
	{
	"epoch": 0.20802925830858793,
	"grad_norm": 0.2803322672843933,
	"learning_rate": 9.799442642423136e-05,
	"loss": 0.7805,
	"step": 18600
	},
	{
	"epoch": 0.2081411019958506,
	"grad_norm": 0.2567484676837921,
	"learning_rate": 9.776600118781123e-05,
	"loss": 0.7633,
	"step": 18610
	},
	{
	"epoch": 0.20825294568311328,
	"grad_norm": 0.28193768858909607,
	"learning_rate": 9.753757595139111e-05,
	"loss": 0.7895,
	"step": 18620
	},
	{
	"epoch": 0.20836478937037597,
	"grad_norm": 0.28459542989730835,
	"learning_rate": 9.7309150714971e-05,
	"loss": 0.7741,
	"step": 18630
	},
	{
	"epoch": 0.20847663305763864,
	"grad_norm": 0.28346261382102966,
	"learning_rate": 9.708072547855088e-05,
	"loss": 0.7813,
	"step": 18640
	},
	{
	"epoch": 0.20858847674490133,
	"grad_norm": 0.2818828523159027,
	"learning_rate": 9.685230024213075e-05,
	"loss": 0.7755,
	"step": 18650
	},
	{
	"epoch": 0.208700320432164,
	"grad_norm": 0.28914326429367065,
	"learning_rate": 9.662387500571063e-05,
	"loss": 0.7798,
	"step": 18660
	},
	{
	"epoch": 0.20881216411942669,
	"grad_norm": 0.2600755989551544,
	"learning_rate": 9.639544976929051e-05,
	"loss": 0.7758,
	"step": 18670
	},
	{
	"epoch": 0.20892400780668938,
	"grad_norm": 0.2726733088493347,
	"learning_rate": 9.61670245328704e-05,
	"loss": 0.7769,
	"step": 18680
	},
	{
	"epoch": 0.20903585149395204,
	"grad_norm": 0.23421594500541687,
	"learning_rate": 9.593859929645026e-05,
	"loss": 0.758,
	"step": 18690
	},
	{
	"epoch": 0.20914769518121473,
	"grad_norm": 0.29468339681625366,
	"learning_rate": 9.571017406003016e-05,
	"loss": 0.7746,
	"step": 18700
	},
	{
	"epoch": 0.20925953886847742,
	"grad_norm": 0.29477235674858093,
	"learning_rate": 9.548174882361003e-05,
	"loss": 0.7633,
	"step": 18710
	},
	{
	"epoch": 0.2093713825557401,
	"grad_norm": 0.2564197778701782,
	"learning_rate": 9.525332358718991e-05,
	"loss": 0.7541,
	"step": 18720
	},
	{
	"epoch": 0.20948322624300278,
	"grad_norm": 0.2745250165462494,
	"learning_rate": 9.50248983507698e-05,
	"loss": 0.7887,
	"step": 18730
	},
	{
	"epoch": 0.20959506993026547,
	"grad_norm": 0.2572060525417328,
	"learning_rate": 9.479647311434968e-05,
	"loss": 0.774,
	"step": 18740
	},
	{
	"epoch": 0.20970691361752813,
	"grad_norm": 0.28513193130493164,
	"learning_rate": 9.456804787792955e-05,
	"loss": 0.7871,
	"step": 18750
	},
	{
	"epoch": 0.20981875730479083,
	"grad_norm": 0.2643887400627136,
	"learning_rate": 9.433962264150944e-05,
	"loss": 0.77,
	"step": 18760
	},
	{
	"epoch": 0.20993060099205352,
	"grad_norm": 0.27534207701683044,
	"learning_rate": 9.411119740508931e-05,
	"loss": 0.7775,
	"step": 18770
	},
	{
	"epoch": 0.21004244467931618,
	"grad_norm": 0.2620585858821869,
	"learning_rate": 9.38827721686692e-05,
	"loss": 0.7808,
	"step": 18780
	},
	{
	"epoch": 0.21015428836657887,
	"grad_norm": 0.2759549915790558,
	"learning_rate": 9.365434693224908e-05,
	"loss": 0.7642,
	"step": 18790
	},
	{
	"epoch": 0.21026613205384156,
	"grad_norm": 0.2919774353504181,
	"learning_rate": 9.342592169582896e-05,
	"loss": 0.7828,
	"step": 18800
	},
	{
	"epoch": 0.21037797574110423,
	"grad_norm": 0.2717173099517822,
	"learning_rate": 9.319749645940884e-05,
	"loss": 0.7513,
	"step": 18810
	},
	{
	"epoch": 0.21048981942836692,
	"grad_norm": 0.2662122845649719,
	"learning_rate": 9.296907122298871e-05,
	"loss": 0.7668,
	"step": 18820
	},
	{
	"epoch": 0.21060166311562958,
	"grad_norm": 0.26051005721092224,
	"learning_rate": 9.274064598656861e-05,
	"loss": 0.7676,
	"step": 18830
	},
	{
	"epoch": 0.21071350680289228,
	"grad_norm": 0.27510005235671997,
	"learning_rate": 9.251222075014848e-05,
	"loss": 0.7507,
	"step": 18840
	},
	{
	"epoch": 0.21082535049015497,
	"grad_norm": 0.23877868056297302,
	"learning_rate": 9.228379551372836e-05,
	"loss": 0.7535,
	"step": 18850
	},
	{
	"epoch": 0.21093719417741763,
	"grad_norm": 0.256104439496994,
	"learning_rate": 9.205537027730824e-05,
	"loss": 0.7546,
	"step": 18860
	},
	{
	"epoch": 0.21104903786468032,
	"grad_norm": 0.2829015552997589,
	"learning_rate": 9.182694504088813e-05,
	"loss": 0.7588,
	"step": 18870
	},
	{
	"epoch": 0.211160881551943,
	"grad_norm": 0.22898368537425995,
	"learning_rate": 9.1598519804468e-05,
	"loss": 0.7551,
	"step": 18880
	},
	{
	"epoch": 0.21127272523920568,
	"grad_norm": 0.23679418861865997,
	"learning_rate": 9.137009456804788e-05,
	"loss": 0.7718,
	"step": 18890
	},
	{
	"epoch": 0.21138456892646837,
	"grad_norm": 0.2878457009792328,
	"learning_rate": 9.114166933162776e-05,
	"loss": 0.7593,
	"step": 18900
	},
	{
	"epoch": 0.21149641261373106,
	"grad_norm": 0.2936013638973236,
	"learning_rate": 9.091324409520764e-05,
	"loss": 0.7713,
	"step": 18910
	},
	{
	"epoch": 0.21160825630099372,
	"grad_norm": 0.26062774658203125,
	"learning_rate": 9.068481885878751e-05,
	"loss": 0.7763,
	"step": 18920
	},
	{
	"epoch": 0.21172009998825642,
	"grad_norm": 0.3092271685600281,
	"learning_rate": 9.045639362236741e-05,
	"loss": 0.7807,
	"step": 18930
	},
	{
	"epoch": 0.2118319436755191,
	"grad_norm": 0.23566113412380219,
	"learning_rate": 9.022796838594728e-05,
	"loss": 0.7779,
	"step": 18940
	},
	{
	"epoch": 0.21194378736278177,
	"grad_norm": 0.27366477251052856,
	"learning_rate": 8.999954314952716e-05,
	"loss": 0.77,
	"step": 18950
	},
	{
	"epoch": 0.21205563105004446,
	"grad_norm": 0.23270778357982635,
	"learning_rate": 8.977111791310704e-05,
	"loss": 0.7549,
	"step": 18960
	},
	{
	"epoch": 0.21216747473730713,
	"grad_norm": 0.28785306215286255,
	"learning_rate": 8.954269267668693e-05,
	"loss": 0.7677,
	"step": 18970
	},
	{
	"epoch": 0.21227931842456982,
	"grad_norm": 0.2588510811328888,
	"learning_rate": 8.93142674402668e-05,
	"loss": 0.7715,
	"step": 18980
	},
	{
	"epoch": 0.2123911621118325,
	"grad_norm": 0.248029887676239,
	"learning_rate": 8.908584220384668e-05,
	"loss": 0.7749,
	"step": 18990
	},
	{
	"epoch": 0.21250300579909517,
	"grad_norm": 0.2579936981201172,
	"learning_rate": 8.885741696742656e-05,
	"loss": 0.7552,
	"step": 19000
	},
	{
	"epoch": 0.21261484948635787,
	"grad_norm": 0.26293206214904785,
	"learning_rate": 8.862899173100645e-05,
	"loss": 0.7657,
	"step": 19010
	},
	{
	"epoch": 0.21272669317362056,
	"grad_norm": 0.24589793384075165,
	"learning_rate": 8.840056649458631e-05,
	"loss": 0.7598,
	"step": 19020
	},
	{
	"epoch": 0.21283853686088322,
	"grad_norm": 0.2315252274274826,
	"learning_rate": 8.817214125816621e-05,
	"loss": 0.7637,
	"step": 19030
	},
	{
	"epoch": 0.2129503805481459,
	"grad_norm": 0.2538358271121979,
	"learning_rate": 8.794371602174608e-05,
	"loss": 0.7587,
	"step": 19040
	},
	{
	"epoch": 0.2130622242354086,
	"grad_norm": 0.2626616060733795,
	"learning_rate": 8.771529078532596e-05,
	"loss": 0.7597,
	"step": 19050
	},
	{
	"epoch": 0.21317406792267127,
	"grad_norm": 0.2557279169559479,
	"learning_rate": 8.748686554890585e-05,
	"loss": 0.7499,
	"step": 19060
	},
	{
	"epoch": 0.21328591160993396,
	"grad_norm": 0.25008153915405273,
	"learning_rate": 8.725844031248573e-05,
	"loss": 0.7466,
	"step": 19070
	},
	{
	"epoch": 0.21339775529719665,
	"grad_norm": 0.2647120952606201,
	"learning_rate": 8.70300150760656e-05,
	"loss": 0.7574,
	"step": 19080
	},
	{
	"epoch": 0.21350959898445931,
	"grad_norm": 0.2535738945007324,
	"learning_rate": 8.68015898396455e-05,
	"loss": 0.7672,
	"step": 19090
	},
	{
	"epoch": 0.213621442671722,
	"grad_norm": 0.28925755620002747,
	"learning_rate": 8.657316460322536e-05,
	"loss": 0.7692,
	"step": 19100
	},
	{
	"epoch": 0.21373328635898467,
	"grad_norm": 0.26770591735839844,
	"learning_rate": 8.634473936680525e-05,
	"loss": 0.7511,
	"step": 19110
	},
	{
	"epoch": 0.21384513004624736,
	"grad_norm": 0.25162947177886963,
	"learning_rate": 8.611631413038512e-05,
	"loss": 0.7573,
	"step": 19120
	},
	{
	"epoch": 0.21395697373351005,
	"grad_norm": 0.253324031829834,
	"learning_rate": 8.588788889396501e-05,
	"loss": 0.7516,
	"step": 19130
	},
	{
	"epoch": 0.21406881742077272,
	"grad_norm": 0.2784843146800995,
	"learning_rate": 8.565946365754488e-05,
	"loss": 0.7522,
	"step": 19140
	},
	{
	"epoch": 0.2141806611080354,
	"grad_norm": 0.2869722247123718,
	"learning_rate": 8.543103842112476e-05,
	"loss": 0.7525,
	"step": 19150
	},
	{
	"epoch": 0.2142925047952981,
	"grad_norm": 0.2467101663351059,
	"learning_rate": 8.520261318470465e-05,
	"loss": 0.7336,
	"step": 19160
	},
	{
	"epoch": 0.21440434848256076,
	"grad_norm": 0.26108691096305847,
	"learning_rate": 8.497418794828453e-05,
	"loss": 0.751,
	"step": 19170
	},
	{
	"epoch": 0.21451619216982346,
	"grad_norm": 0.2992580533027649,
	"learning_rate": 8.47457627118644e-05,
	"loss": 0.7599,
	"step": 19180
	},
	{
	"epoch": 0.21462803585708615,
	"grad_norm": 0.2573351562023163,
	"learning_rate": 8.45173374754443e-05,
	"loss": 0.752,
	"step": 19190
	},
	{
	"epoch": 0.2147398795443488,
	"grad_norm": 0.30148234963417053,
	"learning_rate": 8.428891223902416e-05,
	"loss": 0.7536,
	"step": 19200
	},
	{
	"epoch": 0.2148517232316115,
	"grad_norm": 0.2811321020126343,
	"learning_rate": 8.406048700260405e-05,
	"loss": 0.761,
	"step": 19210
	},
	{
	"epoch": 0.2149635669188742,
	"grad_norm": 0.2792038321495056,
	"learning_rate": 8.383206176618392e-05,
	"loss": 0.7558,
	"step": 19220
	},
	{
	"epoch": 0.21507541060613686,
	"grad_norm": 0.30432426929473877,
	"learning_rate": 8.360363652976381e-05,
	"loss": 0.7541,
	"step": 19230
	},
	{
	"epoch": 0.21518725429339955,
	"grad_norm": 0.28335481882095337,
	"learning_rate": 8.33752112933437e-05,
	"loss": 0.7628,
	"step": 19240
	},
	{
	"epoch": 0.2152990979806622,
	"grad_norm": 0.28402864933013916,
	"learning_rate": 8.314678605692357e-05,
	"loss": 0.7835,
	"step": 19250
	},
	{
	"epoch": 0.2154109416679249,
	"grad_norm": 0.2914164662361145,
	"learning_rate": 8.291836082050346e-05,
	"loss": 0.7705,
	"step": 19260
	},
	{
	"epoch": 0.2155227853551876,
	"grad_norm": 0.27296769618988037,
	"learning_rate": 8.268993558408333e-05,
	"loss": 0.7791,
	"step": 19270
	},
	{
	"epoch": 0.21563462904245026,
	"grad_norm": 0.2987435460090637,
	"learning_rate": 8.246151034766321e-05,
	"loss": 0.7918,
	"step": 19280
	},
	{
	"epoch": 0.21574647272971295,
	"grad_norm": 0.2743736207485199,
	"learning_rate": 8.22330851112431e-05,
	"loss": 0.7777,
	"step": 19290
	},
	{
	"epoch": 0.21585831641697564,
	"grad_norm": 0.2775188982486725,
	"learning_rate": 8.200465987482298e-05,
	"loss": 0.7811,
	"step": 19300
	},
	{
	"epoch": 0.2159701601042383,
	"grad_norm": 0.2942585349082947,
	"learning_rate": 8.177623463840285e-05,
	"loss": 0.7748,
	"step": 19310
	},
	{
	"epoch": 0.216082003791501,
	"grad_norm": 0.2545025050640106,
	"learning_rate": 8.154780940198274e-05,
	"loss": 0.77,
	"step": 19320
	},
	{
	"epoch": 0.2161938474787637,
	"grad_norm": 0.2571526765823364,
	"learning_rate": 8.131938416556261e-05,
	"loss": 0.7735,
	"step": 19330
	},
	{
	"epoch": 0.21630569116602635,
	"grad_norm": 0.2687735855579376,
	"learning_rate": 8.10909589291425e-05,
	"loss": 0.7703,
	"step": 19340
	},
	{
	"epoch": 0.21641753485328905,
	"grad_norm": 0.27332374453544617,
	"learning_rate": 8.086253369272237e-05,
	"loss": 0.7645,
	"step": 19350
	},
	{
	"epoch": 0.21652937854055174,
	"grad_norm": 0.25585636496543884,
	"learning_rate": 8.063410845630226e-05,
	"loss": 0.7651,
	"step": 19360
	},
	{
	"epoch": 0.2166412222278144,
	"grad_norm": 0.25861334800720215,
	"learning_rate": 8.040568321988213e-05,
	"loss": 0.7788,
	"step": 19370
	},
	{
	"epoch": 0.2167530659150771,
	"grad_norm": 0.26126453280448914,
	"learning_rate": 8.017725798346201e-05,
	"loss": 0.7631,
	"step": 19380
	},
	{
	"epoch": 0.21686490960233978,
	"grad_norm": 0.27623289823532104,
	"learning_rate": 7.99488327470419e-05,
	"loss": 0.7555,
	"step": 19390
	},
	{
	"epoch": 0.21697675328960245,
	"grad_norm": 0.256489634513855,
	"learning_rate": 7.972040751062178e-05,
	"loss": 0.7565,
	"step": 19400
	},
	{
	"epoch": 0.21708859697686514,
	"grad_norm": 0.26825475692749023,
	"learning_rate": 7.949198227420165e-05,
	"loss": 0.7619,
	"step": 19410
	},
	{
	"epoch": 0.2172004406641278,
	"grad_norm": 0.2633214294910431,
	"learning_rate": 7.926355703778155e-05,
	"loss": 0.7576,
	"step": 19420
	},
	{
	"epoch": 0.2173122843513905,
	"grad_norm": 0.24602185189723969,
	"learning_rate": 7.903513180136141e-05,
	"loss": 0.748,
	"step": 19430
	},
	{
	"epoch": 0.21742412803865319,
	"grad_norm": 0.24769659340381622,
	"learning_rate": 7.88067065649413e-05,
	"loss": 0.749,
	"step": 19440
	},
	{
	"epoch": 0.21753597172591585,
	"grad_norm": 0.22824670374393463,
	"learning_rate": 7.857828132852117e-05,
	"loss": 0.7439,
	"step": 19450
	},
	{
	"epoch": 0.21764781541317854,
	"grad_norm": 0.24848710000514984,
	"learning_rate": 7.834985609210106e-05,
	"loss": 0.7422,
	"step": 19460
	},
	{
	"epoch": 0.21775965910044123,
	"grad_norm": 0.25875037908554077,
	"learning_rate": 7.812143085568093e-05,
	"loss": 0.7411,
	"step": 19470
	},
	{
	"epoch": 0.2178715027877039,
	"grad_norm": 0.24616488814353943,
	"learning_rate": 7.789300561926082e-05,
	"loss": 0.723,
	"step": 19480
	},
	{
	"epoch": 0.2179833464749666,
	"grad_norm": 0.26018476486206055,
	"learning_rate": 7.76645803828407e-05,
	"loss": 0.7388,
	"step": 19490
	},
	{
	"epoch": 0.21809519016222928,
	"grad_norm": 0.24355724453926086,
	"learning_rate": 7.743615514642058e-05,
	"loss": 0.7337,
	"step": 19500
	},
	{
	"epoch": 0.21820703384949194,
	"grad_norm": 0.24908235669136047,
	"learning_rate": 7.720772991000045e-05,
	"loss": 0.7378,
	"step": 19510
	},
	{
	"epoch": 0.21831887753675464,
	"grad_norm": 0.2710162401199341,
	"learning_rate": 7.697930467358035e-05,
	"loss": 0.7336,
	"step": 19520
	},
	{
	"epoch": 0.21843072122401733,
	"grad_norm": 0.24222905933856964,
	"learning_rate": 7.675087943716022e-05,
	"loss": 0.7386,
	"step": 19530
	},
	{
	"epoch": 0.21854256491128,
	"grad_norm": 0.23762881755828857,
	"learning_rate": 7.65224542007401e-05,
	"loss": 0.7354,
	"step": 19540
	},
	{
	"epoch": 0.21865440859854268,
	"grad_norm": 0.25905948877334595,
	"learning_rate": 7.629402896431998e-05,
	"loss": 0.7453,
	"step": 19550
	},
	{
	"epoch": 0.21876625228580535,
	"grad_norm": 0.24563716351985931,
	"learning_rate": 7.606560372789986e-05,
	"loss": 0.7422,
	"step": 19560
	},
	{
	"epoch": 0.21887809597306804,
	"grad_norm": 0.2649664878845215,
	"learning_rate": 7.583717849147973e-05,
	"loss": 0.7301,
	"step": 19570
	},
	{
	"epoch": 0.21898993966033073,
	"grad_norm": 0.24720273911952972,
	"learning_rate": 7.560875325505962e-05,
	"loss": 0.7321,
	"step": 19580
	},
	{
	"epoch": 0.2191017833475934,
	"grad_norm": 0.23652884364128113,
	"learning_rate": 7.53803280186395e-05,
	"loss": 0.7296,
	"step": 19590
	},
	{
	"epoch": 0.21921362703485608,
	"grad_norm": 0.23715312778949738,
	"learning_rate": 7.515190278221938e-05,
	"loss": 0.7237,
	"step": 19600
	},
	{
	"epoch": 0.21932547072211878,
	"grad_norm": 0.2500048577785492,
	"learning_rate": 7.492347754579925e-05,
	"loss": 0.7372,
	"step": 19610
	},
	{
	"epoch": 0.21943731440938144,
	"grad_norm": 0.2575337886810303,
	"learning_rate": 7.469505230937915e-05,
	"loss": 0.7393,
	"step": 19620
	},
	{
	"epoch": 0.21954915809664413,
	"grad_norm": 0.255375474691391,
	"learning_rate": 7.446662707295902e-05,
	"loss": 0.75,
	"step": 19630
	},
	{
	"epoch": 0.21966100178390682,
	"grad_norm": 0.2793714106082916,
	"learning_rate": 7.42382018365389e-05,
	"loss": 0.7585,
	"step": 19640
	},
	{
	"epoch": 0.2197728454711695,
	"grad_norm": 0.2588786482810974,
	"learning_rate": 7.400977660011878e-05,
	"loss": 0.7661,
	"step": 19650
	},
	{
	"epoch": 0.21988468915843218,
	"grad_norm": 0.27130866050720215,
	"learning_rate": 7.378135136369867e-05,
	"loss": 0.7579,
	"step": 19660
	},
	{
	"epoch": 0.21999653284569487,
	"grad_norm": 0.2730309069156647,
	"learning_rate": 7.355292612727853e-05,
	"loss": 0.7463,
	"step": 19670
	},
	{
	"epoch": 0.22010837653295753,
	"grad_norm": 0.24330918490886688,
	"learning_rate": 7.332450089085842e-05,
	"loss": 0.7388,
	"step": 19680
	},
	{
	"epoch": 0.22022022022022023,
	"grad_norm": 0.30004703998565674,
	"learning_rate": 7.309607565443831e-05,
	"loss": 0.7633,
	"step": 19690
	},
	{
	"epoch": 0.2203320639074829,
	"grad_norm": 0.2754705548286438,
	"learning_rate": 7.286765041801818e-05,
	"loss": 0.7587,
	"step": 19700
	},
	{
	"epoch": 0.22044390759474558,
	"grad_norm": 0.27601394057273865,
	"learning_rate": 7.263922518159807e-05,
	"loss": 0.7468,
	"step": 19710
	},
	{
	"epoch": 0.22055575128200827,
	"grad_norm": 0.2328653633594513,
	"learning_rate": 7.241079994517795e-05,
	"loss": 0.7432,
	"step": 19720
	},
	{
	"epoch": 0.22066759496927094,
	"grad_norm": 0.23960436880588531,
	"learning_rate": 7.218237470875783e-05,
	"loss": 0.7384,
	"step": 19730
	},
	{
	"epoch": 0.22077943865653363,
	"grad_norm": 0.2687484323978424,
	"learning_rate": 7.19539494723377e-05,
	"loss": 0.738,
	"step": 19740
	},
	{
	"epoch": 0.22089128234379632,
	"grad_norm": 0.2243189811706543,
	"learning_rate": 7.17255242359176e-05,
	"loss": 0.7467,
	"step": 19750
	},
	{
	"epoch": 0.22100312603105898,
	"grad_norm": 0.26094529032707214,
	"learning_rate": 7.149709899949747e-05,
	"loss": 0.7579,
	"step": 19760
	},
	{
	"epoch": 0.22111496971832167,
	"grad_norm": 0.2761390507221222,
	"learning_rate": 7.126867376307735e-05,
	"loss": 0.7491,
	"step": 19770
	},
	{
	"epoch": 0.22122681340558437,
	"grad_norm": 0.2523578405380249,
	"learning_rate": 7.104024852665723e-05,
	"loss": 0.7358,
	"step": 19780
	},
	{
	"epoch": 0.22133865709284703,
	"grad_norm": 0.25612056255340576,
	"learning_rate": 7.081182329023711e-05,
	"loss": 0.7322,
	"step": 19790
	},
	{
	"epoch": 0.22145050078010972,
	"grad_norm": 0.24379362165927887,
	"learning_rate": 7.058339805381698e-05,
	"loss": 0.7438,
	"step": 19800
	},
	{
	"epoch": 0.2215623444673724,
	"grad_norm": 0.2315502017736435,
	"learning_rate": 7.035497281739687e-05,
	"loss": 0.7349,
	"step": 19810
	},
	{
	"epoch": 0.22167418815463508,
	"grad_norm": 0.41941365599632263,
	"learning_rate": 7.012654758097675e-05,
	"loss": 0.743,
	"step": 19820
	},
	{
	"epoch": 0.22178603184189777,
	"grad_norm": 0.23147599399089813,
	"learning_rate": 6.989812234455663e-05,
	"loss": 0.7381,
	"step": 19830
	},
	{
	"epoch": 0.22189787552916043,
	"grad_norm": 0.25920864939689636,
	"learning_rate": 6.96696971081365e-05,
	"loss": 0.7469,
	"step": 19840
	},
	{
	"epoch": 0.22200971921642312,
	"grad_norm": 0.23870904743671417,
	"learning_rate": 6.94412718717164e-05,
	"loss": 0.7476,
	"step": 19850
	},
	{
	"epoch": 0.22212156290368582,
	"grad_norm": 0.2372673749923706,
	"learning_rate": 6.921284663529627e-05,
	"loss": 0.7468,
	"step": 19860
	},
	{
	"epoch": 0.22223340659094848,
	"grad_norm": 0.2703365683555603,
	"learning_rate": 6.898442139887615e-05,
	"loss": 0.742,
	"step": 19870
	},
	{
	"epoch": 0.22234525027821117,
	"grad_norm": 0.24437329173088074,
	"learning_rate": 6.875599616245603e-05,
	"loss": 0.7217,
	"step": 19880
	},
	{
	"epoch": 0.22245709396547386,
	"grad_norm": 0.21680840849876404,
	"learning_rate": 6.852757092603592e-05,
	"loss": 0.7547,
	"step": 19890
	},
	{
	"epoch": 0.22256893765273653,
	"grad_norm": 0.29101526737213135,
	"learning_rate": 6.829914568961579e-05,
	"loss": 0.7389,
	"step": 19900
	},
	{
	"epoch": 0.22268078133999922,
	"grad_norm": 0.2821531891822815,
	"learning_rate": 6.807072045319567e-05,
	"loss": 0.731,
	"step": 19910
	},
	{
	"epoch": 0.2227926250272619,
	"grad_norm": 0.2773050367832184,
	"learning_rate": 6.784229521677555e-05,
	"loss": 0.7369,
	"step": 19920
	},
	{
	"epoch": 0.22290446871452457,
	"grad_norm": 0.2531367838382721,
	"learning_rate": 6.761386998035543e-05,
	"loss": 0.7399,
	"step": 19930
	},
	{
	"epoch": 0.22301631240178726,
	"grad_norm": 0.28158465027809143,
	"learning_rate": 6.73854447439353e-05,
	"loss": 0.7523,
	"step": 19940
	},
	{
	"epoch": 0.22312815608904996,
	"grad_norm": 0.25612935423851013,
	"learning_rate": 6.71570195075152e-05,
	"loss": 0.7725,
	"step": 19950
	},
	{
	"epoch": 0.22323999977631262,
	"grad_norm": 0.26996153593063354,
	"learning_rate": 6.692859427109507e-05,
	"loss": 0.7823,
	"step": 19960
	},
	{
	"epoch": 0.2233518434635753,
	"grad_norm": 0.28008782863616943,
	"learning_rate": 6.670016903467495e-05,
	"loss": 0.7679,
	"step": 19970
	},
	{
	"epoch": 0.22346368715083798,
	"grad_norm": 0.27016493678092957,
	"learning_rate": 6.647174379825483e-05,
	"loss": 0.7617,
	"step": 19980
	},
	{
	"epoch": 0.22357553083810067,
	"grad_norm": 0.2679850459098816,
	"learning_rate": 6.624331856183472e-05,
	"loss": 0.7737,
	"step": 19990
	},
	{
	"epoch": 0.22368737452536336,
	"grad_norm": 0.2570480406284332,
	"learning_rate": 6.601489332541459e-05,
	"loss": 0.758,
	"step": 20000
	},
	{
	"epoch": 0.22379921821262602,
	"grad_norm": 0.2503785490989685,
	"learning_rate": 6.578646808899447e-05,
	"loss": 0.761,
	"step": 20010
	},
	{
	"epoch": 0.2239110618998887,
	"grad_norm": 0.2648092210292816,
	"learning_rate": 6.555804285257435e-05,
	"loss": 0.7532,
	"step": 20020
	},
	{
	"epoch": 0.2240229055871514,
	"grad_norm": 0.26829221844673157,
	"learning_rate": 6.532961761615423e-05,
	"loss": 0.7542,
	"step": 20030
	},
	{
	"epoch": 0.22413474927441407,
	"grad_norm": 0.27535539865493774,
	"learning_rate": 6.51011923797341e-05,
	"loss": 0.7578,
	"step": 20040
	},
	{
	"epoch": 0.22424659296167676,
	"grad_norm": 0.28674209117889404,
	"learning_rate": 6.4872767143314e-05,
	"loss": 0.756,
	"step": 20050
	},
	{
	"epoch": 0.22435843664893945,
	"grad_norm": 0.2523026466369629,
	"learning_rate": 6.464434190689387e-05,
	"loss": 0.7514,
	"step": 20060
	},
	{
	"epoch": 0.22447028033620212,
	"grad_norm": 0.24213305115699768,
	"learning_rate": 6.441591667047375e-05,
	"loss": 0.7546,
	"step": 20070
	},
	{
	"epoch": 0.2245821240234648,
	"grad_norm": 0.2779023349285126,
	"learning_rate": 6.418749143405363e-05,
	"loss": 0.7654,
	"step": 20080
	},
	{
	"epoch": 0.2246939677107275,
	"grad_norm": 0.28806111216545105,
	"learning_rate": 6.395906619763352e-05,
	"loss": 0.7612,
	"step": 20090
	},
	{
	"epoch": 0.22480581139799016,
	"grad_norm": 0.2637580931186676,
	"learning_rate": 6.373064096121339e-05,
	"loss": 0.7659,
	"step": 20100
	},
	{
	"epoch": 0.22491765508525285,
	"grad_norm": 0.2683275043964386,
	"learning_rate": 6.350221572479328e-05,
	"loss": 0.753,
	"step": 20110
	},
	{
	"epoch": 0.22502949877251555,
	"grad_norm": 0.2693597078323364,
	"learning_rate": 6.327379048837315e-05,
	"loss": 0.7697,
	"step": 20120
	},
	{
	"epoch": 0.2251413424597782,
	"grad_norm": 0.26335635781288147,
	"learning_rate": 6.304536525195304e-05,
	"loss": 0.7644,
	"step": 20130
	},
	{
	"epoch": 0.2252531861470409,
	"grad_norm": 0.29237446188926697,
	"learning_rate": 6.28169400155329e-05,
	"loss": 0.7721,
	"step": 20140
	},
	{
	"epoch": 0.22536502983430357,
	"grad_norm": 0.3080182373523712,
	"learning_rate": 6.25885147791128e-05,
	"loss": 0.7666,
	"step": 20150
	},
	{
	"epoch": 0.22547687352156626,
	"grad_norm": 0.2831542193889618,
	"learning_rate": 6.236008954269268e-05,
	"loss": 0.7805,
	"step": 20160
	},
	{
	"epoch": 0.22558871720882895,
	"grad_norm": 0.2860835790634155,
	"learning_rate": 6.213166430627257e-05,
	"loss": 0.7816,
	"step": 20170
	},
	{
	"epoch": 0.2257005608960916,
	"grad_norm": 0.28273066878318787,
	"learning_rate": 6.190323906985244e-05,
	"loss": 0.7812,
	"step": 20180
	},
	{
	"epoch": 0.2258124045833543,
	"grad_norm": 0.29203614592552185,
	"learning_rate": 6.167481383343232e-05,
	"loss": 0.7699,
	"step": 20190
	},
	{
	"epoch": 0.225924248270617,
	"grad_norm": 0.2811570167541504,
	"learning_rate": 6.14463885970122e-05,
	"loss": 0.7833,
	"step": 20200
	},
	{
	"epoch": 0.22603609195787966,
	"grad_norm": 0.30047500133514404,
	"learning_rate": 6.121796336059208e-05,
	"loss": 0.7594,
	"step": 20210
	},
	{
	"epoch": 0.22614793564514235,
	"grad_norm": 0.2838903069496155,
	"learning_rate": 6.098953812417196e-05,
	"loss": 0.7678,
	"step": 20220
	},
	{
	"epoch": 0.22625977933240504,
	"grad_norm": 0.2840651273727417,
	"learning_rate": 6.0761112887751836e-05,
	"loss": 0.7546,
	"step": 20230
	},
	{
	"epoch": 0.2263716230196677,
	"grad_norm": 0.31575652956962585,
	"learning_rate": 6.053268765133172e-05,
	"loss": 0.7533,
	"step": 20240
	},
	{
	"epoch": 0.2264834667069304,
	"grad_norm": 0.2692145109176636,
	"learning_rate": 6.03042624149116e-05,
	"loss": 0.744,
	"step": 20250
	},
	{
	"epoch": 0.2265953103941931,
	"grad_norm": 0.3094116449356079,
	"learning_rate": 6.007583717849148e-05,
	"loss": 0.7708,
	"step": 20260
	},
	{
	"epoch": 0.22670715408145575,
	"grad_norm": 0.3123047947883606,
	"learning_rate": 5.984741194207136e-05,
	"loss": 0.7431,
	"step": 20270
	},
	{
	"epoch": 0.22681899776871844,
	"grad_norm": 0.2733646631240845,
	"learning_rate": 5.961898670565124e-05,
	"loss": 0.762,
	"step": 20280
	},
	{
	"epoch": 0.2269308414559811,
	"grad_norm": 0.23944342136383057,
	"learning_rate": 5.939056146923112e-05,
	"loss": 0.7488,
	"step": 20290
	},
	{
	"epoch": 0.2270426851432438,
	"grad_norm": 0.2459600865840912,
	"learning_rate": 5.9162136232811e-05,
	"loss": 0.7443,
	"step": 20300
	},
	{
	"epoch": 0.2271545288305065,
	"grad_norm": 0.2502724826335907,
	"learning_rate": 5.893371099639088e-05,
	"loss": 0.7417,
	"step": 20310
	},
	{
	"epoch": 0.22726637251776916,
	"grad_norm": 0.23721522092819214,
	"learning_rate": 5.870528575997076e-05,
	"loss": 0.7393,
	"step": 20320
	},
	{
	"epoch": 0.22737821620503185,
	"grad_norm": 0.2526785135269165,
	"learning_rate": 5.847686052355064e-05,
	"loss": 0.7346,
	"step": 20330
	},
	{
	"epoch": 0.22749005989229454,
	"grad_norm": 0.2573647201061249,
	"learning_rate": 5.824843528713052e-05,
	"loss": 0.7192,
	"step": 20340
	},
	{
	"epoch": 0.2276019035795572,
	"grad_norm": 0.2632768750190735,
	"learning_rate": 5.80200100507104e-05,
	"loss": 0.7234,
	"step": 20350
	},
	{
	"epoch": 0.2277137472668199,
	"grad_norm": 0.2589345872402191,
	"learning_rate": 5.779158481429028e-05,
	"loss": 0.7165,
	"step": 20360
	},
	{
	"epoch": 0.22782559095408259,
	"grad_norm": 0.2480648308992386,
	"learning_rate": 5.756315957787016e-05,
	"loss": 0.7099,
	"step": 20370
	},
	{
	"epoch": 0.22793743464134525,
	"grad_norm": 0.24949654936790466,
	"learning_rate": 5.733473434145004e-05,
	"loss": 0.7187,
	"step": 20380
	},
	{
	"epoch": 0.22804927832860794,
	"grad_norm": 0.25637611746788025,
	"learning_rate": 5.710630910502993e-05,
	"loss": 0.7098,
	"step": 20390
	},
	{
	"epoch": 0.22816112201587063,
	"grad_norm": 0.28809231519699097,
	"learning_rate": 5.687788386860981e-05,
	"loss": 0.7315,
	"step": 20400
	},
	{
	"epoch": 0.2282729657031333,
	"grad_norm": 0.25564566254615784,
	"learning_rate": 5.6649458632189686e-05,
	"loss": 0.7319,
	"step": 20410
	},
	{
	"epoch": 0.228384809390396,
	"grad_norm": 0.2693794369697571,
	"learning_rate": 5.642103339576957e-05,
	"loss": 0.7173,
	"step": 20420
	},
	{
	"epoch": 0.22849665307765865,
	"grad_norm": 0.24680989980697632,
	"learning_rate": 5.619260815934945e-05,
	"loss": 0.708,
	"step": 20430
	},
	{
	"epoch": 0.22860849676492134,
	"grad_norm": 0.2790026068687439,
	"learning_rate": 5.596418292292933e-05,
	"loss": 0.7023,
	"step": 20440
	},
	{
	"epoch": 0.22872034045218403,
	"grad_norm": 0.2656199038028717,
	"learning_rate": 5.573575768650921e-05,
	"loss": 0.7113,
	"step": 20450
	},
	{
	"epoch": 0.2288321841394467,
	"grad_norm": 0.30832743644714355,
	"learning_rate": 5.550733245008909e-05,
	"loss": 0.7161,
	"step": 20460
	},
	{
	"epoch": 0.2289440278267094,
	"grad_norm": 0.27060794830322266,
	"learning_rate": 5.527890721366897e-05,
	"loss": 0.7208,
	"step": 20470
	},
	{
	"epoch": 0.22905587151397208,
	"grad_norm": 0.26036307215690613,
	"learning_rate": 5.505048197724885e-05,
	"loss": 0.7004,
	"step": 20480
	},
	{
	"epoch": 0.22916771520123475,
	"grad_norm": 0.2758086919784546,
	"learning_rate": 5.482205674082873e-05,
	"loss": 0.7179,
	"step": 20490
	},
	{
	"epoch": 0.22927955888849744,
	"grad_norm": 0.2821243107318878,
	"learning_rate": 5.459363150440861e-05,
	"loss": 0.7255,
	"step": 20500
	},
	{
	"epoch": 0.22939140257576013,
	"grad_norm": 0.2782810628414154,
	"learning_rate": 5.436520626798849e-05,
	"loss": 0.7149,
	"step": 20510
	},
	{
	"epoch": 0.2295032462630228,
	"grad_norm": 0.2755940854549408,
	"learning_rate": 5.413678103156837e-05,
	"loss": 0.7117,
	"step": 20520
	},
	{
	"epoch": 0.22961508995028548,
	"grad_norm": 0.29176777601242065,
	"learning_rate": 5.390835579514825e-05,
	"loss": 0.7188,
	"step": 20530
	},
	{
	"epoch": 0.22972693363754818,
	"grad_norm": 0.27739444375038147,
	"learning_rate": 5.367993055872813e-05,
	"loss": 0.7196,
	"step": 20540
	},
	{
	"epoch": 0.22983877732481084,
	"grad_norm": 0.27187204360961914,
	"learning_rate": 5.345150532230801e-05,
	"loss": 0.722,
	"step": 20550
	},
	{
	"epoch": 0.22995062101207353,
	"grad_norm": 0.2951996624469757,
	"learning_rate": 5.322308008588789e-05,
	"loss": 0.7325,
	"step": 20560
	},
	{
	"epoch": 0.2300624646993362,
	"grad_norm": 0.2677932381629944,
	"learning_rate": 5.299465484946777e-05,
	"loss": 0.7263,
	"step": 20570
	},
	{
	"epoch": 0.23017430838659889,
	"grad_norm": 0.29231807589530945,
	"learning_rate": 5.2766229613047654e-05,
	"loss": 0.7284,
	"step": 20580
	},
	{
	"epoch": 0.23028615207386158,
	"grad_norm": 0.30211326479911804,
	"learning_rate": 5.253780437662753e-05,
	"loss": 0.7222,
	"step": 20590
	},
	{
	"epoch": 0.23039799576112424,
	"grad_norm": 0.29821720719337463,
	"learning_rate": 5.230937914020741e-05,
	"loss": 0.7316,
	"step": 20600
	},
	{
	"epoch": 0.23050983944838693,
	"grad_norm": 0.3019379675388336,
	"learning_rate": 5.208095390378729e-05,
	"loss": 0.7328,
	"step": 20610
	},
	{
	"epoch": 0.23062168313564962,
	"grad_norm": 0.2569403052330017,
	"learning_rate": 5.185252866736717e-05,
	"loss": 0.7215,
	"step": 20620
	},
	{
	"epoch": 0.2307335268229123,
	"grad_norm": 0.3151782155036926,
	"learning_rate": 5.1624103430947054e-05,
	"loss": 0.7326,
	"step": 20630
	},
	{
	"epoch": 0.23084537051017498,
	"grad_norm": 0.2748591899871826,
	"learning_rate": 5.139567819452693e-05,
	"loss": 0.7359,
	"step": 20640
	},
	{
	"epoch": 0.23095721419743767,
	"grad_norm": 0.27494433522224426,
	"learning_rate": 5.116725295810681e-05,
	"loss": 0.7351,
	"step": 20650
	},
	{
	"epoch": 0.23106905788470034,
	"grad_norm": 0.29428452253341675,
	"learning_rate": 5.093882772168669e-05,
	"loss": 0.7361,
	"step": 20660
	},
	{
	"epoch": 0.23118090157196303,
	"grad_norm": 0.2924981117248535,
	"learning_rate": 5.071040248526657e-05,
	"loss": 0.7539,
	"step": 20670
	},
	{
	"epoch": 0.23129274525922572,
	"grad_norm": 0.28647035360336304,
	"learning_rate": 5.0481977248846455e-05,
	"loss": 0.7576,
	"step": 20680
	},
	{
	"epoch": 0.23140458894648838,
	"grad_norm": 0.3107542097568512,
	"learning_rate": 5.025355201242633e-05,
	"loss": 0.7615,
	"step": 20690
	},
	{
	"epoch": 0.23151643263375107,
	"grad_norm": 0.27186501026153564,
	"learning_rate": 5.0025126776006213e-05,
	"loss": 0.7641,
	"step": 20700
	},
	{
	"epoch": 0.23162827632101374,
	"grad_norm": 0.2838156819343567,
	"learning_rate": 4.9796701539586096e-05,
	"loss": 0.7695,
	"step": 20710
	},
	{
	"epoch": 0.23174012000827643,
	"grad_norm": 0.3377101421356201,
	"learning_rate": 4.956827630316597e-05,
	"loss": 0.7696,
	"step": 20720
	},
	{
	"epoch": 0.23185196369553912,
	"grad_norm": 0.3177778422832489,
	"learning_rate": 4.9339851066745855e-05,
	"loss": 0.7677,
	"step": 20730
	},
	{
	"epoch": 0.23196380738280178,
	"grad_norm": 0.3157583773136139,
	"learning_rate": 4.911142583032573e-05,
	"loss": 0.7653,
	"step": 20740
	},
	{
	"epoch": 0.23207565107006448,
	"grad_norm": 0.3123907148838043,
	"learning_rate": 4.8883000593905614e-05,
	"loss": 0.7677,
	"step": 20750
	},
	{
	"epoch": 0.23218749475732717,
	"grad_norm": 0.30460426211357117,
	"learning_rate": 4.86545753574855e-05,
	"loss": 0.7743,
	"step": 20760
	},
	{
	"epoch": 0.23229933844458983,
	"grad_norm": 0.27507251501083374,
	"learning_rate": 4.842615012106537e-05,
	"loss": 0.767,
	"step": 20770
	},
	{
	"epoch": 0.23241118213185252,
	"grad_norm": 0.3233499228954315,
	"learning_rate": 4.8197724884645256e-05,
	"loss": 0.7717,
	"step": 20780
	},
	{
	"epoch": 0.23252302581911521,
	"grad_norm": 0.30144819617271423,
	"learning_rate": 4.796929964822513e-05,
	"loss": 0.7609,
	"step": 20790
	},
	{
	"epoch": 0.23263486950637788,
	"grad_norm": 0.29588454961776733,
	"learning_rate": 4.7740874411805014e-05,
	"loss": 0.7682,
	"step": 20800
	},
	{
	"epoch": 0.23274671319364057,
	"grad_norm": 0.3111203610897064,
	"learning_rate": 4.75124491753849e-05,
	"loss": 0.7652,
	"step": 20810
	},
	{
	"epoch": 0.23285855688090326,
	"grad_norm": 0.28917646408081055,
	"learning_rate": 4.728402393896477e-05,
	"loss": 0.7584,
	"step": 20820
	},
	{
	"epoch": 0.23297040056816593,
	"grad_norm": 0.3156343698501587,
	"learning_rate": 4.7055598702544656e-05,
	"loss": 0.7643,
	"step": 20830
	},
	{
	"epoch": 0.23308224425542862,
	"grad_norm": 0.2909680902957916,
	"learning_rate": 4.682717346612454e-05,
	"loss": 0.7613,
	"step": 20840
	},
	{
	"epoch": 0.2331940879426913,
	"grad_norm": 0.3006870746612549,
	"learning_rate": 4.659874822970442e-05,
	"loss": 0.7603,
	"step": 20850
	},
	{
	"epoch": 0.23330593162995397,
	"grad_norm": 0.2844945192337036,
	"learning_rate": 4.6370322993284304e-05,
	"loss": 0.7589,
	"step": 20860
	},
	{
	"epoch": 0.23341777531721666,
	"grad_norm": 0.26857924461364746,
	"learning_rate": 4.614189775686418e-05,
	"loss": 0.7401,
	"step": 20870
	},
	{
	"epoch": 0.23352961900447933,
	"grad_norm": 0.31332314014434814,
	"learning_rate": 4.591347252044406e-05,
	"loss": 0.7468,
	"step": 20880
	},
	{
	"epoch": 0.23364146269174202,
	"grad_norm": 0.28083765506744385,
	"learning_rate": 4.568504728402394e-05,
	"loss": 0.7451,
	"step": 20890
	},
	{
	"epoch": 0.2337533063790047,
	"grad_norm": 0.29185009002685547,
	"learning_rate": 4.545662204760382e-05,
	"loss": 0.7478,
	"step": 20900
	},
	{
	"epoch": 0.23386515006626737,
	"grad_norm": 0.30532801151275635,
	"learning_rate": 4.5228196811183705e-05,
	"loss": 0.7404,
	"step": 20910
	},
	{
	"epoch": 0.23397699375353007,
	"grad_norm": 0.2724134922027588,
	"learning_rate": 4.499977157476358e-05,
	"loss": 0.732,
	"step": 20920
	},
	{
	"epoch": 0.23408883744079276,
	"grad_norm": 0.29753822088241577,
	"learning_rate": 4.4771346338343464e-05,
	"loss": 0.7236,
	"step": 20930
	},
	{
	"epoch": 0.23420068112805542,
	"grad_norm": 0.31980055570602417,
	"learning_rate": 4.454292110192334e-05,
	"loss": 0.7407,
	"step": 20940
	},
	{
	"epoch": 0.2343125248153181,
	"grad_norm": 0.29578351974487305,
	"learning_rate": 4.431449586550322e-05,
	"loss": 0.7166,
	"step": 20950
	},
	{
	"epoch": 0.2344243685025808,
	"grad_norm": 0.25261184573173523,
	"learning_rate": 4.4086070629083105e-05,
	"loss": 0.7195,
	"step": 20960
	},
	{
	"epoch": 0.23453621218984347,
	"grad_norm": 0.2669534385204315,
	"learning_rate": 4.385764539266298e-05,
	"loss": 0.7224,
	"step": 20970
	},
	{
	"epoch": 0.23464805587710616,
	"grad_norm": 0.2817215919494629,
	"learning_rate": 4.3629220156242864e-05,
	"loss": 0.7405,
	"step": 20980
	},
	{
	"epoch": 0.23475989956436885,
	"grad_norm": 0.27033400535583496,
	"learning_rate": 4.340079491982275e-05,
	"loss": 0.7292,
	"step": 20990
	},
	{
	"epoch": 0.23487174325163152,
	"grad_norm": 0.3083013594150543,
	"learning_rate": 4.317236968340262e-05,
	"loss": 0.7271,
	"step": 21000
	},
	{
	"epoch": 0.2349835869388942,
	"grad_norm": 0.27074989676475525,
	"learning_rate": 4.2943944446982506e-05,
	"loss": 0.7346,
	"step": 21010
	},
	{
	"epoch": 0.23509543062615687,
	"grad_norm": 0.31609755754470825,
	"learning_rate": 4.271551921056238e-05,
	"loss": 0.7285,
	"step": 21020
	},
	{
	"epoch": 0.23520727431341956,
	"grad_norm": 0.27084672451019287,
	"learning_rate": 4.2487093974142265e-05,
	"loss": 0.7411,
	"step": 21030
	},
	{
	"epoch": 0.23531911800068225,
	"grad_norm": 0.26669842004776,
	"learning_rate": 4.225866873772215e-05,
	"loss": 0.7423,
	"step": 21040
	},
	{
	"epoch": 0.23543096168794492,
	"grad_norm": 0.2873358428478241,
	"learning_rate": 4.2030243501302024e-05,
	"loss": 0.7345,
	"step": 21050
	},
	{
	"epoch": 0.2355428053752076,
	"grad_norm": 0.2831687033176422,
	"learning_rate": 4.1801818264881906e-05,
	"loss": 0.7537,
	"step": 21060
	},
	{
	"epoch": 0.2356546490624703,
	"grad_norm": 0.2781788110733032,
	"learning_rate": 4.157339302846178e-05,
	"loss": 0.7494,
	"step": 21070
	},
	{
	"epoch": 0.23576649274973296,
	"grad_norm": 0.27109071612358093,
	"learning_rate": 4.1344967792041665e-05,
	"loss": 0.7493,
	"step": 21080
	},
	{
	"epoch": 0.23587833643699566,
	"grad_norm": 0.25398164987564087,
	"learning_rate": 4.111654255562155e-05,
	"loss": 0.7369,
	"step": 21090
	},
	{
	"epoch": 0.23599018012425835,
	"grad_norm": 0.3150353729724884,
	"learning_rate": 4.0888117319201424e-05,
	"loss": 0.754,
	"step": 21100
	},
	{
	"epoch": 0.236102023811521,
	"grad_norm": 0.27384257316589355,
	"learning_rate": 4.065969208278131e-05,
	"loss": 0.7439,
	"step": 21110
	},
	{
	"epoch": 0.2362138674987837,
	"grad_norm": 0.2770559787750244,
	"learning_rate": 4.043126684636118e-05,
	"loss": 0.7391,
	"step": 21120
	},
	{
	"epoch": 0.2363257111860464,
	"grad_norm": 0.29367002844810486,
	"learning_rate": 4.0202841609941066e-05,
	"loss": 0.746,
	"step": 21130
	},
	{
	"epoch": 0.23643755487330906,
	"grad_norm": 0.2554051876068115,
	"learning_rate": 3.997441637352095e-05,
	"loss": 0.7386,
	"step": 21140
	},
	{
	"epoch": 0.23654939856057175,
	"grad_norm": 0.2943428158760071,
	"learning_rate": 3.9745991137100825e-05,
	"loss": 0.7437,
	"step": 21150
	},
	{
	"epoch": 0.2366612422478344,
	"grad_norm": 0.24465301632881165,
	"learning_rate": 3.951756590068071e-05,
	"loss": 0.7331,
	"step": 21160
	},
	{
	"epoch": 0.2367730859350971,
	"grad_norm": 0.2545934021472931,
	"learning_rate": 3.9289140664260584e-05,
	"loss": 0.7361,
	"step": 21170
	},
	{
	"epoch": 0.2368849296223598,
	"grad_norm": 0.2792121469974518,
	"learning_rate": 3.9060715427840466e-05,
	"loss": 0.7238,
	"step": 21180
	},
	{
	"epoch": 0.23699677330962246,
	"grad_norm": 0.27943745255470276,
	"learning_rate": 3.883229019142035e-05,
	"loss": 0.726,
	"step": 21190
	},
	{
	"epoch": 0.23710861699688515,
	"grad_norm": 0.2514471411705017,
	"learning_rate": 3.8603864955000225e-05,
	"loss": 0.7214,
	"step": 21200
	},
	{
	"epoch": 0.23722046068414784,
	"grad_norm": 0.2698551416397095,
	"learning_rate": 3.837543971858011e-05,
	"loss": 0.7318,
	"step": 21210
	},
	{
	"epoch": 0.2373323043714105,
	"grad_norm": 0.29603877663612366,
	"learning_rate": 3.814701448215999e-05,
	"loss": 0.742,
	"step": 21220
	},
	{
	"epoch": 0.2374441480586732,
	"grad_norm": 0.26655495166778564,
	"learning_rate": 3.791858924573987e-05,
	"loss": 0.7331,
	"step": 21230
	},
	{
	"epoch": 0.2375559917459359,
	"grad_norm": 0.29367104172706604,
	"learning_rate": 3.769016400931975e-05,
	"loss": 0.7233,
	"step": 21240
	},
	{
	"epoch": 0.23766783543319855,
	"grad_norm": 0.2680334746837616,
	"learning_rate": 3.7461738772899626e-05,
	"loss": 0.732,
	"step": 21250
	},
	{
	"epoch": 0.23777967912046125,
	"grad_norm": 0.2748298943042755,
	"learning_rate": 3.723331353647951e-05,
	"loss": 0.7453,
	"step": 21260
	},
	{
	"epoch": 0.23789152280772394,
	"grad_norm": 0.28276947140693665,
	"learning_rate": 3.700488830005939e-05,
	"loss": 0.7524,
	"step": 21270
	},
	{
	"epoch": 0.2380033664949866,
	"grad_norm": 0.2645372450351715,
	"learning_rate": 3.677646306363927e-05,
	"loss": 0.7542,
	"step": 21280
	},
	{
	"epoch": 0.2381152101822493,
	"grad_norm": 0.2866505980491638,
	"learning_rate": 3.654803782721916e-05,
	"loss": 0.7447,
	"step": 21290
	},
	{
	"epoch": 0.23822705386951196,
	"grad_norm": 0.29611489176750183,
	"learning_rate": 3.631961259079903e-05,
	"loss": 0.7662,
	"step": 21300
	},
	{
	"epoch": 0.23833889755677465,
	"grad_norm": 0.29184749722480774,
	"learning_rate": 3.6091187354378916e-05,
	"loss": 0.7558,
	"step": 21310
	},
	{
	"epoch": 0.23845074124403734,
	"grad_norm": 0.27304571866989136,
	"learning_rate": 3.58627621179588e-05,
	"loss": 0.7578,
	"step": 21320
	},
	{
	"epoch": 0.2385625849313,
	"grad_norm": 0.2700962424278259,
	"learning_rate": 3.5634336881538675e-05,
	"loss": 0.7411,
	"step": 21330
	},
	{
	"epoch": 0.2386744286185627,
	"grad_norm": 0.2845793664455414,
	"learning_rate": 3.540591164511856e-05,
	"loss": 0.7392,
	"step": 21340
	},
	{
	"epoch": 0.2387862723058254,
	"grad_norm": 0.32136180996894836,
	"learning_rate": 3.5177486408698433e-05,
	"loss": 0.7431,
	"step": 21350
	},
	{
	"epoch": 0.23889811599308805,
	"grad_norm": 0.26846998929977417,
	"learning_rate": 3.4949061172278316e-05,
	"loss": 0.737,
	"step": 21360
	},
	{
	"epoch": 0.23900995968035074,
	"grad_norm": 0.26363828778266907,
	"learning_rate": 3.47206359358582e-05,
	"loss": 0.7416,
	"step": 21370
	},
	{
	"epoch": 0.23912180336761343,
	"grad_norm": 0.2900106906890869,
	"learning_rate": 3.4492210699438075e-05,
	"loss": 0.7373,
	"step": 21380
	},
	{
	"epoch": 0.2392336470548761,
	"grad_norm": 0.2762589156627655,
	"learning_rate": 3.426378546301796e-05,
	"loss": 0.7379,
	"step": 21390
	},
	{
	"epoch": 0.2393454907421388,
	"grad_norm": 0.2697104513645172,
	"learning_rate": 3.4035360226597834e-05,
	"loss": 0.7448,
	"step": 21400
	},
	{
	"epoch": 0.23945733442940148,
	"grad_norm": 0.2901761829853058,
	"learning_rate": 3.380693499017772e-05,
	"loss": 0.7394,
	"step": 21410
	},
	{
	"epoch": 0.23956917811666414,
	"grad_norm": 0.245674267411232,
	"learning_rate": 3.35785097537576e-05,
	"loss": 0.7387,
	"step": 21420
	},
	{
	"epoch": 0.23968102180392684,
	"grad_norm": 0.2713403105735779,
	"learning_rate": 3.3350084517337476e-05,
	"loss": 0.7604,
	"step": 21430
	},
	{
	"epoch": 0.2397928654911895,
	"grad_norm": 0.27368244528770447,
	"learning_rate": 3.312165928091736e-05,
	"loss": 0.7489,
	"step": 21440
	},
	{
	"epoch": 0.2399047091784522,
	"grad_norm": 0.3079991340637207,
	"learning_rate": 3.2893234044497234e-05,
	"loss": 0.7653,
	"step": 21450
	},
	{
	"epoch": 0.24001655286571488,
	"grad_norm": 0.2920658588409424,
	"learning_rate": 3.266480880807712e-05,
	"loss": 0.7588,
	"step": 21460
	},
	{
	"epoch": 0.24012839655297755,
	"grad_norm": 0.27589842677116394,
	"learning_rate": 3.2436383571657e-05,
	"loss": 0.7607,
	"step": 21470
	},
	{
	"epoch": 0.24024024024024024,
	"grad_norm": 0.2592112720012665,
	"learning_rate": 3.2207958335236876e-05,
	"loss": 0.745,
	"step": 21480
	},
	{
	"epoch": 0.24035208392750293,
	"grad_norm": 0.27625855803489685,
	"learning_rate": 3.197953309881676e-05,
	"loss": 0.7488,
	"step": 21490
	},
	{
	"epoch": 0.2404639276147656,
	"grad_norm": 0.2769569456577301,
	"learning_rate": 3.175110786239664e-05,
	"loss": 0.7326,
	"step": 21500
	},
	{
	"epoch": 0.24057577130202829,
	"grad_norm": 0.2705914080142975,
	"learning_rate": 3.152268262597652e-05,
	"loss": 0.7512,
	"step": 21510
	},
	{
	"epoch": 0.24068761498929098,
	"grad_norm": 0.2655676603317261,
	"learning_rate": 3.12942573895564e-05,
	"loss": 0.7366,
	"step": 21520
	},
	{
	"epoch": 0.24079945867655364,
	"grad_norm": 0.2606657147407532,
	"learning_rate": 3.106583215313628e-05,
	"loss": 0.7436,
	"step": 21530
	},
	{
	"epoch": 0.24091130236381633,
	"grad_norm": 0.27843552827835083,
	"learning_rate": 3.083740691671616e-05,
	"loss": 0.7342,
	"step": 21540
	},
	{
	"epoch": 0.24102314605107902,
	"grad_norm": 0.27866050601005554,
	"learning_rate": 3.060898168029604e-05,
	"loss": 0.7305,
	"step": 21550
	},
	{
	"epoch": 0.2411349897383417,
	"grad_norm": 0.2803070545196533,
	"learning_rate": 3.0380556443875918e-05,
	"loss": 0.727,
	"step": 21560
	},
	{
	"epoch": 0.24124683342560438,
	"grad_norm": 0.27220121026039124,
	"learning_rate": 3.01521312074558e-05,
	"loss": 0.7195,
	"step": 21570
	},
	{
	"epoch": 0.24135867711286707,
	"grad_norm": 0.26060426235198975,
	"learning_rate": 2.992370597103568e-05,
	"loss": 0.7013,
	"step": 21580
	},
	{
	"epoch": 0.24147052080012973,
	"grad_norm": 0.24253526329994202,
	"learning_rate": 2.969528073461556e-05,
	"loss": 0.6925,
	"step": 21590
	},
	{
	"epoch": 0.24158236448739243,
	"grad_norm": 0.26293566823005676,
	"learning_rate": 2.946685549819544e-05,
	"loss": 0.7028,
	"step": 21600
	},
	{
	"epoch": 0.2416942081746551,
	"grad_norm": 0.26427412033081055,
	"learning_rate": 2.923843026177532e-05,
	"loss": 0.6993,
	"step": 21610
	},
	{
	"epoch": 0.24180605186191778,
	"grad_norm": 0.26823869347572327,
	"learning_rate": 2.90100050253552e-05,
	"loss": 0.6999,
	"step": 21620
	},
	{
	"epoch": 0.24191789554918047,
	"grad_norm": 0.24203690886497498,
	"learning_rate": 2.878157978893508e-05,
	"loss": 0.6906,
	"step": 21630
	},
	{
	"epoch": 0.24202973923644314,
	"grad_norm": 0.2612786889076233,
	"learning_rate": 2.8553154552514964e-05,
	"loss": 0.6952,
	"step": 21640
	},
	{
	"epoch": 0.24214158292370583,
	"grad_norm": 0.27152737975120544,
	"learning_rate": 2.8324729316094843e-05,
	"loss": 0.692,
	"step": 21650
	},
	{
	"epoch": 0.24225342661096852,
	"grad_norm": 0.2592925727367401,
	"learning_rate": 2.8096304079674726e-05,
	"loss": 0.6995,
	"step": 21660
	},
	{
	"epoch": 0.24236527029823118,
	"grad_norm": 0.2419063299894333,
	"learning_rate": 2.7867878843254605e-05,
	"loss": 0.7067,
	"step": 21670
	},
	{
	"epoch": 0.24247711398549388,
	"grad_norm": 0.24731135368347168,
	"learning_rate": 2.7639453606834485e-05,
	"loss": 0.734,
	"step": 21680
	},
	{
	"epoch": 0.24258895767275657,
	"grad_norm": 0.25746017694473267,
	"learning_rate": 2.7411028370414364e-05,
	"loss": 0.7075,
	"step": 21690
	},
	{
	"epoch": 0.24270080136001923,
	"grad_norm": 0.2521972060203552,
	"learning_rate": 2.7182603133994244e-05,
	"loss": 0.7137,
	"step": 21700
	},
	{
	"epoch": 0.24281264504728192,
	"grad_norm": 0.26796218752861023,
	"learning_rate": 2.6954177897574127e-05,
	"loss": 0.7227,
	"step": 21710
	},
	{
	"epoch": 0.2429244887345446,
	"grad_norm": 0.30404597520828247,
	"learning_rate": 2.6725752661154006e-05,
	"loss": 0.7243,
	"step": 21720
	},
	{
	"epoch": 0.24303633242180728,
	"grad_norm": 0.29561156034469604,
	"learning_rate": 2.6497327424733885e-05,
	"loss": 0.7357,
	"step": 21730
	},
	{
	"epoch": 0.24314817610906997,
	"grad_norm": 0.28066596388816833,
	"learning_rate": 2.6268902188313765e-05,
	"loss": 0.7224,
	"step": 21740
	},
	{
	"epoch": 0.24326001979633263,
	"grad_norm": 0.29235216975212097,
	"learning_rate": 2.6040476951893644e-05,
	"loss": 0.7288,
	"step": 21750
	},
	{
	"epoch": 0.24337186348359532,
	"grad_norm": 0.26750460267066956,
	"learning_rate": 2.5812051715473527e-05,
	"loss": 0.7414,
	"step": 21760
	},
	{
	"epoch": 0.24348370717085802,
	"grad_norm": 0.2707473039627075,
	"learning_rate": 2.5583626479053406e-05,
	"loss": 0.7478,
	"step": 21770
	},
	{
	"epoch": 0.24359555085812068,
	"grad_norm": 0.26526397466659546,
	"learning_rate": 2.5355201242633286e-05,
	"loss": 0.7513,
	"step": 21780
	},
	{
	"epoch": 0.24370739454538337,
	"grad_norm": 0.2362915724515915,
	"learning_rate": 2.5126776006213165e-05,
	"loss": 0.7507,
	"step": 21790
	},
	{
	"epoch": 0.24381923823264606,
	"grad_norm": 0.2512950599193573,
	"learning_rate": 2.4898350769793048e-05,
	"loss": 0.7417,
	"step": 21800
	},
	{
	"epoch": 0.24393108191990873,
	"grad_norm": 0.2366458922624588,
	"learning_rate": 2.4669925533372928e-05,
	"loss": 0.7402,
	"step": 21810
	},
	{
	"epoch": 0.24404292560717142,
	"grad_norm": 0.24888353049755096,
	"learning_rate": 2.4441500296952807e-05,
	"loss": 0.7456,
	"step": 21820
	},
	{
	"epoch": 0.2441547692944341,
	"grad_norm": 0.24143491685390472,
	"learning_rate": 2.4213075060532686e-05,
	"loss": 0.7405,
	"step": 21830
	},
	{
	"epoch": 0.24426661298169677,
	"grad_norm": 0.2669823169708252,
	"learning_rate": 2.3984649824112566e-05,
	"loss": 0.7544,
	"step": 21840
	},
	{
	"epoch": 0.24437845666895947,
	"grad_norm": 0.24328452348709106,
	"learning_rate": 2.375622458769245e-05,
	"loss": 0.7347,
	"step": 21850
	},
	{
	"epoch": 0.24449030035622216,
	"grad_norm": 0.26204219460487366,
	"learning_rate": 2.3527799351272328e-05,
	"loss": 0.7397,
	"step": 21860
	},
	{
	"epoch": 0.24460214404348482,
	"grad_norm": 0.2631550431251526,
	"learning_rate": 2.329937411485221e-05,
	"loss": 0.7413,
	"step": 21870
	},
	{
	"epoch": 0.2447139877307475,
	"grad_norm": 0.2729988694190979,
	"learning_rate": 2.307094887843209e-05,
	"loss": 0.7336,
	"step": 21880
	},
	{
	"epoch": 0.24482583141801018,
	"grad_norm": 0.2702917754650116,
	"learning_rate": 2.284252364201197e-05,
	"loss": 0.7294,
	"step": 21890
	},
	{
	"epoch": 0.24493767510527287,
	"grad_norm": 0.22882196307182312,
	"learning_rate": 2.2614098405591852e-05,
	"loss": 0.7164,
	"step": 21900
	},
	{
	"epoch": 0.24504951879253556,
	"grad_norm": 0.2660382390022278,
	"learning_rate": 2.2385673169171732e-05,
	"loss": 0.7231,
	"step": 21910
	},
	{
	"epoch": 0.24516136247979822,
	"grad_norm": 0.2580036222934723,
	"learning_rate": 2.215724793275161e-05,
	"loss": 0.7243,
	"step": 21920
	},
	{
	"epoch": 0.24527320616706091,
	"grad_norm": 0.25490158796310425,
	"learning_rate": 2.192882269633149e-05,
	"loss": 0.7129,
	"step": 21930
	},
	{
	"epoch": 0.2453850498543236,
	"grad_norm": 0.2626509368419647,
	"learning_rate": 2.1700397459911374e-05,
	"loss": 0.7177,
	"step": 21940
	},
	{
	"epoch": 0.24549689354158627,
	"grad_norm": 0.2642146646976471,
	"learning_rate": 2.1471972223491253e-05,
	"loss": 0.7119,
	"step": 21950
	},
	{
	"epoch": 0.24560873722884896,
	"grad_norm": 0.2683079242706299,
	"learning_rate": 2.1243546987071132e-05,
	"loss": 0.7226,
	"step": 21960
	},
	{
	"epoch": 0.24572058091611165,
	"grad_norm": 0.26513761281967163,
	"learning_rate": 2.1015121750651012e-05,
	"loss": 0.7276,
	"step": 21970
	},
	{
	"epoch": 0.24583242460337432,
	"grad_norm": 0.25856319069862366,
	"learning_rate": 2.078669651423089e-05,
	"loss": 0.7168,
	"step": 21980
	},
	{
	"epoch": 0.245944268290637,
	"grad_norm": 0.29048866033554077,
	"learning_rate": 2.0558271277810774e-05,
	"loss": 0.7189,
	"step": 21990
	},
	{
	"epoch": 0.2460561119778997,
	"grad_norm": 0.2775687575340271,
	"learning_rate": 2.0329846041390653e-05,
	"loss": 0.7276,
	"step": 22000
	},
	{
	"epoch": 0.24616795566516236,
	"grad_norm": 0.30157843232154846,
	"learning_rate": 2.0101420804970533e-05,
	"loss": 0.7435,
	"step": 22010
	},
	{
	"epoch": 0.24627979935242506,
	"grad_norm": 0.2602044939994812,
	"learning_rate": 1.9872995568550412e-05,
	"loss": 0.7365,
	"step": 22020
	},
	{
	"epoch": 0.24639164303968772,
	"grad_norm": 0.29975757002830505,
	"learning_rate": 1.9644570332130292e-05,
	"loss": 0.7484,
	"step": 22030
	},
	{
	"epoch": 0.2465034867269504,
	"grad_norm": 0.26586923003196716,
	"learning_rate": 1.9416145095710175e-05,
	"loss": 0.7499,
	"step": 22040
	},
	{
	"epoch": 0.2466153304142131,
	"grad_norm": 0.25447341799736023,
	"learning_rate": 1.9187719859290054e-05,
	"loss": 0.7523,
	"step": 22050
	},
	{
	"epoch": 0.24672717410147577,
	"grad_norm": 0.2876524031162262,
	"learning_rate": 1.8959294622869933e-05,
	"loss": 0.7532,
	"step": 22060
	},
	{
	"epoch": 0.24683901778873846,
	"grad_norm": 0.29897189140319824,
	"learning_rate": 1.8730869386449813e-05,
	"loss": 0.7339,
	"step": 22070
	},
	{
	"epoch": 0.24695086147600115,
	"grad_norm": 0.24629873037338257,
	"learning_rate": 1.8502444150029696e-05,
	"loss": 0.7253,
	"step": 22080
	},
	{
	"epoch": 0.2470627051632638,
	"grad_norm": 0.2844459116458893,
	"learning_rate": 1.827401891360958e-05,
	"loss": 0.7247,
	"step": 22090
	},
	{
	"epoch": 0.2471745488505265,
	"grad_norm": 0.2798469662666321,
	"learning_rate": 1.8045593677189458e-05,
	"loss": 0.7334,
	"step": 22100
	},
	{
	"epoch": 0.2472863925377892,
	"grad_norm": 0.26282501220703125,
	"learning_rate": 1.7817168440769337e-05,
	"loss": 0.735,
	"step": 22110
	},
	{
	"epoch": 0.24739823622505186,
	"grad_norm": 0.25192755460739136,
	"learning_rate": 1.7588743204349217e-05,
	"loss": 0.733,
	"step": 22120
	},
	{
	"epoch": 0.24751007991231455,
	"grad_norm": 0.2808292508125305,
	"learning_rate": 1.73603179679291e-05,
	"loss": 0.7403,
	"step": 22130
	},
	{
	"epoch": 0.24762192359957724,
	"grad_norm": 0.28252866864204407,
	"learning_rate": 1.713189273150898e-05,
	"loss": 0.7296,
	"step": 22140
	},
	{
	"epoch": 0.2477337672868399,
	"grad_norm": 0.2730456590652466,
	"learning_rate": 1.690346749508886e-05,
	"loss": 0.7321,
	"step": 22150
	},
	{
	"epoch": 0.2478456109741026,
	"grad_norm": 0.2562378942966461,
	"learning_rate": 1.6675042258668738e-05,
	"loss": 0.7195,
	"step": 22160
	},
	{
	"epoch": 0.2479574546613653,
	"grad_norm": 0.2450082004070282,
	"learning_rate": 1.6446617022248617e-05,
	"loss": 0.7277,
	"step": 22170
	},
	{
	"epoch": 0.24806929834862795,
	"grad_norm": 0.25871893763542175,
	"learning_rate": 1.62181917858285e-05,
	"loss": 0.7143,
	"step": 22180
	},
	{
	"epoch": 0.24818114203589065,
	"grad_norm": 0.2587449848651886,
	"learning_rate": 1.598976654940838e-05,
	"loss": 0.708,
	"step": 22190
	},
	{
	"epoch": 0.2482929857231533,
	"grad_norm": 0.25496092438697815,
	"learning_rate": 1.576134131298826e-05,
	"loss": 0.7123,
	"step": 22200
	},
	{
	"epoch": 0.248404829410416,
	"grad_norm": 0.2394058257341385,
	"learning_rate": 1.553291607656814e-05,
	"loss": 0.714,
	"step": 22210
	},
	{
	"epoch": 0.2485166730976787,
	"grad_norm": 0.2560165524482727,
	"learning_rate": 1.530449084014802e-05,
	"loss": 0.7162,
	"step": 22220
	},
	{
	"epoch": 0.24862851678494136,
	"grad_norm": 0.24602052569389343,
	"learning_rate": 1.50760656037279e-05,
	"loss": 0.7408,
	"step": 22230
	},
	{
	"epoch": 0.24874036047220405,
	"grad_norm": 0.27800559997558594,
	"learning_rate": 1.484764036730778e-05,
	"loss": 0.7247,
	"step": 22240
	},
	{
	"epoch": 0.24885220415946674,
	"grad_norm": 0.24703536927700043,
	"learning_rate": 1.461921513088766e-05,
	"loss": 0.7352,
	"step": 22250
	},
	{
	"epoch": 0.2489640478467294,
	"grad_norm": 0.27936097979545593,
	"learning_rate": 1.439078989446754e-05,
	"loss": 0.7421,
	"step": 22260
	},
	{
	"epoch": 0.2490758915339921,
	"grad_norm": 0.265828400850296,
	"learning_rate": 1.4162364658047422e-05,
	"loss": 0.7234,
	"step": 22270
	},
	{
	"epoch": 0.24918773522125479,
	"grad_norm": 0.26921194791793823,
	"learning_rate": 1.3933939421627303e-05,
	"loss": 0.7414,
	"step": 22280
	},
	{
	"epoch": 0.24929957890851745,
	"grad_norm": 0.2829255163669586,
	"learning_rate": 1.3705514185207182e-05,
	"loss": 0.7378,
	"step": 22290
	},
	{
	"epoch": 0.24941142259578014,
	"grad_norm": 0.25702667236328125,
	"learning_rate": 1.3477088948787063e-05,
	"loss": 0.7475,
	"step": 22300
	},
	{
	"epoch": 0.24952326628304283,
	"grad_norm": 0.28925350308418274,
	"learning_rate": 1.3248663712366943e-05,
	"loss": 0.738,
	"step": 22310
	},
	{
	"epoch": 0.2496351099703055,
	"grad_norm": 0.2792825698852539,
	"learning_rate": 1.3020238475946822e-05,
	"loss": 0.7315,
	"step": 22320
	},
	{
	"epoch": 0.2497469536575682,
	"grad_norm": 0.246215358376503,
	"learning_rate": 1.2791813239526703e-05,
	"loss": 0.7391,
	"step": 22330
	},
	{
	"epoch": 0.24985879734483085,
	"grad_norm": 0.26492443680763245,
	"learning_rate": 1.2563388003106583e-05,
	"loss": 0.7478,
	"step": 22340
	},
	{
	"epoch": 0.24997064103209354,
	"grad_norm": 0.27402445673942566,
	"learning_rate": 1.2334962766686464e-05,
	"loss": 0.7528,
	"step": 22350
	},
	{
	"epoch": 0.25008248471935624,
	"grad_norm": 0.2757234573364258,
	"learning_rate": 1.2106537530266343e-05,
	"loss": 0.7306,
	"step": 22360
	},
	{
	"epoch": 0.2501943284066189,
	"grad_norm": 0.2723679840564728,
	"learning_rate": 1.1878112293846224e-05,
	"loss": 0.7472,
	"step": 22370
	},
	{
	"epoch": 0.2503061720938816,
	"grad_norm": 0.22666431963443756,
	"learning_rate": 1.1649687057426105e-05,
	"loss": 0.7443,
	"step": 22380
	},
	{
	"epoch": 0.25041801578114425,
	"grad_norm": 0.24548636376857758,
	"learning_rate": 1.1421261821005985e-05,
	"loss": 0.7525,
	"step": 22390
	},
	{
	"epoch": 0.25052985946840695,
	"grad_norm": 0.26941460371017456,
	"learning_rate": 1.1192836584585866e-05,
	"loss": 0.7482,
	"step": 22400
	},
	{
	"epoch": 0.25064170315566964,
	"grad_norm": 0.2741219997406006,
	"learning_rate": 1.0964411348165745e-05,
	"loss": 0.7404,
	"step": 22410
	},
	{
	"epoch": 0.25075354684293233,
	"grad_norm": 0.2622029483318329,
	"learning_rate": 1.0735986111745626e-05,
	"loss": 0.7463,
	"step": 22420
	},
	{
	"epoch": 0.250865390530195,
	"grad_norm": 0.25730788707733154,
	"learning_rate": 1.0507560875325506e-05,
	"loss": 0.7596,
	"step": 22430
	},
	{
	"epoch": 0.25097723421745766,
	"grad_norm": 0.24054691195487976,
	"learning_rate": 1.0279135638905387e-05,
	"loss": 0.7397,
	"step": 22440
	},
	{
	"epoch": 0.25108907790472035,
	"grad_norm": 0.23557224869728088,
	"learning_rate": 1.0050710402485266e-05,
	"loss": 0.7426,
	"step": 22450
	},
	{
	"epoch": 0.25120092159198304,
	"grad_norm": 0.25929298996925354,
	"learning_rate": 9.822285166065146e-06,
	"loss": 0.7402,
	"step": 22460
	},
	{
	"epoch": 0.25131276527924573,
	"grad_norm": 0.26300865411758423,
	"learning_rate": 9.593859929645027e-06,
	"loss": 0.755,
	"step": 22470
	},
	{
	"epoch": 0.2514246089665084,
	"grad_norm": 0.25753623247146606,
	"learning_rate": 9.365434693224906e-06,
	"loss": 0.7536,
	"step": 22480
	},
	{
	"epoch": 0.2515364526537711,
	"grad_norm": 0.2438272088766098,
	"learning_rate": 9.13700945680479e-06,
	"loss": 0.7528,
	"step": 22490
	},
	{
	"epoch": 0.25164829634103375,
	"grad_norm": 0.2870919406414032,
	"learning_rate": 8.908584220384669e-06,
	"loss": 0.772,
	"step": 22500
	},
	{
	"epoch": 0.25176014002829644,
	"grad_norm": 0.2551197111606598,
	"learning_rate": 8.68015898396455e-06,
	"loss": 0.7571,
	"step": 22510
	},
	{
	"epoch": 0.25187198371555913,
	"grad_norm": 0.24423009157180786,
	"learning_rate": 8.45173374754443e-06,
	"loss": 0.7548,
	"step": 22520
	},
	{
	"epoch": 0.2519838274028218,
	"grad_norm": 0.2683405578136444,
	"learning_rate": 8.223308511124309e-06,
	"loss": 0.7631,
	"step": 22530
	},
	{
	"epoch": 0.2520956710900845,
	"grad_norm": 0.25919967889785767,
	"learning_rate": 7.99488327470419e-06,
	"loss": 0.7556,
	"step": 22540
	},
	{
	"epoch": 0.25220751477734715,
	"grad_norm": 0.25076591968536377,
	"learning_rate": 7.76645803828407e-06,
	"loss": 0.7528,
	"step": 22550
	},
	{
	"epoch": 0.25231935846460984,
	"grad_norm": 0.2598860561847687,
	"learning_rate": 7.53803280186395e-06,
	"loss": 0.7565,
	"step": 22560
	},
	{
	"epoch": 0.25243120215187254,
	"grad_norm": 0.30933788418769836,
	"learning_rate": 7.30960756544383e-06,
	"loss": 0.7645,
	"step": 22570
	},
	{
	"epoch": 0.2525430458391352,
	"grad_norm": 0.26472121477127075,
	"learning_rate": 7.081182329023711e-06,
	"loss": 0.7559,
	"step": 22580
	},
	{
	"epoch": 0.2526548895263979,
	"grad_norm": 0.28362420201301575,
	"learning_rate": 6.852757092603591e-06,
	"loss": 0.7618,
	"step": 22590
	},
	{
	"epoch": 0.2527667332136606,
	"grad_norm": 0.27758538722991943,
	"learning_rate": 6.624331856183471e-06,
	"loss": 0.7656,
	"step": 22600
	},
	{
	"epoch": 0.25287857690092325,
	"grad_norm": 0.28303948044776917,
	"learning_rate": 6.395906619763352e-06,
	"loss": 0.7672,
	"step": 22610
	},
	{
	"epoch": 0.25299042058818594,
	"grad_norm": 0.2938460409641266,
	"learning_rate": 6.167481383343232e-06,
	"loss": 0.7662,
	"step": 22620
	},
	{
	"epoch": 0.25310226427544863,
	"grad_norm": 0.25707969069480896,
	"learning_rate": 5.939056146923112e-06,
	"loss": 0.7667,
	"step": 22630
	},
	{
	"epoch": 0.2532141079627113,
	"grad_norm": 0.2813314199447632,
	"learning_rate": 5.710630910502992e-06,
	"loss": 0.7645,
	"step": 22640
	},
	{
	"epoch": 0.253325951649974,
	"grad_norm": 0.2911704480648041,
	"learning_rate": 5.482205674082873e-06,
	"loss": 0.763,
	"step": 22650
	},
	{
	"epoch": 0.2534377953372367,
	"grad_norm": 0.2982921600341797,
	"learning_rate": 5.253780437662753e-06,
	"loss": 0.7606,
	"step": 22660
	},
	{
	"epoch": 0.25354963902449934,
	"grad_norm": 0.2803521156311035,
	"learning_rate": 5.025355201242633e-06,
	"loss": 0.7617,
	"step": 22670
	},
	{
	"epoch": 0.25366148271176203,
	"grad_norm": 0.26502448320388794,
	"learning_rate": 4.7969299648225135e-06,
	"loss": 0.7802,
	"step": 22680
	},
	{
	"epoch": 0.2537733263990247,
	"grad_norm": 0.27778494358062744,
	"learning_rate": 4.568504728402395e-06,
	"loss": 0.7776,
	"step": 22690
	},
	{
	"epoch": 0.2538851700862874,
	"grad_norm": 0.27522069215774536,
	"learning_rate": 4.340079491982275e-06,
	"loss": 0.7712,
	"step": 22700
	},
	{
	"epoch": 0.2539970137735501,
	"grad_norm": 0.2718433141708374,
	"learning_rate": 4.111654255562154e-06,
	"loss": 0.7696,
	"step": 22710
	},
	{
	"epoch": 0.25410885746081274,
	"grad_norm": 0.35057663917541504,
	"learning_rate": 3.883229019142035e-06,
	"loss": 0.7648,
	"step": 22720
	},
	{
	"epoch": 0.25422070114807543,
	"grad_norm": 0.274494469165802,
	"learning_rate": 3.654803782721915e-06,
	"loss": 0.7578,
	"step": 22730
	},
	{
	"epoch": 0.2543325448353381,
	"grad_norm": 0.2570250928401947,
	"learning_rate": 3.4263785463017955e-06,
	"loss": 0.7502,
	"step": 22740
	},
	{
	"epoch": 0.2544443885226008,
	"grad_norm": 0.290217787027359,
	"learning_rate": 3.197953309881676e-06,
	"loss": 0.7607,
	"step": 22750
	},
	{
	"epoch": 0.2545562322098635,
	"grad_norm": 0.25752514600753784,
	"learning_rate": 2.969528073461556e-06,
	"loss": 0.7612,
	"step": 22760
	},
	{
	"epoch": 0.2546680758971262,
	"grad_norm": 0.23857931792736053,
	"learning_rate": 2.7411028370414363e-06,
	"loss": 0.7495,
	"step": 22770
	},
	{
	"epoch": 0.25477991958438884,
	"grad_norm": 0.26004472374916077,
	"learning_rate": 2.5126776006213166e-06,
	"loss": 0.7477,
	"step": 22780
	},
	{
	"epoch": 0.25489176327165153,
	"grad_norm": 0.25449565052986145,
	"learning_rate": 2.2842523642011973e-06,
	"loss": 0.7379,
	"step": 22790
	},
	{
	"epoch": 0.2550036069589142,
	"grad_norm": 0.2568104565143585,
	"learning_rate": 2.055827127781077e-06,
	"loss": 0.7407,
	"step": 22800
	},
	{
	"epoch": 0.2551154506461769,
	"grad_norm": 0.253451406955719,
	"learning_rate": 1.8274018913609574e-06,
	"loss": 0.7241,
	"step": 22810
	},
	{
	"epoch": 0.2552272943334396,
	"grad_norm": 0.25928062200546265,
	"learning_rate": 1.598976654940838e-06,
	"loss": 0.7502,
	"step": 22820
	},
	{
	"epoch": 0.2553391380207023,
	"grad_norm": 0.24965140223503113,
	"learning_rate": 1.3705514185207182e-06,
	"loss": 0.7417,
	"step": 22830
	},
	{
	"epoch": 0.25545098170796493,
	"grad_norm": 0.2660306394100189,
	"learning_rate": 1.1421261821005987e-06,
	"loss": 0.7463,
	"step": 22840
	},
	{
	"epoch": 0.2555628253952276,
	"grad_norm": 0.25784334540367126,
	"learning_rate": 9.137009456804787e-07,
	"loss": 0.7379,
	"step": 22850
	},
	{
	"epoch": 0.2556746690824903,
	"grad_norm": 0.27776214480400085,
	"learning_rate": 6.852757092603591e-07,
	"loss": 0.7562,
	"step": 22860
	},
	{
	"epoch": 0.255786512769753,
	"grad_norm": 0.24403463304042816,
	"learning_rate": 4.5685047284023936e-07,
	"loss": 0.7427,
	"step": 22870
	},
	{
	"epoch": 0.2558983564570157,
	"grad_norm": 0.24544622004032135,
	"learning_rate": 2.2842523642011968e-07,
	"loss": 0.748,
	"step": 22880
	}
	],
	"logging_steps": 10,
	"max_steps": 22889,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.946484739580887e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}