{ "best_metric": 1.0, "best_model_checkpoint": "models/pt-ai-detector/checkpoint-62500", "epoch": 3.0, "eval_steps": 500, "global_step": 187500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0016, "grad_norm": 0.02673221565783024, "learning_rate": 1.9989333333333335e-05, "loss": 0.109, "step": 100 }, { "epoch": 0.0032, "grad_norm": 0.017086902633309364, "learning_rate": 1.997888e-05, "loss": 0.0036, "step": 200 }, { "epoch": 0.0048, "grad_norm": 0.006770299281924963, "learning_rate": 1.9968213333333335e-05, "loss": 0.0019, "step": 300 }, { "epoch": 0.0064, "grad_norm": 0.00477579515427351, "learning_rate": 1.995754666666667e-05, "loss": 0.0022, "step": 400 }, { "epoch": 0.008, "grad_norm": 0.0035180049017071724, "learning_rate": 1.9946880000000002e-05, "loss": 0.001, "step": 500 }, { "epoch": 0.0096, "grad_norm": 0.003077354747802019, "learning_rate": 1.9936213333333333e-05, "loss": 0.0003, "step": 600 }, { "epoch": 0.0112, "grad_norm": 0.0021210976410657167, "learning_rate": 1.992554666666667e-05, "loss": 0.0001, "step": 700 }, { "epoch": 0.0128, "grad_norm": 0.001930135884322226, "learning_rate": 1.991488e-05, "loss": 0.0001, "step": 800 }, { "epoch": 0.0144, "grad_norm": 0.0014129126211628318, "learning_rate": 1.9904213333333337e-05, "loss": 0.0001, "step": 900 }, { "epoch": 0.016, "grad_norm": 0.0013116322224959731, "learning_rate": 1.9893546666666667e-05, "loss": 0.0001, "step": 1000 }, { "epoch": 0.0176, "grad_norm": 0.0009962028125301003, "learning_rate": 1.988288e-05, "loss": 0.0, "step": 1100 }, { "epoch": 0.0192, "grad_norm": 0.0008926771697588265, "learning_rate": 1.9872213333333335e-05, "loss": 0.0, "step": 1200 }, { "epoch": 0.0208, "grad_norm": 0.0008887408184818923, "learning_rate": 1.9861546666666668e-05, "loss": 0.0, "step": 1300 }, { "epoch": 0.0224, "grad_norm": 0.000690207933075726, "learning_rate": 1.9850880000000002e-05, "loss": 0.0, "step": 1400 }, { "epoch": 0.024, "grad_norm": 0.000710649008397013, "learning_rate": 1.9840213333333336e-05, "loss": 0.0, "step": 1500 }, { "epoch": 0.0256, "grad_norm": 0.0005570728681050241, "learning_rate": 1.982954666666667e-05, "loss": 0.0, "step": 1600 }, { "epoch": 0.0272, "grad_norm": 0.013599707745015621, "learning_rate": 1.9818880000000003e-05, "loss": 0.0032, "step": 1700 }, { "epoch": 0.0288, "grad_norm": 0.0010214447975158691, "learning_rate": 1.9808213333333333e-05, "loss": 0.0006, "step": 1800 }, { "epoch": 0.0304, "grad_norm": 0.0006235586479306221, "learning_rate": 1.979754666666667e-05, "loss": 0.0, "step": 1900 }, { "epoch": 0.032, "grad_norm": 0.0006887756753712893, "learning_rate": 1.978688e-05, "loss": 0.002, "step": 2000 }, { "epoch": 0.0336, "grad_norm": 0.5710021257400513, "learning_rate": 1.9776213333333334e-05, "loss": 0.0086, "step": 2100 }, { "epoch": 0.0352, "grad_norm": 0.0023482097312808037, "learning_rate": 1.9765546666666668e-05, "loss": 0.003, "step": 2200 }, { "epoch": 0.0368, "grad_norm": 0.0014186076587066054, "learning_rate": 1.975488e-05, "loss": 0.0001, "step": 2300 }, { "epoch": 0.0384, "grad_norm": 0.0014550117775797844, "learning_rate": 1.9744213333333335e-05, "loss": 0.0, "step": 2400 }, { "epoch": 0.04, "grad_norm": 0.0006836645770817995, "learning_rate": 1.973354666666667e-05, "loss": 0.0, "step": 2500 }, { "epoch": 0.0416, "grad_norm": 0.0005004777340218425, "learning_rate": 1.9722880000000003e-05, "loss": 0.0, "step": 2600 }, { "epoch": 0.0432, "grad_norm": 0.0005360045470297337, "learning_rate": 1.9712213333333333e-05, "loss": 0.0005, "step": 2700 }, { "epoch": 0.0448, "grad_norm": 0.0010488297557458282, "learning_rate": 1.970154666666667e-05, "loss": 0.0031, "step": 2800 }, { "epoch": 0.0464, "grad_norm": 0.0006056024576537311, "learning_rate": 1.969088e-05, "loss": 0.0018, "step": 2900 }, { "epoch": 0.048, "grad_norm": 0.0004962153034284711, "learning_rate": 1.9680213333333337e-05, "loss": 0.0, "step": 3000 }, { "epoch": 0.0496, "grad_norm": 0.00048244796926155686, "learning_rate": 1.9669546666666667e-05, "loss": 0.0, "step": 3100 }, { "epoch": 0.0512, "grad_norm": 0.0003251029411330819, "learning_rate": 1.965888e-05, "loss": 0.0, "step": 3200 }, { "epoch": 0.0528, "grad_norm": 0.0003602537326514721, "learning_rate": 1.9648213333333335e-05, "loss": 0.0, "step": 3300 }, { "epoch": 0.0544, "grad_norm": 0.00031091648270376027, "learning_rate": 1.963754666666667e-05, "loss": 0.0, "step": 3400 }, { "epoch": 0.056, "grad_norm": 0.00021150140673853457, "learning_rate": 1.9626880000000002e-05, "loss": 0.0, "step": 3500 }, { "epoch": 0.0576, "grad_norm": 0.00020159632549621165, "learning_rate": 1.9616213333333336e-05, "loss": 0.0, "step": 3600 }, { "epoch": 0.0592, "grad_norm": 0.00022669663303531706, "learning_rate": 1.960554666666667e-05, "loss": 0.0, "step": 3700 }, { "epoch": 0.0608, "grad_norm": 0.00015808363968972117, "learning_rate": 1.959488e-05, "loss": 0.0, "step": 3800 }, { "epoch": 0.0624, "grad_norm": 0.00016346627671737224, "learning_rate": 1.9584213333333337e-05, "loss": 0.0, "step": 3900 }, { "epoch": 0.064, "grad_norm": 0.00013883988140150905, "learning_rate": 1.9573546666666667e-05, "loss": 0.0, "step": 4000 }, { "epoch": 0.0656, "grad_norm": 0.0001542122772661969, "learning_rate": 1.956288e-05, "loss": 0.0, "step": 4100 }, { "epoch": 0.0672, "grad_norm": 0.00011279522732365876, "learning_rate": 1.9552213333333334e-05, "loss": 0.0, "step": 4200 }, { "epoch": 0.0688, "grad_norm": 0.00010847948578884825, "learning_rate": 1.9541546666666668e-05, "loss": 0.0002, "step": 4300 }, { "epoch": 0.0704, "grad_norm": 0.00010385631321696565, "learning_rate": 1.953088e-05, "loss": 0.0, "step": 4400 }, { "epoch": 0.072, "grad_norm": 0.00011526003072503954, "learning_rate": 1.9520213333333335e-05, "loss": 0.0, "step": 4500 }, { "epoch": 0.0736, "grad_norm": 9.515963756712154e-05, "learning_rate": 1.950954666666667e-05, "loss": 0.0, "step": 4600 }, { "epoch": 0.0752, "grad_norm": 9.874672832665965e-05, "learning_rate": 1.9498880000000003e-05, "loss": 0.0, "step": 4700 }, { "epoch": 0.0768, "grad_norm": 7.66971061239019e-05, "learning_rate": 1.9488213333333333e-05, "loss": 0.0, "step": 4800 }, { "epoch": 0.0784, "grad_norm": 7.775246922392398e-05, "learning_rate": 1.947754666666667e-05, "loss": 0.0, "step": 4900 }, { "epoch": 0.08, "grad_norm": 7.147744327085093e-05, "learning_rate": 1.946688e-05, "loss": 0.0, "step": 5000 }, { "epoch": 0.0816, "grad_norm": 7.22740005585365e-05, "learning_rate": 1.9456213333333337e-05, "loss": 0.0, "step": 5100 }, { "epoch": 0.0832, "grad_norm": 7.028302206890658e-05, "learning_rate": 1.9445546666666668e-05, "loss": 0.0, "step": 5200 }, { "epoch": 0.0848, "grad_norm": 5.9161051467526704e-05, "learning_rate": 1.943488e-05, "loss": 0.0, "step": 5300 }, { "epoch": 0.0864, "grad_norm": 6.208459672052413e-05, "learning_rate": 1.9424213333333335e-05, "loss": 0.0, "step": 5400 }, { "epoch": 0.088, "grad_norm": 5.193577453610487e-05, "learning_rate": 1.941354666666667e-05, "loss": 0.0, "step": 5500 }, { "epoch": 0.0896, "grad_norm": 5.222402614890598e-05, "learning_rate": 1.9402880000000002e-05, "loss": 0.0, "step": 5600 }, { "epoch": 0.0912, "grad_norm": 4.8609777877572924e-05, "learning_rate": 1.9392213333333332e-05, "loss": 0.0, "step": 5700 }, { "epoch": 0.0928, "grad_norm": 4.5065498852636665e-05, "learning_rate": 1.938154666666667e-05, "loss": 0.0, "step": 5800 }, { "epoch": 0.0944, "grad_norm": 5.239112942945212e-05, "learning_rate": 1.937088e-05, "loss": 0.0, "step": 5900 }, { "epoch": 0.096, "grad_norm": 3.7742487620562315e-05, "learning_rate": 1.9360213333333337e-05, "loss": 0.0, "step": 6000 }, { "epoch": 0.0976, "grad_norm": 3.911816020263359e-05, "learning_rate": 1.9349546666666667e-05, "loss": 0.0, "step": 6100 }, { "epoch": 0.0992, "grad_norm": 4.1876675823004916e-05, "learning_rate": 1.933888e-05, "loss": 0.0, "step": 6200 }, { "epoch": 0.1008, "grad_norm": 3.35037948389072e-05, "learning_rate": 1.9328213333333334e-05, "loss": 0.0, "step": 6300 }, { "epoch": 0.1024, "grad_norm": 3.4527558455010876e-05, "learning_rate": 1.9317546666666668e-05, "loss": 0.0, "step": 6400 }, { "epoch": 0.104, "grad_norm": 3.605220263125375e-05, "learning_rate": 1.9306880000000002e-05, "loss": 0.0, "step": 6500 }, { "epoch": 0.1056, "grad_norm": 2.969952765852213e-05, "learning_rate": 1.9296213333333335e-05, "loss": 0.0, "step": 6600 }, { "epoch": 0.1072, "grad_norm": 3.127843956463039e-05, "learning_rate": 1.928554666666667e-05, "loss": 0.0, "step": 6700 }, { "epoch": 0.1088, "grad_norm": 2.8357508199405856e-05, "learning_rate": 1.9274880000000003e-05, "loss": 0.0, "step": 6800 }, { "epoch": 0.1104, "grad_norm": 2.9021906811976805e-05, "learning_rate": 1.9264213333333336e-05, "loss": 0.0, "step": 6900 }, { "epoch": 0.112, "grad_norm": 2.56488910963526e-05, "learning_rate": 1.925354666666667e-05, "loss": 0.0, "step": 7000 }, { "epoch": 0.1136, "grad_norm": 2.425051025056746e-05, "learning_rate": 1.924288e-05, "loss": 0.0, "step": 7100 }, { "epoch": 0.1152, "grad_norm": 2.3250922822626308e-05, "learning_rate": 1.9232213333333334e-05, "loss": 0.0, "step": 7200 }, { "epoch": 0.1168, "grad_norm": 2.17950018850388e-05, "learning_rate": 1.9221546666666668e-05, "loss": 0.0, "step": 7300 }, { "epoch": 0.1184, "grad_norm": 1.6155694538610987e-05, "learning_rate": 1.921088e-05, "loss": 0.0, "step": 7400 }, { "epoch": 0.12, "grad_norm": 1.7884429325931706e-05, "learning_rate": 1.9200213333333335e-05, "loss": 0.0, "step": 7500 }, { "epoch": 0.1216, "grad_norm": 1.5228806660161354e-05, "learning_rate": 1.918954666666667e-05, "loss": 0.0, "step": 7600 }, { "epoch": 0.1232, "grad_norm": 0.0004236107924953103, "learning_rate": 1.9178880000000002e-05, "loss": 0.0082, "step": 7700 }, { "epoch": 0.1248, "grad_norm": 0.001014222507365048, "learning_rate": 1.9168213333333333e-05, "loss": 0.0057, "step": 7800 }, { "epoch": 0.1264, "grad_norm": 0.0008165242616087198, "learning_rate": 1.9157653333333336e-05, "loss": 0.0029, "step": 7900 }, { "epoch": 0.128, "grad_norm": 0.0005670466343872249, "learning_rate": 1.914698666666667e-05, "loss": 0.0, "step": 8000 }, { "epoch": 0.1296, "grad_norm": 0.00030610596877522767, "learning_rate": 1.9136320000000003e-05, "loss": 0.0, "step": 8100 }, { "epoch": 0.1312, "grad_norm": 0.00035054876934736967, "learning_rate": 1.9125653333333333e-05, "loss": 0.0, "step": 8200 }, { "epoch": 0.1328, "grad_norm": 0.00023674893600400537, "learning_rate": 1.9114986666666667e-05, "loss": 0.0, "step": 8300 }, { "epoch": 0.1344, "grad_norm": 0.00020271481480449438, "learning_rate": 1.910432e-05, "loss": 0.0, "step": 8400 }, { "epoch": 0.136, "grad_norm": 0.00012801923730876297, "learning_rate": 1.9093653333333334e-05, "loss": 0.0, "step": 8500 }, { "epoch": 0.1376, "grad_norm": 0.00013235829828772694, "learning_rate": 1.9082986666666668e-05, "loss": 0.0, "step": 8600 }, { "epoch": 0.1392, "grad_norm": 0.0001435764424968511, "learning_rate": 1.9072320000000002e-05, "loss": 0.0, "step": 8700 }, { "epoch": 0.1408, "grad_norm": 0.00011448346049292013, "learning_rate": 1.9061653333333335e-05, "loss": 0.0, "step": 8800 }, { "epoch": 0.1424, "grad_norm": 0.000109691551188007, "learning_rate": 1.905098666666667e-05, "loss": 0.0, "step": 8900 }, { "epoch": 0.144, "grad_norm": 0.00011090271436842158, "learning_rate": 1.904032e-05, "loss": 0.0, "step": 9000 }, { "epoch": 0.1456, "grad_norm": 9.558543388266116e-05, "learning_rate": 1.9029653333333336e-05, "loss": 0.0, "step": 9100 }, { "epoch": 0.1472, "grad_norm": 8.690696267876774e-05, "learning_rate": 1.9018986666666667e-05, "loss": 0.0, "step": 9200 }, { "epoch": 0.1488, "grad_norm": 6.725907587679103e-05, "learning_rate": 1.9008320000000004e-05, "loss": 0.0, "step": 9300 }, { "epoch": 0.1504, "grad_norm": 6.74678958603181e-05, "learning_rate": 1.8997653333333334e-05, "loss": 0.0, "step": 9400 }, { "epoch": 0.152, "grad_norm": 6.147296517156065e-05, "learning_rate": 1.8986986666666668e-05, "loss": 0.0, "step": 9500 }, { "epoch": 0.1536, "grad_norm": 5.8914873079629615e-05, "learning_rate": 1.897632e-05, "loss": 0.0, "step": 9600 }, { "epoch": 0.1552, "grad_norm": 5.48441348655615e-05, "learning_rate": 1.8965653333333335e-05, "loss": 0.0, "step": 9700 }, { "epoch": 0.1568, "grad_norm": 6.385787128238007e-05, "learning_rate": 1.895498666666667e-05, "loss": 0.0, "step": 9800 }, { "epoch": 0.1584, "grad_norm": 5.257723751128651e-05, "learning_rate": 1.894432e-05, "loss": 0.0, "step": 9900 }, { "epoch": 0.16, "grad_norm": 5.524126754608005e-05, "learning_rate": 1.8933653333333336e-05, "loss": 0.0, "step": 10000 }, { "epoch": 0.1616, "grad_norm": 4.3862233724212274e-05, "learning_rate": 1.8922986666666666e-05, "loss": 0.0, "step": 10100 }, { "epoch": 0.1632, "grad_norm": 4.757397255161777e-05, "learning_rate": 1.8912320000000003e-05, "loss": 0.0, "step": 10200 }, { "epoch": 0.1648, "grad_norm": 0.0006927695358172059, "learning_rate": 1.8901653333333334e-05, "loss": 0.004, "step": 10300 }, { "epoch": 0.1664, "grad_norm": 0.0002426155551802367, "learning_rate": 1.8890986666666667e-05, "loss": 0.0, "step": 10400 }, { "epoch": 0.168, "grad_norm": 0.0002200150629505515, "learning_rate": 1.888032e-05, "loss": 0.0, "step": 10500 }, { "epoch": 0.1696, "grad_norm": 0.00017707289953250438, "learning_rate": 1.8869653333333335e-05, "loss": 0.0, "step": 10600 }, { "epoch": 0.1712, "grad_norm": 0.000118190873763524, "learning_rate": 1.8858986666666668e-05, "loss": 0.0, "step": 10700 }, { "epoch": 0.1728, "grad_norm": 0.0001291615335503593, "learning_rate": 1.8848320000000002e-05, "loss": 0.0, "step": 10800 }, { "epoch": 0.1744, "grad_norm": 0.00015779025852680206, "learning_rate": 1.883808e-05, "loss": 0.0415, "step": 10900 }, { "epoch": 0.176, "grad_norm": 0.0010131917661055923, "learning_rate": 1.8827413333333334e-05, "loss": 0.0044, "step": 11000 }, { "epoch": 0.1776, "grad_norm": 0.00028366921469569206, "learning_rate": 1.8816746666666668e-05, "loss": 0.0, "step": 11100 }, { "epoch": 0.1792, "grad_norm": 0.00023540180700365454, "learning_rate": 1.880608e-05, "loss": 0.0, "step": 11200 }, { "epoch": 0.1808, "grad_norm": 0.00020333370775915682, "learning_rate": 1.8795413333333335e-05, "loss": 0.0, "step": 11300 }, { "epoch": 0.1824, "grad_norm": 0.0010605982970446348, "learning_rate": 1.878474666666667e-05, "loss": 0.0, "step": 11400 }, { "epoch": 0.184, "grad_norm": 0.0002904959546867758, "learning_rate": 1.8774080000000002e-05, "loss": 0.0004, "step": 11500 }, { "epoch": 0.1856, "grad_norm": 0.00024336307251360267, "learning_rate": 1.8763413333333336e-05, "loss": 0.0, "step": 11600 }, { "epoch": 0.1872, "grad_norm": 0.0001343002077192068, "learning_rate": 1.8752746666666666e-05, "loss": 0.0, "step": 11700 }, { "epoch": 0.1888, "grad_norm": 9.551690163789317e-05, "learning_rate": 1.8742080000000003e-05, "loss": 0.0, "step": 11800 }, { "epoch": 0.1904, "grad_norm": 7.702928996877745e-05, "learning_rate": 1.8731413333333334e-05, "loss": 0.0, "step": 11900 }, { "epoch": 0.192, "grad_norm": 8.958076796261594e-05, "learning_rate": 1.872074666666667e-05, "loss": 0.0, "step": 12000 }, { "epoch": 0.1936, "grad_norm": 7.529326830990613e-05, "learning_rate": 1.871008e-05, "loss": 0.0, "step": 12100 }, { "epoch": 0.1952, "grad_norm": 5.7092009228654206e-05, "learning_rate": 1.8699413333333335e-05, "loss": 0.0, "step": 12200 }, { "epoch": 0.1968, "grad_norm": 5.631962267216295e-05, "learning_rate": 1.8688746666666668e-05, "loss": 0.0, "step": 12300 }, { "epoch": 0.1984, "grad_norm": 5.422734466264956e-05, "learning_rate": 1.8678080000000002e-05, "loss": 0.0, "step": 12400 }, { "epoch": 0.2, "grad_norm": 9.995359869208187e-05, "learning_rate": 1.8667413333333336e-05, "loss": 0.0, "step": 12500 }, { "epoch": 0.2016, "grad_norm": 4.6004188334336504e-05, "learning_rate": 1.8656746666666666e-05, "loss": 0.0, "step": 12600 }, { "epoch": 0.2032, "grad_norm": 4.585070564644411e-05, "learning_rate": 1.8646080000000003e-05, "loss": 0.0, "step": 12700 }, { "epoch": 0.2048, "grad_norm": 4.063411324750632e-05, "learning_rate": 1.8635413333333333e-05, "loss": 0.0, "step": 12800 }, { "epoch": 0.2064, "grad_norm": 4.030313721159473e-05, "learning_rate": 1.862474666666667e-05, "loss": 0.0, "step": 12900 }, { "epoch": 0.208, "grad_norm": 3.6798068322241306e-05, "learning_rate": 1.861408e-05, "loss": 0.0, "step": 13000 }, { "epoch": 0.2096, "grad_norm": 3.58178440365009e-05, "learning_rate": 1.8603413333333334e-05, "loss": 0.0, "step": 13100 }, { "epoch": 0.2112, "grad_norm": 3.633175219874829e-05, "learning_rate": 1.8592746666666668e-05, "loss": 0.0, "step": 13200 }, { "epoch": 0.2128, "grad_norm": 2.833498001564294e-05, "learning_rate": 1.858208e-05, "loss": 0.0, "step": 13300 }, { "epoch": 0.2144, "grad_norm": 3.0395483918255195e-05, "learning_rate": 1.8571413333333335e-05, "loss": 0.0, "step": 13400 }, { "epoch": 0.216, "grad_norm": 2.7293002858641557e-05, "learning_rate": 1.856074666666667e-05, "loss": 0.0, "step": 13500 }, { "epoch": 0.2176, "grad_norm": 2.7100266379420646e-05, "learning_rate": 1.8550080000000002e-05, "loss": 0.0, "step": 13600 }, { "epoch": 0.2192, "grad_norm": 2.9992290365044028e-05, "learning_rate": 1.8539413333333336e-05, "loss": 0.0, "step": 13700 }, { "epoch": 0.2208, "grad_norm": 2.895161924243439e-05, "learning_rate": 1.852874666666667e-05, "loss": 0.0, "step": 13800 }, { "epoch": 0.2224, "grad_norm": 2.4209704861277714e-05, "learning_rate": 1.851808e-05, "loss": 0.0, "step": 13900 }, { "epoch": 0.224, "grad_norm": 2.0423936803126708e-05, "learning_rate": 1.8507413333333334e-05, "loss": 0.0, "step": 14000 }, { "epoch": 0.2256, "grad_norm": 1.81021387106739e-05, "learning_rate": 1.8496746666666667e-05, "loss": 0.0, "step": 14100 }, { "epoch": 0.2272, "grad_norm": 1.9862713088514283e-05, "learning_rate": 1.848608e-05, "loss": 0.0, "step": 14200 }, { "epoch": 0.2288, "grad_norm": 1.785710992407985e-05, "learning_rate": 1.8475413333333335e-05, "loss": 0.0, "step": 14300 }, { "epoch": 0.2304, "grad_norm": 1.59865176101448e-05, "learning_rate": 1.846474666666667e-05, "loss": 0.0, "step": 14400 }, { "epoch": 0.232, "grad_norm": 1.3941355064162053e-05, "learning_rate": 1.8454080000000002e-05, "loss": 0.0, "step": 14500 }, { "epoch": 0.2336, "grad_norm": 1.572091605339665e-05, "learning_rate": 1.8443413333333336e-05, "loss": 0.0, "step": 14600 }, { "epoch": 0.2352, "grad_norm": 1.866888123913668e-05, "learning_rate": 1.843274666666667e-05, "loss": 0.0, "step": 14700 }, { "epoch": 0.2368, "grad_norm": 1.7219248547917232e-05, "learning_rate": 1.8422080000000003e-05, "loss": 0.0, "step": 14800 }, { "epoch": 0.2384, "grad_norm": 1.6731108189560473e-05, "learning_rate": 1.8411413333333333e-05, "loss": 0.0, "step": 14900 }, { "epoch": 0.24, "grad_norm": 1.463459284423152e-05, "learning_rate": 1.840074666666667e-05, "loss": 0.0, "step": 15000 }, { "epoch": 0.2416, "grad_norm": 1.5301053281291388e-05, "learning_rate": 1.839008e-05, "loss": 0.0, "step": 15100 }, { "epoch": 0.2432, "grad_norm": 1.1437626199040096e-05, "learning_rate": 1.8379413333333334e-05, "loss": 0.0, "step": 15200 }, { "epoch": 0.2448, "grad_norm": 1.2994928511034232e-05, "learning_rate": 1.8368746666666668e-05, "loss": 0.0, "step": 15300 }, { "epoch": 0.2464, "grad_norm": 1.1984897355432622e-05, "learning_rate": 1.835808e-05, "loss": 0.0, "step": 15400 }, { "epoch": 0.248, "grad_norm": 1.0545180884946603e-05, "learning_rate": 1.8347413333333335e-05, "loss": 0.0, "step": 15500 }, { "epoch": 0.2496, "grad_norm": 1.0379474588262383e-05, "learning_rate": 1.8336746666666666e-05, "loss": 0.0, "step": 15600 }, { "epoch": 0.2512, "grad_norm": 9.962018339138012e-06, "learning_rate": 1.8326080000000003e-05, "loss": 0.0, "step": 15700 }, { "epoch": 0.2528, "grad_norm": 1.2507619430834893e-05, "learning_rate": 1.8315413333333333e-05, "loss": 0.0, "step": 15800 }, { "epoch": 0.2544, "grad_norm": 1.1630279914243147e-05, "learning_rate": 1.830474666666667e-05, "loss": 0.0, "step": 15900 }, { "epoch": 0.256, "grad_norm": 8.16356077848468e-06, "learning_rate": 1.829408e-05, "loss": 0.0, "step": 16000 }, { "epoch": 0.2576, "grad_norm": 9.179115295410156e-06, "learning_rate": 1.8283413333333334e-05, "loss": 0.0, "step": 16100 }, { "epoch": 0.2592, "grad_norm": 7.899307092884555e-06, "learning_rate": 1.8272746666666668e-05, "loss": 0.0, "step": 16200 }, { "epoch": 0.2608, "grad_norm": 8.934203833632637e-06, "learning_rate": 1.826208e-05, "loss": 0.0, "step": 16300 }, { "epoch": 0.2624, "grad_norm": 6.883318292238982e-06, "learning_rate": 1.8251413333333335e-05, "loss": 0.0, "step": 16400 }, { "epoch": 0.264, "grad_norm": 6.63133641864988e-06, "learning_rate": 1.824074666666667e-05, "loss": 0.0, "step": 16500 }, { "epoch": 0.2656, "grad_norm": 7.2985894803423434e-06, "learning_rate": 1.8230080000000002e-05, "loss": 0.0, "step": 16600 }, { "epoch": 0.2672, "grad_norm": 6.7308114921615925e-06, "learning_rate": 1.8219413333333336e-05, "loss": 0.0, "step": 16700 }, { "epoch": 0.2688, "grad_norm": 7.756932973279618e-06, "learning_rate": 1.820874666666667e-05, "loss": 0.0, "step": 16800 }, { "epoch": 0.2704, "grad_norm": 6.190203748701606e-06, "learning_rate": 1.8198080000000003e-05, "loss": 0.0, "step": 16900 }, { "epoch": 0.272, "grad_norm": 6.483978722826578e-06, "learning_rate": 1.8187413333333333e-05, "loss": 0.0, "step": 17000 }, { "epoch": 0.2736, "grad_norm": 5.759993655374274e-06, "learning_rate": 1.817674666666667e-05, "loss": 0.0, "step": 17100 }, { "epoch": 0.2752, "grad_norm": 5.414194674813189e-06, "learning_rate": 1.816608e-05, "loss": 0.0, "step": 17200 }, { "epoch": 0.2768, "grad_norm": 6.183955520100426e-06, "learning_rate": 1.8155413333333334e-05, "loss": 0.0, "step": 17300 }, { "epoch": 0.2784, "grad_norm": 5.614017936750315e-06, "learning_rate": 1.8144746666666668e-05, "loss": 0.0, "step": 17400 }, { "epoch": 0.28, "grad_norm": 4.546806849248242e-06, "learning_rate": 1.8134080000000002e-05, "loss": 0.0, "step": 17500 }, { "epoch": 0.2816, "grad_norm": 5.248873549135169e-06, "learning_rate": 1.8123413333333335e-05, "loss": 0.0, "step": 17600 }, { "epoch": 0.2832, "grad_norm": 5.707049695047317e-06, "learning_rate": 1.811274666666667e-05, "loss": 0.0, "step": 17700 }, { "epoch": 0.2848, "grad_norm": 4.1388898353034165e-06, "learning_rate": 1.8102080000000003e-05, "loss": 0.0, "step": 17800 }, { "epoch": 0.2864, "grad_norm": 4.138165422773454e-06, "learning_rate": 1.8091413333333333e-05, "loss": 0.0, "step": 17900 }, { "epoch": 0.288, "grad_norm": 4.807816367247142e-06, "learning_rate": 1.808074666666667e-05, "loss": 0.0, "step": 18000 }, { "epoch": 0.2896, "grad_norm": 3.953806299250573e-06, "learning_rate": 1.807008e-05, "loss": 0.0, "step": 18100 }, { "epoch": 0.2912, "grad_norm": 4.514291049417807e-06, "learning_rate": 1.8059413333333334e-05, "loss": 0.0, "step": 18200 }, { "epoch": 0.2928, "grad_norm": 3.86543206332135e-06, "learning_rate": 1.8048746666666668e-05, "loss": 0.0, "step": 18300 }, { "epoch": 0.2944, "grad_norm": 4.020656433567638e-06, "learning_rate": 1.803808e-05, "loss": 0.0, "step": 18400 }, { "epoch": 0.296, "grad_norm": 3.020624490090995e-06, "learning_rate": 1.8027413333333335e-05, "loss": 0.0, "step": 18500 }, { "epoch": 0.2976, "grad_norm": 3.109249746557907e-06, "learning_rate": 1.801674666666667e-05, "loss": 0.0, "step": 18600 }, { "epoch": 0.2992, "grad_norm": 3.1550080166198313e-06, "learning_rate": 1.8006080000000002e-05, "loss": 0.0, "step": 18700 }, { "epoch": 0.3008, "grad_norm": 2.926373326772591e-06, "learning_rate": 1.7995413333333336e-05, "loss": 0.0, "step": 18800 }, { "epoch": 0.3024, "grad_norm": 2.828928245435236e-06, "learning_rate": 1.798474666666667e-05, "loss": 0.0, "step": 18900 }, { "epoch": 0.304, "grad_norm": 2.5713843569974415e-06, "learning_rate": 1.797408e-05, "loss": 0.0, "step": 19000 }, { "epoch": 0.3056, "grad_norm": 2.677134943951387e-06, "learning_rate": 1.7963413333333334e-05, "loss": 0.0, "step": 19100 }, { "epoch": 0.3072, "grad_norm": 2.3387976852973225e-06, "learning_rate": 1.7952746666666667e-05, "loss": 0.0, "step": 19200 }, { "epoch": 0.3088, "grad_norm": 2.2587300918530673e-06, "learning_rate": 1.794208e-05, "loss": 0.0, "step": 19300 }, { "epoch": 0.3104, "grad_norm": 2.2797592009737855e-06, "learning_rate": 1.7931413333333335e-05, "loss": 0.0, "step": 19400 }, { "epoch": 0.312, "grad_norm": 2.516329004720319e-06, "learning_rate": 1.7920746666666668e-05, "loss": 0.0, "step": 19500 }, { "epoch": 0.3136, "grad_norm": 2.1884568468522048e-06, "learning_rate": 1.7910080000000002e-05, "loss": 0.0, "step": 19600 }, { "epoch": 0.3152, "grad_norm": 1.7737016833052621e-06, "learning_rate": 1.7899413333333335e-05, "loss": 0.0, "step": 19700 }, { "epoch": 0.3168, "grad_norm": 1.8436692243994912e-06, "learning_rate": 1.788874666666667e-05, "loss": 0.0, "step": 19800 }, { "epoch": 0.3184, "grad_norm": 2.1666396605724003e-06, "learning_rate": 1.7878080000000003e-05, "loss": 0.0, "step": 19900 }, { "epoch": 0.32, "grad_norm": 1.988582653211779e-06, "learning_rate": 1.7867413333333333e-05, "loss": 0.0, "step": 20000 }, { "epoch": 0.3216, "grad_norm": 1.9917110876122024e-06, "learning_rate": 1.785674666666667e-05, "loss": 0.0, "step": 20100 }, { "epoch": 0.3232, "grad_norm": 1.605521674719057e-06, "learning_rate": 1.7846186666666667e-05, "loss": 0.0013, "step": 20200 }, { "epoch": 0.3248, "grad_norm": 2.1161680706427433e-05, "learning_rate": 1.7835733333333333e-05, "loss": 0.0223, "step": 20300 }, { "epoch": 0.3264, "grad_norm": 0.0008167960331775248, "learning_rate": 1.782506666666667e-05, "loss": 0.0106, "step": 20400 }, { "epoch": 0.328, "grad_norm": 0.00030075563699938357, "learning_rate": 1.78144e-05, "loss": 0.0004, "step": 20500 }, { "epoch": 0.3296, "grad_norm": 0.00021357230434659868, "learning_rate": 1.7803733333333334e-05, "loss": 0.0, "step": 20600 }, { "epoch": 0.3312, "grad_norm": 0.0021272392477840185, "learning_rate": 1.7793066666666667e-05, "loss": 0.005, "step": 20700 }, { "epoch": 0.3328, "grad_norm": 0.00031995793688111007, "learning_rate": 1.77824e-05, "loss": 0.0, "step": 20800 }, { "epoch": 0.3344, "grad_norm": 0.00017301621846854687, "learning_rate": 1.7771733333333335e-05, "loss": 0.0001, "step": 20900 }, { "epoch": 0.336, "grad_norm": 0.00015349338355008513, "learning_rate": 1.776106666666667e-05, "loss": 0.0, "step": 21000 }, { "epoch": 0.3376, "grad_norm": 0.00011431697930675, "learning_rate": 1.7750400000000002e-05, "loss": 0.0, "step": 21100 }, { "epoch": 0.3392, "grad_norm": 0.00010969273716909811, "learning_rate": 1.7739733333333336e-05, "loss": 0.0, "step": 21200 }, { "epoch": 0.3408, "grad_norm": 9.16854478418827e-05, "learning_rate": 1.772906666666667e-05, "loss": 0.0, "step": 21300 }, { "epoch": 0.3424, "grad_norm": 7.963561074575409e-05, "learning_rate": 1.7718400000000003e-05, "loss": 0.0, "step": 21400 }, { "epoch": 0.344, "grad_norm": 7.331543747568503e-05, "learning_rate": 1.7707733333333333e-05, "loss": 0.0, "step": 21500 }, { "epoch": 0.3456, "grad_norm": 6.28735069767572e-05, "learning_rate": 1.769706666666667e-05, "loss": 0.0, "step": 21600 }, { "epoch": 0.3472, "grad_norm": 5.47724193893373e-05, "learning_rate": 1.76864e-05, "loss": 0.0, "step": 21700 }, { "epoch": 0.3488, "grad_norm": 5.209392838878557e-05, "learning_rate": 1.7675733333333334e-05, "loss": 0.0, "step": 21800 }, { "epoch": 0.3504, "grad_norm": 5.173907629796304e-05, "learning_rate": 1.7665066666666668e-05, "loss": 0.0, "step": 21900 }, { "epoch": 0.352, "grad_norm": 5.027300721849315e-05, "learning_rate": 1.76544e-05, "loss": 0.0, "step": 22000 }, { "epoch": 0.3536, "grad_norm": 4.8056979721877724e-05, "learning_rate": 1.7643733333333335e-05, "loss": 0.0, "step": 22100 }, { "epoch": 0.3552, "grad_norm": 4.373279443825595e-05, "learning_rate": 1.7633066666666666e-05, "loss": 0.0, "step": 22200 }, { "epoch": 0.3568, "grad_norm": 4.0998969780048355e-05, "learning_rate": 1.7622400000000003e-05, "loss": 0.0, "step": 22300 }, { "epoch": 0.3584, "grad_norm": 3.9302074583247304e-05, "learning_rate": 1.7611733333333333e-05, "loss": 0.0, "step": 22400 }, { "epoch": 0.36, "grad_norm": 3.604054290917702e-05, "learning_rate": 1.760106666666667e-05, "loss": 0.0, "step": 22500 }, { "epoch": 0.3616, "grad_norm": 3.515103890094906e-05, "learning_rate": 1.75904e-05, "loss": 0.0, "step": 22600 }, { "epoch": 0.3632, "grad_norm": 3.248384018661454e-05, "learning_rate": 1.7579733333333334e-05, "loss": 0.0, "step": 22700 }, { "epoch": 0.3648, "grad_norm": 3.285553611931391e-05, "learning_rate": 1.7569066666666667e-05, "loss": 0.0, "step": 22800 }, { "epoch": 0.3664, "grad_norm": 2.9991715564392507e-05, "learning_rate": 1.75584e-05, "loss": 0.0, "step": 22900 }, { "epoch": 0.368, "grad_norm": 2.546398900449276e-05, "learning_rate": 1.7547733333333335e-05, "loss": 0.0, "step": 23000 }, { "epoch": 0.3696, "grad_norm": 2.696343290153891e-05, "learning_rate": 1.753706666666667e-05, "loss": 0.0, "step": 23100 }, { "epoch": 0.3712, "grad_norm": 2.5436993382754736e-05, "learning_rate": 1.7526400000000002e-05, "loss": 0.0, "step": 23200 }, { "epoch": 0.3728, "grad_norm": 2.3871341909398325e-05, "learning_rate": 1.7515733333333336e-05, "loss": 0.0, "step": 23300 }, { "epoch": 0.3744, "grad_norm": 2.4206261514336802e-05, "learning_rate": 1.750506666666667e-05, "loss": 0.0, "step": 23400 }, { "epoch": 0.376, "grad_norm": 2.1603356799460016e-05, "learning_rate": 1.7494400000000003e-05, "loss": 0.0, "step": 23500 }, { "epoch": 0.3776, "grad_norm": 2.217761539213825e-05, "learning_rate": 1.7483733333333333e-05, "loss": 0.0, "step": 23600 }, { "epoch": 0.3792, "grad_norm": 2.0118233805987984e-05, "learning_rate": 1.7473066666666667e-05, "loss": 0.0, "step": 23700 }, { "epoch": 0.3808, "grad_norm": 1.8580089090391994e-05, "learning_rate": 1.74624e-05, "loss": 0.0, "step": 23800 }, { "epoch": 0.3824, "grad_norm": 2.0107261661905795e-05, "learning_rate": 1.7451733333333334e-05, "loss": 0.0, "step": 23900 }, { "epoch": 0.384, "grad_norm": 1.8376658772467636e-05, "learning_rate": 1.7441066666666668e-05, "loss": 0.0, "step": 24000 }, { "epoch": 0.3856, "grad_norm": 1.9588029317674227e-05, "learning_rate": 1.7430400000000002e-05, "loss": 0.0, "step": 24100 }, { "epoch": 0.3872, "grad_norm": 1.579835770826321e-05, "learning_rate": 1.7419733333333335e-05, "loss": 0.0, "step": 24200 }, { "epoch": 0.3888, "grad_norm": 1.5347810403909534e-05, "learning_rate": 1.740906666666667e-05, "loss": 0.0, "step": 24300 }, { "epoch": 0.3904, "grad_norm": 1.552935464133043e-05, "learning_rate": 1.7398400000000003e-05, "loss": 0.0, "step": 24400 }, { "epoch": 0.392, "grad_norm": 1.485102347942302e-05, "learning_rate": 1.7387733333333333e-05, "loss": 0.0, "step": 24500 }, { "epoch": 0.3936, "grad_norm": 1.4200339137460105e-05, "learning_rate": 1.737706666666667e-05, "loss": 0.0, "step": 24600 }, { "epoch": 0.3952, "grad_norm": 1.186304052680498e-05, "learning_rate": 1.73664e-05, "loss": 0.0, "step": 24700 }, { "epoch": 0.3968, "grad_norm": 1.2428082300175447e-05, "learning_rate": 1.7355733333333334e-05, "loss": 0.0, "step": 24800 }, { "epoch": 0.3984, "grad_norm": 1.168328890344128e-05, "learning_rate": 1.7345066666666668e-05, "loss": 0.0, "step": 24900 }, { "epoch": 0.4, "grad_norm": 1.1338147487549577e-05, "learning_rate": 1.73344e-05, "loss": 0.0, "step": 25000 }, { "epoch": 0.4016, "grad_norm": 1.0833624401129782e-05, "learning_rate": 1.7323733333333335e-05, "loss": 0.0, "step": 25100 }, { "epoch": 0.4032, "grad_norm": 1.1126129720651079e-05, "learning_rate": 1.731306666666667e-05, "loss": 0.0, "step": 25200 }, { "epoch": 0.4048, "grad_norm": 1.071280894393567e-05, "learning_rate": 1.730250666666667e-05, "loss": 0.0004, "step": 25300 }, { "epoch": 0.4064, "grad_norm": 8.747599167691078e-06, "learning_rate": 1.7291840000000002e-05, "loss": 0.0, "step": 25400 }, { "epoch": 0.408, "grad_norm": 9.405779564986005e-06, "learning_rate": 1.7281173333333336e-05, "loss": 0.0, "step": 25500 }, { "epoch": 0.4096, "grad_norm": 9.353114364785142e-06, "learning_rate": 1.727050666666667e-05, "loss": 0.0, "step": 25600 }, { "epoch": 0.4112, "grad_norm": 8.207565770135261e-06, "learning_rate": 1.725984e-05, "loss": 0.0, "step": 25700 }, { "epoch": 0.4128, "grad_norm": 8.460830940748565e-06, "learning_rate": 1.7249173333333337e-05, "loss": 0.0, "step": 25800 }, { "epoch": 0.4144, "grad_norm": 7.834319148969371e-06, "learning_rate": 1.7238506666666667e-05, "loss": 0.0, "step": 25900 }, { "epoch": 0.416, "grad_norm": 7.789364644850139e-06, "learning_rate": 1.722784e-05, "loss": 0.0, "step": 26000 }, { "epoch": 0.4176, "grad_norm": 7.643193384865299e-06, "learning_rate": 1.7217173333333334e-05, "loss": 0.0, "step": 26100 }, { "epoch": 0.4192, "grad_norm": 6.989634584897431e-06, "learning_rate": 1.7206506666666668e-05, "loss": 0.0, "step": 26200 }, { "epoch": 0.4208, "grad_norm": 6.504462362499908e-06, "learning_rate": 1.7195840000000002e-05, "loss": 0.0, "step": 26300 }, { "epoch": 0.4224, "grad_norm": 6.5619133238215e-06, "learning_rate": 1.7185173333333335e-05, "loss": 0.0, "step": 26400 }, { "epoch": 0.424, "grad_norm": 6.538786692544818e-06, "learning_rate": 1.717450666666667e-05, "loss": 0.0, "step": 26500 }, { "epoch": 0.4256, "grad_norm": 5.952290393906878e-06, "learning_rate": 1.716384e-05, "loss": 0.0, "step": 26600 }, { "epoch": 0.4272, "grad_norm": 5.890806733077625e-06, "learning_rate": 1.7153173333333336e-05, "loss": 0.0, "step": 26700 }, { "epoch": 0.4288, "grad_norm": 5.5425175560230855e-06, "learning_rate": 1.7142506666666667e-05, "loss": 0.0, "step": 26800 }, { "epoch": 0.4304, "grad_norm": 5.190961019252427e-06, "learning_rate": 1.713184e-05, "loss": 0.0, "step": 26900 }, { "epoch": 0.432, "grad_norm": 5.312633220455609e-06, "learning_rate": 1.7121173333333334e-05, "loss": 0.0, "step": 27000 }, { "epoch": 0.4336, "grad_norm": 4.84698239233694e-06, "learning_rate": 1.7110506666666668e-05, "loss": 0.0, "step": 27100 }, { "epoch": 0.4352, "grad_norm": 4.822264145332156e-06, "learning_rate": 1.709984e-05, "loss": 0.0, "step": 27200 }, { "epoch": 0.4368, "grad_norm": 5.0093335630663205e-06, "learning_rate": 1.7089173333333335e-05, "loss": 0.0, "step": 27300 }, { "epoch": 0.4384, "grad_norm": 4.560034540190827e-06, "learning_rate": 1.707850666666667e-05, "loss": 0.0, "step": 27400 }, { "epoch": 0.44, "grad_norm": 4.285787326807622e-06, "learning_rate": 1.7067840000000002e-05, "loss": 0.0, "step": 27500 }, { "epoch": 0.4416, "grad_norm": 4.18266017732094e-06, "learning_rate": 1.7057173333333336e-05, "loss": 0.0, "step": 27600 }, { "epoch": 0.4432, "grad_norm": 3.8072735151217785e-06, "learning_rate": 1.704650666666667e-05, "loss": 0.0, "step": 27700 }, { "epoch": 0.4448, "grad_norm": 3.73259058505937e-06, "learning_rate": 1.703584e-05, "loss": 0.0, "step": 27800 }, { "epoch": 0.4464, "grad_norm": 3.7710021842940478e-06, "learning_rate": 1.7025173333333337e-05, "loss": 0.0, "step": 27900 }, { "epoch": 0.448, "grad_norm": 3.7697877814935055e-06, "learning_rate": 1.7014506666666667e-05, "loss": 0.0, "step": 28000 }, { "epoch": 0.4496, "grad_norm": 3.442883553361753e-06, "learning_rate": 1.700384e-05, "loss": 0.0, "step": 28100 }, { "epoch": 0.4512, "grad_norm": 3.407572421565419e-06, "learning_rate": 1.6993173333333334e-05, "loss": 0.0, "step": 28200 }, { "epoch": 0.4528, "grad_norm": 3.369181740708882e-06, "learning_rate": 1.6982506666666668e-05, "loss": 0.0, "step": 28300 }, { "epoch": 0.4544, "grad_norm": 3.2553843993810005e-06, "learning_rate": 1.6971840000000002e-05, "loss": 0.0, "step": 28400 }, { "epoch": 0.456, "grad_norm": 2.9325344712560764e-06, "learning_rate": 1.6961173333333335e-05, "loss": 0.0, "step": 28500 }, { "epoch": 0.4576, "grad_norm": 2.814329036482377e-06, "learning_rate": 1.695050666666667e-05, "loss": 0.0, "step": 28600 }, { "epoch": 0.4592, "grad_norm": 2.932674760813825e-06, "learning_rate": 1.693984e-05, "loss": 0.0, "step": 28700 }, { "epoch": 0.4608, "grad_norm": 2.8238118829904124e-06, "learning_rate": 1.6929173333333336e-05, "loss": 0.0, "step": 28800 }, { "epoch": 0.4624, "grad_norm": 2.491308805474546e-06, "learning_rate": 1.6918506666666667e-05, "loss": 0.0, "step": 28900 }, { "epoch": 0.464, "grad_norm": 2.2496963083540322e-06, "learning_rate": 1.690784e-05, "loss": 0.0, "step": 29000 }, { "epoch": 0.4656, "grad_norm": 2.2353810891218018e-06, "learning_rate": 1.6897173333333334e-05, "loss": 0.0, "step": 29100 }, { "epoch": 0.4672, "grad_norm": 2.2871329292684095e-06, "learning_rate": 1.6886506666666668e-05, "loss": 0.0, "step": 29200 }, { "epoch": 0.4688, "grad_norm": 2.0240684079908533e-06, "learning_rate": 1.687584e-05, "loss": 0.0, "step": 29300 }, { "epoch": 0.4704, "grad_norm": 2.1123094029462663e-06, "learning_rate": 1.6865173333333335e-05, "loss": 0.0, "step": 29400 }, { "epoch": 0.472, "grad_norm": 1.2771483852702659e-06, "learning_rate": 1.685450666666667e-05, "loss": 0.0, "step": 29500 }, { "epoch": 0.4736, "grad_norm": 1.6413683852078975e-06, "learning_rate": 1.6843840000000002e-05, "loss": 0.0, "step": 29600 }, { "epoch": 0.4752, "grad_norm": 1.272170607080625e-06, "learning_rate": 1.6833173333333336e-05, "loss": 0.0, "step": 29700 }, { "epoch": 0.4768, "grad_norm": 1.5857983726164093e-06, "learning_rate": 1.6822506666666666e-05, "loss": 0.0, "step": 29800 }, { "epoch": 0.4784, "grad_norm": 9.906548257276881e-07, "learning_rate": 1.681184e-05, "loss": 0.0, "step": 29900 }, { "epoch": 0.48, "grad_norm": 1.2207430017951992e-06, "learning_rate": 1.6801173333333334e-05, "loss": 0.0, "step": 30000 }, { "epoch": 0.4816, "grad_norm": 1.0915376833509072e-06, "learning_rate": 1.6790506666666667e-05, "loss": 0.0, "step": 30100 }, { "epoch": 0.4832, "grad_norm": 9.879134950097068e-07, "learning_rate": 1.677984e-05, "loss": 0.0, "step": 30200 }, { "epoch": 0.4848, "grad_norm": 9.498847930444754e-07, "learning_rate": 1.6769173333333335e-05, "loss": 0.0, "step": 30300 }, { "epoch": 0.4864, "grad_norm": 1.0251242201775312e-06, "learning_rate": 1.6758506666666668e-05, "loss": 0.0, "step": 30400 }, { "epoch": 0.488, "grad_norm": 1.0169778761337511e-06, "learning_rate": 1.6747840000000002e-05, "loss": 0.0, "step": 30500 }, { "epoch": 0.4896, "grad_norm": 8.809812470644829e-07, "learning_rate": 1.6737173333333336e-05, "loss": 0.0, "step": 30600 }, { "epoch": 0.4912, "grad_norm": 5.986374276290007e-07, "learning_rate": 1.672650666666667e-05, "loss": 0.0, "step": 30700 }, { "epoch": 0.4928, "grad_norm": 7.004752546890813e-07, "learning_rate": 1.671584e-05, "loss": 0.0, "step": 30800 }, { "epoch": 0.4944, "grad_norm": 6.413148412320879e-07, "learning_rate": 1.6705173333333337e-05, "loss": 0.0, "step": 30900 }, { "epoch": 0.496, "grad_norm": 5.724415927943483e-07, "learning_rate": 1.6694506666666667e-05, "loss": 0.0, "step": 31000 }, { "epoch": 0.4976, "grad_norm": 6.884836238896241e-07, "learning_rate": 1.6683840000000004e-05, "loss": 0.0, "step": 31100 }, { "epoch": 0.4992, "grad_norm": 6.260689247028495e-07, "learning_rate": 1.6673173333333334e-05, "loss": 0.0, "step": 31200 }, { "epoch": 0.5008, "grad_norm": 5.333803301255102e-07, "learning_rate": 1.6662506666666668e-05, "loss": 0.0, "step": 31300 }, { "epoch": 0.5024, "grad_norm": 7.12101609678939e-07, "learning_rate": 1.665184e-05, "loss": 0.0, "step": 31400 }, { "epoch": 0.504, "grad_norm": 5.5784983032936e-07, "learning_rate": 1.6641173333333335e-05, "loss": 0.0, "step": 31500 }, { "epoch": 0.5056, "grad_norm": 5.744473696722707e-07, "learning_rate": 1.663050666666667e-05, "loss": 0.0, "step": 31600 }, { "epoch": 0.5072, "grad_norm": 5.516257601811958e-07, "learning_rate": 1.661984e-05, "loss": 0.0, "step": 31700 }, { "epoch": 0.5088, "grad_norm": 5.83314033519855e-07, "learning_rate": 1.6609173333333336e-05, "loss": 0.0, "step": 31800 }, { "epoch": 0.5104, "grad_norm": 4.716930277481879e-07, "learning_rate": 1.6598506666666666e-05, "loss": 0.0, "step": 31900 }, { "epoch": 0.512, "grad_norm": 4.2959382540175284e-07, "learning_rate": 1.658784e-05, "loss": 0.0, "step": 32000 }, { "epoch": 0.5136, "grad_norm": 4.2993829652004933e-07, "learning_rate": 1.6577173333333334e-05, "loss": 0.0, "step": 32100 }, { "epoch": 0.5152, "grad_norm": 4.2280382217541046e-07, "learning_rate": 1.6566506666666667e-05, "loss": 0.0, "step": 32200 }, { "epoch": 0.5168, "grad_norm": 3.871925855492009e-07, "learning_rate": 1.655584e-05, "loss": 0.0, "step": 32300 }, { "epoch": 0.5184, "grad_norm": 4.4411478938855e-07, "learning_rate": 1.6545173333333335e-05, "loss": 0.0, "step": 32400 }, { "epoch": 0.52, "grad_norm": 3.928717831058748e-07, "learning_rate": 1.653450666666667e-05, "loss": 0.0, "step": 32500 }, { "epoch": 0.5216, "grad_norm": 4.015236640952935e-07, "learning_rate": 1.6523840000000002e-05, "loss": 0.0, "step": 32600 }, { "epoch": 0.5232, "grad_norm": 4.0636822973283415e-07, "learning_rate": 1.6513173333333336e-05, "loss": 0.0, "step": 32700 }, { "epoch": 0.5248, "grad_norm": 3.822638632300368e-07, "learning_rate": 1.650250666666667e-05, "loss": 0.0, "step": 32800 }, { "epoch": 0.5264, "grad_norm": 3.445758522957476e-07, "learning_rate": 1.649184e-05, "loss": 0.0, "step": 32900 }, { "epoch": 0.528, "grad_norm": 3.2311257314177055e-07, "learning_rate": 1.6481173333333337e-05, "loss": 0.0, "step": 33000 }, { "epoch": 0.5296, "grad_norm": 3.157684318466636e-07, "learning_rate": 1.6470506666666667e-05, "loss": 0.0, "step": 33100 }, { "epoch": 0.5312, "grad_norm": 2.9879865337534284e-07, "learning_rate": 1.645984e-05, "loss": 0.0, "step": 33200 }, { "epoch": 0.5328, "grad_norm": 3.35712599053295e-07, "learning_rate": 1.6449173333333334e-05, "loss": 0.0, "step": 33300 }, { "epoch": 0.5344, "grad_norm": 2.768248918982863e-07, "learning_rate": 1.6438506666666668e-05, "loss": 0.0, "step": 33400 }, { "epoch": 0.536, "grad_norm": 2.875537177260412e-07, "learning_rate": 1.642784e-05, "loss": 0.0, "step": 33500 }, { "epoch": 0.5376, "grad_norm": 2.9602924200844427e-07, "learning_rate": 1.6417173333333335e-05, "loss": 0.0, "step": 33600 }, { "epoch": 0.5392, "grad_norm": 3.1393423682857247e-07, "learning_rate": 1.640650666666667e-05, "loss": 0.0, "step": 33700 }, { "epoch": 0.5408, "grad_norm": 2.491387078862317e-07, "learning_rate": 1.639584e-05, "loss": 0.0, "step": 33800 }, { "epoch": 0.5424, "grad_norm": 2.3757078793096298e-07, "learning_rate": 1.6385173333333336e-05, "loss": 0.0, "step": 33900 }, { "epoch": 0.544, "grad_norm": 2.5188003860421304e-07, "learning_rate": 1.6374506666666667e-05, "loss": 0.0, "step": 34000 }, { "epoch": 0.5456, "grad_norm": 2.4522555008843483e-07, "learning_rate": 1.6363840000000004e-05, "loss": 0.0, "step": 34100 }, { "epoch": 0.5472, "grad_norm": 2.2814373323853943e-07, "learning_rate": 1.6353173333333334e-05, "loss": 0.0, "step": 34200 }, { "epoch": 0.5488, "grad_norm": 2.2816611533471587e-07, "learning_rate": 1.6342506666666668e-05, "loss": 0.0, "step": 34300 }, { "epoch": 0.5504, "grad_norm": 2.4142485699485405e-07, "learning_rate": 1.633184e-05, "loss": 0.0, "step": 34400 }, { "epoch": 0.552, "grad_norm": 2.420672728931095e-07, "learning_rate": 1.6321173333333335e-05, "loss": 0.0, "step": 34500 }, { "epoch": 0.5536, "grad_norm": 1.964133815590685e-07, "learning_rate": 1.631050666666667e-05, "loss": 0.0, "step": 34600 }, { "epoch": 0.5552, "grad_norm": 1.8994630579527438e-07, "learning_rate": 1.6299840000000002e-05, "loss": 0.0, "step": 34700 }, { "epoch": 0.5568, "grad_norm": 1.916166212367898e-07, "learning_rate": 1.6289173333333336e-05, "loss": 0.0, "step": 34800 }, { "epoch": 0.5584, "grad_norm": 1.9209957713428594e-07, "learning_rate": 1.6278506666666666e-05, "loss": 0.0, "step": 34900 }, { "epoch": 0.56, "grad_norm": 1.820495896254215e-07, "learning_rate": 1.626784e-05, "loss": 0.0, "step": 35000 }, { "epoch": 0.5616, "grad_norm": 1.488028118501461e-07, "learning_rate": 1.6257173333333333e-05, "loss": 0.0, "step": 35100 }, { "epoch": 0.5632, "grad_norm": 1.6596105467669986e-07, "learning_rate": 1.6246506666666667e-05, "loss": 0.0, "step": 35200 }, { "epoch": 0.5648, "grad_norm": 1.5144816245538095e-07, "learning_rate": 1.623584e-05, "loss": 0.0, "step": 35300 }, { "epoch": 0.5664, "grad_norm": 1.71941024973421e-07, "learning_rate": 1.6225173333333334e-05, "loss": 0.0, "step": 35400 }, { "epoch": 0.568, "grad_norm": 1.6939323188580602e-07, "learning_rate": 1.6214506666666668e-05, "loss": 0.0, "step": 35500 }, { "epoch": 0.5696, "grad_norm": 1.3844817203789717e-07, "learning_rate": 1.6203840000000002e-05, "loss": 0.0, "step": 35600 }, { "epoch": 0.5712, "grad_norm": 1.4256781355470594e-07, "learning_rate": 1.6193173333333335e-05, "loss": 0.0, "step": 35700 }, { "epoch": 0.5728, "grad_norm": 1.3021079325881146e-07, "learning_rate": 1.618250666666667e-05, "loss": 0.0, "step": 35800 }, { "epoch": 0.5744, "grad_norm": 1.2057364529027836e-07, "learning_rate": 1.617184e-05, "loss": 0.0, "step": 35900 }, { "epoch": 0.576, "grad_norm": 1.2874994581579813e-07, "learning_rate": 1.6161173333333336e-05, "loss": 0.0, "step": 36000 }, { "epoch": 0.5776, "grad_norm": 1.333337138476054e-07, "learning_rate": 1.6150506666666667e-05, "loss": 0.0, "step": 36100 }, { "epoch": 0.5792, "grad_norm": 1.192641150282725e-07, "learning_rate": 1.6139840000000004e-05, "loss": 0.0, "step": 36200 }, { "epoch": 0.5808, "grad_norm": 9.963146396785305e-08, "learning_rate": 1.6129173333333334e-05, "loss": 0.0, "step": 36300 }, { "epoch": 0.5824, "grad_norm": 1.1367530561301464e-07, "learning_rate": 1.6118506666666668e-05, "loss": 0.0, "step": 36400 }, { "epoch": 0.584, "grad_norm": 9.971628145422073e-08, "learning_rate": 1.610784e-05, "loss": 0.0, "step": 36500 }, { "epoch": 0.5856, "grad_norm": 9.849477322632083e-08, "learning_rate": 1.6097173333333335e-05, "loss": 0.0, "step": 36600 }, { "epoch": 0.5872, "grad_norm": 8.821568542316527e-08, "learning_rate": 1.608650666666667e-05, "loss": 0.0, "step": 36700 }, { "epoch": 0.5888, "grad_norm": 8.860416045308739e-08, "learning_rate": 1.607584e-05, "loss": 0.0, "step": 36800 }, { "epoch": 0.5904, "grad_norm": 8.838700438218439e-08, "learning_rate": 1.6065173333333336e-05, "loss": 0.0, "step": 36900 }, { "epoch": 0.592, "grad_norm": 9.879371987153718e-08, "learning_rate": 1.6054506666666666e-05, "loss": 0.0, "step": 37000 }, { "epoch": 0.5936, "grad_norm": 8.26242469997851e-08, "learning_rate": 1.6043840000000003e-05, "loss": 0.0, "step": 37100 }, { "epoch": 0.5952, "grad_norm": 7.888654351972946e-08, "learning_rate": 1.6033173333333334e-05, "loss": 0.0, "step": 37200 }, { "epoch": 0.5968, "grad_norm": 7.877645202825079e-08, "learning_rate": 1.6022613333333333e-05, "loss": 0.0, "step": 37300 }, { "epoch": 0.5984, "grad_norm": 7.30638873847056e-08, "learning_rate": 1.601194666666667e-05, "loss": 0.0, "step": 37400 }, { "epoch": 0.6, "grad_norm": 7.81067299726601e-08, "learning_rate": 1.600128e-05, "loss": 0.0, "step": 37500 }, { "epoch": 0.6016, "grad_norm": 6.583578482377561e-08, "learning_rate": 1.5990613333333334e-05, "loss": 0.0, "step": 37600 }, { "epoch": 0.6032, "grad_norm": 6.778850547561888e-08, "learning_rate": 1.5979946666666668e-05, "loss": 0.0, "step": 37700 }, { "epoch": 0.6048, "grad_norm": 6.064895785584667e-08, "learning_rate": 1.5969280000000002e-05, "loss": 0.0, "step": 37800 }, { "epoch": 0.6064, "grad_norm": 6.343422143118005e-08, "learning_rate": 1.5958613333333335e-05, "loss": 0.0, "step": 37900 }, { "epoch": 0.608, "grad_norm": 5.385956569625705e-08, "learning_rate": 1.5947946666666666e-05, "loss": 0.0, "step": 38000 }, { "epoch": 0.6096, "grad_norm": 5.910140643550221e-08, "learning_rate": 1.5937280000000003e-05, "loss": 0.0, "step": 38100 }, { "epoch": 0.6112, "grad_norm": 5.531205360398417e-08, "learning_rate": 1.5926613333333333e-05, "loss": 0.0, "step": 38200 }, { "epoch": 0.6128, "grad_norm": 4.7664677538250544e-08, "learning_rate": 1.591594666666667e-05, "loss": 0.0, "step": 38300 }, { "epoch": 0.6144, "grad_norm": 5.105589906406749e-08, "learning_rate": 1.590528e-05, "loss": 0.0, "step": 38400 }, { "epoch": 0.616, "grad_norm": 4.647805340596278e-08, "learning_rate": 1.5894613333333334e-05, "loss": 0.0, "step": 38500 }, { "epoch": 0.6176, "grad_norm": 4.669184150429828e-08, "learning_rate": 1.5883946666666668e-05, "loss": 0.0, "step": 38600 }, { "epoch": 0.6192, "grad_norm": 4.602827630151296e-08, "learning_rate": 1.587328e-05, "loss": 0.0, "step": 38700 }, { "epoch": 0.6208, "grad_norm": 4.170912504264379e-08, "learning_rate": 1.5862613333333335e-05, "loss": 0.0, "step": 38800 }, { "epoch": 0.6224, "grad_norm": 3.930464487211793e-08, "learning_rate": 1.585194666666667e-05, "loss": 0.0, "step": 38900 }, { "epoch": 0.624, "grad_norm": 5.003272818271398e-08, "learning_rate": 1.5841280000000002e-05, "loss": 0.0, "step": 39000 }, { "epoch": 0.6256, "grad_norm": 3.810775339729844e-08, "learning_rate": 1.5830613333333336e-05, "loss": 0.0, "step": 39100 }, { "epoch": 0.6272, "grad_norm": 3.707847540113107e-08, "learning_rate": 1.581994666666667e-05, "loss": 0.0, "step": 39200 }, { "epoch": 0.6288, "grad_norm": 3.4199096887732594e-08, "learning_rate": 1.580938666666667e-05, "loss": 0.0, "step": 39300 }, { "epoch": 0.6304, "grad_norm": 3.327440367684176e-08, "learning_rate": 1.579872e-05, "loss": 0.0, "step": 39400 }, { "epoch": 0.632, "grad_norm": 3.221984101742237e-08, "learning_rate": 1.5788053333333337e-05, "loss": 0.0, "step": 39500 }, { "epoch": 0.6336, "grad_norm": 3.06969596408635e-08, "learning_rate": 1.5777386666666667e-05, "loss": 0.0, "step": 39600 }, { "epoch": 0.6352, "grad_norm": 2.9305402549084647e-08, "learning_rate": 1.576672e-05, "loss": 0.0, "step": 39700 }, { "epoch": 0.6368, "grad_norm": 3.1664541211284813e-08, "learning_rate": 1.5756053333333334e-05, "loss": 0.0, "step": 39800 }, { "epoch": 0.6384, "grad_norm": 3.058496389485299e-08, "learning_rate": 1.5745386666666668e-05, "loss": 0.0, "step": 39900 }, { "epoch": 0.64, "grad_norm": 2.8967381382472013e-08, "learning_rate": 1.5734720000000002e-05, "loss": 0.0, "step": 40000 }, { "epoch": 0.6416, "grad_norm": 2.6066624414511352e-08, "learning_rate": 1.5724053333333335e-05, "loss": 0.0, "step": 40100 }, { "epoch": 0.6432, "grad_norm": 2.3177223695824978e-08, "learning_rate": 1.571338666666667e-05, "loss": 0.0, "step": 40200 }, { "epoch": 0.6448, "grad_norm": 2.419685785071124e-08, "learning_rate": 1.570272e-05, "loss": 0.0, "step": 40300 }, { "epoch": 0.6464, "grad_norm": 2.4422618594144296e-08, "learning_rate": 1.5692053333333336e-05, "loss": 0.0, "step": 40400 }, { "epoch": 0.648, "grad_norm": 2.526655507040232e-08, "learning_rate": 1.5681386666666667e-05, "loss": 0.0, "step": 40500 }, { "epoch": 0.6496, "grad_norm": 2.320962089186196e-08, "learning_rate": 1.567072e-05, "loss": 0.0, "step": 40600 }, { "epoch": 0.6512, "grad_norm": 2.0410428902550848e-08, "learning_rate": 1.5660053333333334e-05, "loss": 0.0, "step": 40700 }, { "epoch": 0.6528, "grad_norm": 2.2334850413585627e-08, "learning_rate": 1.5649386666666668e-05, "loss": 0.0, "step": 40800 }, { "epoch": 0.6544, "grad_norm": 2.4193813175088508e-08, "learning_rate": 1.563872e-05, "loss": 0.0, "step": 40900 }, { "epoch": 0.656, "grad_norm": 1.9213212354429743e-08, "learning_rate": 1.5628053333333335e-05, "loss": 0.0, "step": 41000 }, { "epoch": 0.6576, "grad_norm": 1.9847044896437183e-08, "learning_rate": 1.561738666666667e-05, "loss": 0.0, "step": 41100 }, { "epoch": 0.6592, "grad_norm": 1.8384987754416215e-08, "learning_rate": 1.5606720000000002e-05, "loss": 0.0, "step": 41200 }, { "epoch": 0.6608, "grad_norm": 1.830431983762537e-08, "learning_rate": 1.559616e-05, "loss": 0.0, "step": 41300 }, { "epoch": 0.6624, "grad_norm": 1.6151531667674135e-08, "learning_rate": 1.5585493333333336e-05, "loss": 0.0, "step": 41400 }, { "epoch": 0.664, "grad_norm": 1.520500525487023e-08, "learning_rate": 1.5574826666666666e-05, "loss": 0.0, "step": 41500 }, { "epoch": 0.6656, "grad_norm": 1.400090354763961e-08, "learning_rate": 1.5564160000000003e-05, "loss": 0.0, "step": 41600 }, { "epoch": 0.6672, "grad_norm": 1.5792524621360826e-08, "learning_rate": 1.5553493333333333e-05, "loss": 0.0, "step": 41700 }, { "epoch": 0.6688, "grad_norm": 1.325526088891138e-08, "learning_rate": 1.5542826666666667e-05, "loss": 0.0, "step": 41800 }, { "epoch": 0.6704, "grad_norm": 1.4574178308635055e-08, "learning_rate": 1.553216e-05, "loss": 0.0, "step": 41900 }, { "epoch": 0.672, "grad_norm": 1.443759423125357e-08, "learning_rate": 1.5521493333333334e-05, "loss": 0.0, "step": 42000 }, { "epoch": 0.6736, "grad_norm": 1.2646203195743055e-08, "learning_rate": 1.5510826666666668e-05, "loss": 0.0, "step": 42100 }, { "epoch": 0.6752, "grad_norm": 1.357729839668309e-08, "learning_rate": 1.5500160000000002e-05, "loss": 0.0, "step": 42200 }, { "epoch": 0.6768, "grad_norm": 1.2999631593402228e-08, "learning_rate": 1.5489493333333335e-05, "loss": 0.0, "step": 42300 }, { "epoch": 0.6784, "grad_norm": 1.2067292942674612e-08, "learning_rate": 1.547882666666667e-05, "loss": 0.0, "step": 42400 }, { "epoch": 0.68, "grad_norm": 1.2314631980814283e-08, "learning_rate": 1.546816e-05, "loss": 0.0, "step": 42500 }, { "epoch": 0.6816, "grad_norm": 1.0934391170280833e-08, "learning_rate": 1.5457493333333336e-05, "loss": 0.0, "step": 42600 }, { "epoch": 0.6832, "grad_norm": 1.2301041074636032e-08, "learning_rate": 1.5446826666666667e-05, "loss": 0.0, "step": 42700 }, { "epoch": 0.6848, "grad_norm": 1.130779558877748e-08, "learning_rate": 1.5436160000000004e-05, "loss": 0.0, "step": 42800 }, { "epoch": 0.6864, "grad_norm": 9.362263853063268e-09, "learning_rate": 1.5425493333333334e-05, "loss": 0.0, "step": 42900 }, { "epoch": 0.688, "grad_norm": 9.903635245223086e-09, "learning_rate": 1.5414826666666668e-05, "loss": 0.0, "step": 43000 }, { "epoch": 0.6896, "grad_norm": 1.0525496918489807e-08, "learning_rate": 1.540416e-05, "loss": 0.0, "step": 43100 }, { "epoch": 0.6912, "grad_norm": 9.31617361032977e-09, "learning_rate": 1.5393493333333335e-05, "loss": 0.0, "step": 43200 }, { "epoch": 0.6928, "grad_norm": 9.237457909705427e-09, "learning_rate": 1.5382933333333335e-05, "loss": 0.0, "step": 43300 }, { "epoch": 0.6944, "grad_norm": 8.73692673764026e-09, "learning_rate": 1.537226666666667e-05, "loss": 0.0, "step": 43400 }, { "epoch": 0.696, "grad_norm": 7.849454419783797e-09, "learning_rate": 1.5361600000000002e-05, "loss": 0.0, "step": 43500 }, { "epoch": 0.6976, "grad_norm": 9.30858945480395e-09, "learning_rate": 1.5350933333333336e-05, "loss": 0.0, "step": 43600 }, { "epoch": 0.6992, "grad_norm": 7.977851268492486e-09, "learning_rate": 1.5340266666666666e-05, "loss": 0.0, "step": 43700 }, { "epoch": 0.7008, "grad_norm": 7.884906061406127e-09, "learning_rate": 1.5329600000000003e-05, "loss": 0.0, "step": 43800 }, { "epoch": 0.7024, "grad_norm": 7.931284073947609e-09, "learning_rate": 1.5318933333333333e-05, "loss": 0.0, "step": 43900 }, { "epoch": 0.704, "grad_norm": 8.136783691270466e-09, "learning_rate": 1.5308266666666667e-05, "loss": 0.0, "step": 44000 }, { "epoch": 0.7056, "grad_norm": 7.810712077116477e-09, "learning_rate": 1.52976e-05, "loss": 0.0, "step": 44100 }, { "epoch": 0.7072, "grad_norm": 7.457011008682457e-09, "learning_rate": 1.5286933333333334e-05, "loss": 0.0, "step": 44200 }, { "epoch": 0.7088, "grad_norm": 5.947691228413987e-09, "learning_rate": 1.5276266666666668e-05, "loss": 0.0, "step": 44300 }, { "epoch": 0.7104, "grad_norm": 5.5936832943359605e-09, "learning_rate": 1.5265600000000002e-05, "loss": 0.0, "step": 44400 }, { "epoch": 0.712, "grad_norm": 6.387094853010922e-09, "learning_rate": 1.5254933333333335e-05, "loss": 0.0, "step": 44500 }, { "epoch": 0.7136, "grad_norm": 6.434018207102099e-09, "learning_rate": 1.5244266666666667e-05, "loss": 0.0, "step": 44600 }, { "epoch": 0.7152, "grad_norm": 7.640887922377715e-09, "learning_rate": 1.5233600000000001e-05, "loss": 0.0, "step": 44700 }, { "epoch": 0.7168, "grad_norm": 6.9532259949767194e-09, "learning_rate": 1.5222933333333335e-05, "loss": 0.0, "step": 44800 }, { "epoch": 0.7184, "grad_norm": 5.967400351636343e-09, "learning_rate": 1.5212266666666668e-05, "loss": 0.0, "step": 44900 }, { "epoch": 0.72, "grad_norm": 6.471727154178097e-09, "learning_rate": 1.52016e-05, "loss": 0.0, "step": 45000 }, { "epoch": 0.7216, "grad_norm": 6.3445786402382964e-09, "learning_rate": 1.5190933333333336e-05, "loss": 0.0, "step": 45100 }, { "epoch": 0.7232, "grad_norm": 5.881137354890598e-09, "learning_rate": 1.5180266666666668e-05, "loss": 0.0, "step": 45200 }, { "epoch": 0.7248, "grad_norm": 6.409100361537412e-09, "learning_rate": 1.5169706666666667e-05, "loss": 0.0, "step": 45300 }, { "epoch": 0.7264, "grad_norm": 5.837366146010936e-09, "learning_rate": 1.5159040000000001e-05, "loss": 0.0, "step": 45400 }, { "epoch": 0.728, "grad_norm": 5.142333669994059e-09, "learning_rate": 1.5148373333333335e-05, "loss": 0.0, "step": 45500 }, { "epoch": 0.7296, "grad_norm": 5.3732072125001196e-09, "learning_rate": 1.5137706666666667e-05, "loss": 0.0, "step": 45600 }, { "epoch": 0.7312, "grad_norm": 5.1184545490912114e-09, "learning_rate": 1.5127040000000002e-05, "loss": 0.0, "step": 45700 }, { "epoch": 0.7328, "grad_norm": 4.9866528684106015e-09, "learning_rate": 1.5116373333333334e-05, "loss": 0.0, "step": 45800 }, { "epoch": 0.7344, "grad_norm": 5.368807620698135e-09, "learning_rate": 1.5105706666666668e-05, "loss": 0.0, "step": 45900 }, { "epoch": 0.736, "grad_norm": 4.762381600187382e-09, "learning_rate": 1.5095040000000001e-05, "loss": 0.0, "step": 46000 }, { "epoch": 0.7376, "grad_norm": 4.221057281483809e-09, "learning_rate": 1.5084373333333335e-05, "loss": 0.0, "step": 46100 }, { "epoch": 0.7392, "grad_norm": 5.685349524497951e-09, "learning_rate": 1.5073706666666667e-05, "loss": 0.0, "step": 46200 }, { "epoch": 0.7408, "grad_norm": 4.665808184256548e-09, "learning_rate": 1.5063040000000002e-05, "loss": 0.0, "step": 46300 }, { "epoch": 0.7424, "grad_norm": 4.947431353485854e-09, "learning_rate": 1.5052373333333334e-05, "loss": 0.0, "step": 46400 }, { "epoch": 0.744, "grad_norm": 4.350499516192485e-09, "learning_rate": 1.504170666666667e-05, "loss": 0.0, "step": 46500 }, { "epoch": 0.7456, "grad_norm": 4.42672432043878e-09, "learning_rate": 1.5031040000000002e-05, "loss": 0.0, "step": 46600 }, { "epoch": 0.7472, "grad_norm": 4.635956507570427e-09, "learning_rate": 1.5020373333333334e-05, "loss": 0.0, "step": 46700 }, { "epoch": 0.7488, "grad_norm": 4.093439365249196e-09, "learning_rate": 1.5009706666666667e-05, "loss": 0.0, "step": 46800 }, { "epoch": 0.7504, "grad_norm": 4.4049284220193385e-09, "learning_rate": 1.4999040000000001e-05, "loss": 0.0, "step": 46900 }, { "epoch": 0.752, "grad_norm": 4.6566723810315125e-09, "learning_rate": 1.4988373333333335e-05, "loss": 0.0, "step": 47000 }, { "epoch": 0.7536, "grad_norm": 3.575250540066577e-09, "learning_rate": 1.4977706666666667e-05, "loss": 0.0, "step": 47100 }, { "epoch": 0.7552, "grad_norm": 4.647517037881244e-09, "learning_rate": 1.4967040000000002e-05, "loss": 0.0, "step": 47200 }, { "epoch": 0.7568, "grad_norm": 3.6755953836120625e-09, "learning_rate": 1.4956480000000002e-05, "loss": 0.0, "step": 47300 }, { "epoch": 0.7584, "grad_norm": 3.9804803897425245e-09, "learning_rate": 1.4945813333333334e-05, "loss": 0.0, "step": 47400 }, { "epoch": 0.76, "grad_norm": 3.5315350643827514e-09, "learning_rate": 1.493514666666667e-05, "loss": 0.0, "step": 47500 }, { "epoch": 0.7616, "grad_norm": 3.650338031846445e-09, "learning_rate": 1.4924480000000001e-05, "loss": 0.0, "step": 47600 }, { "epoch": 0.7632, "grad_norm": 3.916106550150289e-09, "learning_rate": 1.4913813333333333e-05, "loss": 0.0, "step": 47700 }, { "epoch": 0.7648, "grad_norm": 3.62517726948397e-09, "learning_rate": 1.4903146666666668e-05, "loss": 0.0, "step": 47800 }, { "epoch": 0.7664, "grad_norm": 3.878641408050498e-09, "learning_rate": 1.489248e-05, "loss": 0.0, "step": 47900 }, { "epoch": 0.768, "grad_norm": 4.047121304751045e-09, "learning_rate": 1.4881813333333334e-05, "loss": 0.0, "step": 48000 }, { "epoch": 0.7696, "grad_norm": 3.005124149524363e-09, "learning_rate": 1.4871146666666668e-05, "loss": 0.0, "step": 48100 }, { "epoch": 0.7712, "grad_norm": 3.664456960095208e-09, "learning_rate": 1.4860480000000001e-05, "loss": 0.0, "step": 48200 }, { "epoch": 0.7728, "grad_norm": 3.27337112970838e-09, "learning_rate": 1.4849813333333333e-05, "loss": 0.0, "step": 48300 }, { "epoch": 0.7744, "grad_norm": 3.1061264671450317e-09, "learning_rate": 1.4839146666666669e-05, "loss": 0.0, "step": 48400 }, { "epoch": 0.776, "grad_norm": 2.910289342850092e-09, "learning_rate": 1.482848e-05, "loss": 0.0, "step": 48500 }, { "epoch": 0.7776, "grad_norm": 3.726303710038792e-09, "learning_rate": 1.4817813333333334e-05, "loss": 0.0, "step": 48600 }, { "epoch": 0.7792, "grad_norm": 3.082652577646172e-09, "learning_rate": 1.4807146666666668e-05, "loss": 0.0, "step": 48700 }, { "epoch": 0.7808, "grad_norm": 2.9859092975925705e-09, "learning_rate": 1.4796480000000002e-05, "loss": 0.0, "step": 48800 }, { "epoch": 0.7824, "grad_norm": 3.238060486410177e-09, "learning_rate": 1.4785813333333334e-05, "loss": 0.0, "step": 48900 }, { "epoch": 0.784, "grad_norm": 2.965995005155264e-09, "learning_rate": 1.4775146666666669e-05, "loss": 0.0, "step": 49000 }, { "epoch": 0.7856, "grad_norm": 2.5330839648063375e-09, "learning_rate": 1.4764480000000001e-05, "loss": 0.0, "step": 49100 }, { "epoch": 0.7872, "grad_norm": 2.8175941579888786e-09, "learning_rate": 1.4753813333333336e-05, "loss": 0.0, "step": 49200 }, { "epoch": 0.7888, "grad_norm": 2.6512554374136243e-09, "learning_rate": 1.4743253333333335e-05, "loss": 0.0, "step": 49300 }, { "epoch": 0.7904, "grad_norm": 3.005082183094032e-09, "learning_rate": 1.4732586666666668e-05, "loss": 0.0, "step": 49400 }, { "epoch": 0.792, "grad_norm": 2.7331856777834673e-09, "learning_rate": 1.472192e-05, "loss": 0.0, "step": 49500 }, { "epoch": 0.7936, "grad_norm": 2.535325061003846e-09, "learning_rate": 1.4711253333333336e-05, "loss": 0.0, "step": 49600 }, { "epoch": 0.7952, "grad_norm": 2.5567281625171745e-09, "learning_rate": 1.4700586666666667e-05, "loss": 0.0, "step": 49700 }, { "epoch": 0.7968, "grad_norm": 2.561580725313206e-09, "learning_rate": 1.4689920000000001e-05, "loss": 0.0, "step": 49800 }, { "epoch": 0.7984, "grad_norm": 2.534361831507681e-09, "learning_rate": 1.4679253333333335e-05, "loss": 0.0, "step": 49900 }, { "epoch": 0.8, "grad_norm": 2.616443062208873e-09, "learning_rate": 1.4668586666666668e-05, "loss": 0.0, "step": 50000 }, { "epoch": 0.8016, "grad_norm": 3.016526806121078e-09, "learning_rate": 1.465792e-05, "loss": 0.0, "step": 50100 }, { "epoch": 0.8032, "grad_norm": 2.5457300711906328e-09, "learning_rate": 1.4647253333333336e-05, "loss": 0.0, "step": 50200 }, { "epoch": 0.8048, "grad_norm": 2.6220687843192536e-09, "learning_rate": 1.4636586666666668e-05, "loss": 0.0, "step": 50300 }, { "epoch": 0.8064, "grad_norm": 2.8558380105181413e-09, "learning_rate": 1.462592e-05, "loss": 0.0, "step": 50400 }, { "epoch": 0.808, "grad_norm": 2.5608188902737083e-09, "learning_rate": 1.4615253333333335e-05, "loss": 0.0, "step": 50500 }, { "epoch": 0.8096, "grad_norm": 2.820969235983739e-09, "learning_rate": 1.4604586666666667e-05, "loss": 0.0, "step": 50600 }, { "epoch": 0.8112, "grad_norm": 2.7018629555897178e-09, "learning_rate": 1.459392e-05, "loss": 0.0, "step": 50700 }, { "epoch": 0.8128, "grad_norm": 2.4657107466907746e-09, "learning_rate": 1.4583253333333334e-05, "loss": 0.0, "step": 50800 }, { "epoch": 0.8144, "grad_norm": 2.240560625921262e-09, "learning_rate": 1.4572586666666668e-05, "loss": 0.0, "step": 50900 }, { "epoch": 0.816, "grad_norm": 2.1840855790600244e-09, "learning_rate": 1.456192e-05, "loss": 0.0, "step": 51000 }, { "epoch": 0.8176, "grad_norm": 2.396337350774047e-09, "learning_rate": 1.4551253333333335e-05, "loss": 0.0, "step": 51100 }, { "epoch": 0.8192, "grad_norm": 2.2762063345282968e-09, "learning_rate": 1.4540586666666667e-05, "loss": 0.0, "step": 51200 }, { "epoch": 0.8208, "grad_norm": 2.1621027190832365e-09, "learning_rate": 1.4530026666666667e-05, "loss": 0.0, "step": 51300 }, { "epoch": 0.8224, "grad_norm": 2.2733732674140583e-09, "learning_rate": 1.4519360000000001e-05, "loss": 0.0, "step": 51400 }, { "epoch": 0.824, "grad_norm": 2.062521931023298e-09, "learning_rate": 1.4508693333333335e-05, "loss": 0.0, "step": 51500 }, { "epoch": 0.8256, "grad_norm": 2.5127442349059947e-09, "learning_rate": 1.4498026666666666e-05, "loss": 0.0, "step": 51600 }, { "epoch": 0.8272, "grad_norm": 2.24668172954523e-09, "learning_rate": 1.4487360000000002e-05, "loss": 0.0, "step": 51700 }, { "epoch": 0.8288, "grad_norm": 2.0432591174568415e-09, "learning_rate": 1.4476693333333334e-05, "loss": 0.0, "step": 51800 }, { "epoch": 0.8304, "grad_norm": 2.4273549836806296e-09, "learning_rate": 1.4466026666666667e-05, "loss": 0.0, "step": 51900 }, { "epoch": 0.832, "grad_norm": 2.0034554015779804e-09, "learning_rate": 1.4455360000000001e-05, "loss": 0.0, "step": 52000 }, { "epoch": 0.8336, "grad_norm": 1.9104446913331685e-09, "learning_rate": 1.4444693333333335e-05, "loss": 0.0, "step": 52100 }, { "epoch": 0.8352, "grad_norm": 1.9703714215779655e-09, "learning_rate": 1.4434026666666667e-05, "loss": 0.0, "step": 52200 }, { "epoch": 0.8368, "grad_norm": 1.8734007678489206e-09, "learning_rate": 1.4423360000000002e-05, "loss": 0.0, "step": 52300 }, { "epoch": 0.8384, "grad_norm": 2.433496959497461e-09, "learning_rate": 1.4412693333333334e-05, "loss": 0.0, "step": 52400 }, { "epoch": 0.84, "grad_norm": 1.915407166208638e-09, "learning_rate": 1.440202666666667e-05, "loss": 0.0, "step": 52500 }, { "epoch": 0.8416, "grad_norm": 2.026956380518641e-09, "learning_rate": 1.4391360000000001e-05, "loss": 0.0, "step": 52600 }, { "epoch": 0.8432, "grad_norm": 1.8809005464248685e-09, "learning_rate": 1.4380693333333335e-05, "loss": 0.0, "step": 52700 }, { "epoch": 0.8448, "grad_norm": 1.7579672162426618e-09, "learning_rate": 1.4370026666666667e-05, "loss": 0.0, "step": 52800 }, { "epoch": 0.8464, "grad_norm": 1.972140895034613e-09, "learning_rate": 1.4359360000000002e-05, "loss": 0.0, "step": 52900 }, { "epoch": 0.848, "grad_norm": 2.309159086166801e-09, "learning_rate": 1.4348693333333334e-05, "loss": 0.0, "step": 53000 }, { "epoch": 0.8496, "grad_norm": 2.2458994664020793e-09, "learning_rate": 1.4338026666666666e-05, "loss": 0.0, "step": 53100 }, { "epoch": 0.8512, "grad_norm": 2.3398747384106855e-09, "learning_rate": 1.4327360000000002e-05, "loss": 0.0, "step": 53200 }, { "epoch": 0.8528, "grad_norm": 1.8828840708806638e-09, "learning_rate": 1.4316800000000002e-05, "loss": 0.0, "step": 53300 }, { "epoch": 0.8544, "grad_norm": 1.7677028729679023e-09, "learning_rate": 1.4306133333333334e-05, "loss": 0.0, "step": 53400 }, { "epoch": 0.856, "grad_norm": 1.8229453502272008e-09, "learning_rate": 1.4295466666666669e-05, "loss": 0.0, "step": 53500 }, { "epoch": 0.8576, "grad_norm": 1.7983363687079645e-09, "learning_rate": 1.4284800000000001e-05, "loss": 0.0, "step": 53600 }, { "epoch": 0.8592, "grad_norm": 1.6915907563586075e-09, "learning_rate": 1.4274133333333336e-05, "loss": 0.0, "step": 53700 }, { "epoch": 0.8608, "grad_norm": 2.047505054392218e-09, "learning_rate": 1.4263466666666668e-05, "loss": 0.0, "step": 53800 }, { "epoch": 0.8624, "grad_norm": 1.645070635269974e-09, "learning_rate": 1.4252800000000002e-05, "loss": 0.0, "step": 53900 }, { "epoch": 0.864, "grad_norm": 1.6591610307870042e-09, "learning_rate": 1.4242133333333334e-05, "loss": 0.0, "step": 54000 }, { "epoch": 0.8656, "grad_norm": 1.6760498544599045e-09, "learning_rate": 1.4231466666666667e-05, "loss": 0.0, "step": 54100 }, { "epoch": 0.8672, "grad_norm": 1.8105128507528434e-09, "learning_rate": 1.4220800000000001e-05, "loss": 0.0, "step": 54200 }, { "epoch": 0.8688, "grad_norm": 1.724317466589298e-09, "learning_rate": 1.4210133333333333e-05, "loss": 0.0, "step": 54300 }, { "epoch": 0.8704, "grad_norm": 1.5064500757944188e-09, "learning_rate": 1.4199466666666668e-05, "loss": 0.0, "step": 54400 }, { "epoch": 0.872, "grad_norm": 2.0849286741508877e-09, "learning_rate": 1.41888e-05, "loss": 0.0, "step": 54500 }, { "epoch": 0.8736, "grad_norm": 1.595770737772284e-09, "learning_rate": 1.4178133333333334e-05, "loss": 0.0, "step": 54600 }, { "epoch": 0.8752, "grad_norm": 1.4647668633571698e-09, "learning_rate": 1.4167466666666668e-05, "loss": 0.0, "step": 54700 }, { "epoch": 0.8768, "grad_norm": 1.5293233346369561e-09, "learning_rate": 1.4156800000000001e-05, "loss": 0.0, "step": 54800 }, { "epoch": 0.8784, "grad_norm": 1.5121590646316463e-09, "learning_rate": 1.4146133333333333e-05, "loss": 0.0, "step": 54900 }, { "epoch": 0.88, "grad_norm": 1.7063028767694277e-09, "learning_rate": 1.4135466666666669e-05, "loss": 0.0, "step": 55000 }, { "epoch": 0.8816, "grad_norm": 1.6600216756756936e-09, "learning_rate": 1.41248e-05, "loss": 0.0, "step": 55100 }, { "epoch": 0.8832, "grad_norm": 1.6948151770890263e-09, "learning_rate": 1.4114133333333336e-05, "loss": 0.0, "step": 55200 }, { "epoch": 0.8848, "grad_norm": 1.6159773519319742e-09, "learning_rate": 1.4103573333333334e-05, "loss": 0.0, "step": 55300 }, { "epoch": 0.8864, "grad_norm": 1.5366856676024554e-09, "learning_rate": 1.4092906666666668e-05, "loss": 0.0, "step": 55400 }, { "epoch": 0.888, "grad_norm": 1.4232574008232746e-09, "learning_rate": 1.408224e-05, "loss": 0.0, "step": 55500 }, { "epoch": 0.8896, "grad_norm": 1.7679161468109328e-09, "learning_rate": 1.4071573333333335e-05, "loss": 0.0, "step": 55600 }, { "epoch": 0.8912, "grad_norm": 1.4493197753040477e-09, "learning_rate": 1.4060906666666667e-05, "loss": 0.0, "step": 55700 }, { "epoch": 0.8928, "grad_norm": 1.4467651521243852e-09, "learning_rate": 1.4050240000000001e-05, "loss": 0.0, "step": 55800 }, { "epoch": 0.8944, "grad_norm": 1.46508472020912e-09, "learning_rate": 1.4039573333333335e-05, "loss": 0.0, "step": 55900 }, { "epoch": 0.896, "grad_norm": 1.4291234862184865e-09, "learning_rate": 1.4028906666666668e-05, "loss": 0.0, "step": 56000 }, { "epoch": 0.8976, "grad_norm": 1.8533777845775035e-09, "learning_rate": 1.401824e-05, "loss": 0.0, "step": 56100 }, { "epoch": 0.8992, "grad_norm": 1.6173311578882021e-09, "learning_rate": 1.4007573333333335e-05, "loss": 0.0, "step": 56200 }, { "epoch": 0.9008, "grad_norm": 1.6096453059333271e-09, "learning_rate": 1.3996906666666667e-05, "loss": 0.0, "step": 56300 }, { "epoch": 0.9024, "grad_norm": 1.5629680882867092e-09, "learning_rate": 1.3986240000000003e-05, "loss": 0.0, "step": 56400 }, { "epoch": 0.904, "grad_norm": 1.6487086140770657e-09, "learning_rate": 1.3975573333333335e-05, "loss": 0.0, "step": 56500 }, { "epoch": 0.9056, "grad_norm": 1.561828555374234e-09, "learning_rate": 1.3964906666666668e-05, "loss": 0.0, "step": 56600 }, { "epoch": 0.9072, "grad_norm": 1.6236398892033321e-09, "learning_rate": 1.395424e-05, "loss": 0.0, "step": 56700 }, { "epoch": 0.9088, "grad_norm": 1.3952866639854733e-09, "learning_rate": 1.3943573333333334e-05, "loss": 0.0, "step": 56800 }, { "epoch": 0.9104, "grad_norm": 1.4216349208950874e-09, "learning_rate": 1.3932906666666668e-05, "loss": 0.0, "step": 56900 }, { "epoch": 0.912, "grad_norm": 1.4121263047783827e-09, "learning_rate": 1.392224e-05, "loss": 0.0, "step": 57000 }, { "epoch": 0.9136, "grad_norm": 1.7500071392007044e-09, "learning_rate": 1.3911573333333335e-05, "loss": 0.0, "step": 57100 }, { "epoch": 0.9152, "grad_norm": 1.6262031721225867e-09, "learning_rate": 1.3900906666666667e-05, "loss": 0.0, "step": 57200 }, { "epoch": 0.9168, "grad_norm": 1.3557924782858777e-09, "learning_rate": 1.3890346666666667e-05, "loss": 0.0, "step": 57300 }, { "epoch": 0.9184, "grad_norm": 1.4752008503648995e-09, "learning_rate": 1.3879680000000002e-05, "loss": 0.0, "step": 57400 }, { "epoch": 0.92, "grad_norm": 1.3589706027161697e-09, "learning_rate": 1.3869013333333334e-05, "loss": 0.0, "step": 57500 }, { "epoch": 0.9216, "grad_norm": 1.4188084040966942e-09, "learning_rate": 1.385834666666667e-05, "loss": 0.0, "step": 57600 }, { "epoch": 0.9232, "grad_norm": 1.5505075001698287e-09, "learning_rate": 1.3847680000000002e-05, "loss": 0.0, "step": 57700 }, { "epoch": 0.9248, "grad_norm": 1.5491343763329724e-09, "learning_rate": 1.3837013333333334e-05, "loss": 0.0, "step": 57800 }, { "epoch": 0.9264, "grad_norm": 1.2985361674822116e-09, "learning_rate": 1.3826346666666667e-05, "loss": 0.0, "step": 57900 }, { "epoch": 0.928, "grad_norm": 1.167143826030781e-09, "learning_rate": 1.3815680000000001e-05, "loss": 0.0, "step": 58000 }, { "epoch": 0.9296, "grad_norm": 1.291968310113134e-09, "learning_rate": 1.3805013333333335e-05, "loss": 0.0, "step": 58100 }, { "epoch": 0.9312, "grad_norm": 1.3477001736816874e-09, "learning_rate": 1.3794346666666666e-05, "loss": 0.0, "step": 58200 }, { "epoch": 0.9328, "grad_norm": 1.2875156496505724e-09, "learning_rate": 1.3783680000000002e-05, "loss": 0.0, "step": 58300 }, { "epoch": 0.9344, "grad_norm": 1.3489318551052065e-09, "learning_rate": 1.3773013333333334e-05, "loss": 0.0, "step": 58400 }, { "epoch": 0.936, "grad_norm": 1.3920068431261257e-09, "learning_rate": 1.3762346666666667e-05, "loss": 0.0, "step": 58500 }, { "epoch": 0.9376, "grad_norm": 1.8122923162167126e-09, "learning_rate": 1.3751680000000001e-05, "loss": 0.0, "step": 58600 }, { "epoch": 0.9392, "grad_norm": 1.2962692030882295e-09, "learning_rate": 1.3741013333333335e-05, "loss": 0.0, "step": 58700 }, { "epoch": 0.9408, "grad_norm": 1.5180040557893903e-09, "learning_rate": 1.3730346666666667e-05, "loss": 0.0, "step": 58800 }, { "epoch": 0.9424, "grad_norm": 1.237118185670738e-09, "learning_rate": 1.3719680000000002e-05, "loss": 0.0, "step": 58900 }, { "epoch": 0.944, "grad_norm": 1.2209625532833002e-09, "learning_rate": 1.3709013333333334e-05, "loss": 0.0, "step": 59000 }, { "epoch": 0.9456, "grad_norm": 1.1343942452057831e-09, "learning_rate": 1.369834666666667e-05, "loss": 0.0, "step": 59100 }, { "epoch": 0.9472, "grad_norm": 1.5663039754088004e-09, "learning_rate": 1.3687680000000001e-05, "loss": 0.0, "step": 59200 }, { "epoch": 0.9488, "grad_norm": 1.328584242621389e-09, "learning_rate": 1.3677120000000001e-05, "loss": 0.0, "step": 59300 }, { "epoch": 0.9504, "grad_norm": 1.2603350585393969e-09, "learning_rate": 1.3666453333333333e-05, "loss": 0.0, "step": 59400 }, { "epoch": 0.952, "grad_norm": 1.3242087426590388e-09, "learning_rate": 1.3655786666666669e-05, "loss": 0.0, "step": 59500 }, { "epoch": 0.9536, "grad_norm": 1.200673116485973e-09, "learning_rate": 1.364512e-05, "loss": 0.0, "step": 59600 }, { "epoch": 0.9552, "grad_norm": 1.431109231120331e-09, "learning_rate": 1.3634453333333336e-05, "loss": 0.0, "step": 59700 }, { "epoch": 0.9568, "grad_norm": 1.4143181070735977e-09, "learning_rate": 1.3623786666666668e-05, "loss": 0.0, "step": 59800 }, { "epoch": 0.9584, "grad_norm": 1.1156711110515971e-09, "learning_rate": 1.3613120000000002e-05, "loss": 0.0, "step": 59900 }, { "epoch": 0.96, "grad_norm": 1.215820111255539e-09, "learning_rate": 1.3602453333333334e-05, "loss": 0.0, "step": 60000 }, { "epoch": 0.9616, "grad_norm": 1.0717124965253788e-09, "learning_rate": 1.3591786666666669e-05, "loss": 0.0, "step": 60100 }, { "epoch": 0.9632, "grad_norm": 1.3140745158679579e-09, "learning_rate": 1.358112e-05, "loss": 0.0, "step": 60200 }, { "epoch": 0.9648, "grad_norm": 1.3158559797332714e-09, "learning_rate": 1.3570453333333336e-05, "loss": 0.0, "step": 60300 }, { "epoch": 0.9664, "grad_norm": 1.1407147448849742e-09, "learning_rate": 1.3559786666666668e-05, "loss": 0.0, "step": 60400 }, { "epoch": 0.968, "grad_norm": 1.2518017733498255e-09, "learning_rate": 1.354912e-05, "loss": 0.0, "step": 60500 }, { "epoch": 0.9696, "grad_norm": 1.0706601161203366e-09, "learning_rate": 1.3538453333333334e-05, "loss": 0.0, "step": 60600 }, { "epoch": 0.9712, "grad_norm": 1.2506353730401543e-09, "learning_rate": 1.3527786666666667e-05, "loss": 0.0, "step": 60700 }, { "epoch": 0.9728, "grad_norm": 1.1973613212035161e-09, "learning_rate": 1.3517120000000001e-05, "loss": 0.0, "step": 60800 }, { "epoch": 0.9744, "grad_norm": 1.105602609463574e-09, "learning_rate": 1.3506453333333333e-05, "loss": 0.0, "step": 60900 }, { "epoch": 0.976, "grad_norm": 1.1296757973511262e-09, "learning_rate": 1.3495786666666668e-05, "loss": 0.0, "step": 61000 }, { "epoch": 0.9776, "grad_norm": 1.1829981438893356e-09, "learning_rate": 1.348512e-05, "loss": 0.0, "step": 61100 }, { "epoch": 0.9792, "grad_norm": 1.1169806191091425e-09, "learning_rate": 1.3474453333333336e-05, "loss": 0.0, "step": 61200 }, { "epoch": 0.9808, "grad_norm": 1.0116082416189442e-09, "learning_rate": 1.3463893333333336e-05, "loss": 0.0, "step": 61300 }, { "epoch": 0.9824, "grad_norm": 1.1309302383466502e-09, "learning_rate": 1.3453226666666668e-05, "loss": 0.0, "step": 61400 }, { "epoch": 0.984, "grad_norm": 1.0152529927864862e-09, "learning_rate": 1.344256e-05, "loss": 0.0, "step": 61500 }, { "epoch": 0.9856, "grad_norm": 1.1926426513042543e-09, "learning_rate": 1.3431893333333335e-05, "loss": 0.0, "step": 61600 }, { "epoch": 0.9872, "grad_norm": 1.0562004604253161e-09, "learning_rate": 1.3421226666666667e-05, "loss": 0.0, "step": 61700 }, { "epoch": 0.9888, "grad_norm": 1.2290218842636591e-09, "learning_rate": 1.341056e-05, "loss": 0.0, "step": 61800 }, { "epoch": 0.9904, "grad_norm": 1.3118912622900325e-09, "learning_rate": 1.3399893333333334e-05, "loss": 0.0, "step": 61900 }, { "epoch": 0.992, "grad_norm": 1.089616175065089e-09, "learning_rate": 1.3389226666666668e-05, "loss": 0.0, "step": 62000 }, { "epoch": 0.9936, "grad_norm": 1.0423790719471526e-09, "learning_rate": 1.337856e-05, "loss": 0.0, "step": 62100 }, { "epoch": 0.9952, "grad_norm": 1.2500789292602121e-09, "learning_rate": 1.3367893333333335e-05, "loss": 0.0, "step": 62200 }, { "epoch": 0.9968, "grad_norm": 1.1556530177259106e-09, "learning_rate": 1.3357226666666667e-05, "loss": 0.0, "step": 62300 }, { "epoch": 0.9984, "grad_norm": 9.741868423063238e-10, "learning_rate": 1.3346560000000003e-05, "loss": 0.0, "step": 62400 }, { "epoch": 1.0, "grad_norm": 1.197379306816515e-09, "learning_rate": 1.3335893333333335e-05, "loss": 0.0, "step": 62500 }, { "epoch": 1.0, "eval_accuracy": 1.0, "eval_f1": 1.0, "eval_loss": 0.0, "eval_precision": 1.0, "eval_recall": 1.0, "eval_runtime": 8.1185, "eval_samples_per_second": 615.878, "eval_steps_per_second": 19.339, "step": 62500 }, { "epoch": 1.0016, "grad_norm": 1.0374306969040958e-09, "learning_rate": 1.3325226666666668e-05, "loss": 0.0, "step": 62600 }, { "epoch": 1.0032, "grad_norm": 1.1056192628089434e-09, "learning_rate": 1.331456e-05, "loss": 0.0, "step": 62700 }, { "epoch": 1.0048, "grad_norm": 9.899252528811076e-10, "learning_rate": 1.3303893333333335e-05, "loss": 0.0, "step": 62800 }, { "epoch": 1.0064, "grad_norm": 1.14032006059972e-09, "learning_rate": 1.3293226666666667e-05, "loss": 0.0, "step": 62900 }, { "epoch": 1.008, "grad_norm": 1.0051284249357195e-09, "learning_rate": 1.3282560000000003e-05, "loss": 0.0, "step": 63000 }, { "epoch": 1.0096, "grad_norm": 1.096616464302258e-09, "learning_rate": 1.3271893333333335e-05, "loss": 0.0, "step": 63100 }, { "epoch": 1.0112, "grad_norm": 1.018887418879899e-09, "learning_rate": 1.3261226666666667e-05, "loss": 0.0, "step": 63200 }, { "epoch": 1.0128, "grad_norm": 1.2445182662190746e-09, "learning_rate": 1.3250666666666667e-05, "loss": 0.0, "step": 63300 }, { "epoch": 1.0144, "grad_norm": 1.0842896580598449e-09, "learning_rate": 1.3240000000000002e-05, "loss": 0.0, "step": 63400 }, { "epoch": 1.016, "grad_norm": 1.0205781775241007e-09, "learning_rate": 1.3229333333333334e-05, "loss": 0.0, "step": 63500 }, { "epoch": 1.0176, "grad_norm": 9.283709911933613e-10, "learning_rate": 1.321866666666667e-05, "loss": 0.0, "step": 63600 }, { "epoch": 1.0192, "grad_norm": 9.611859086433583e-10, "learning_rate": 1.3208000000000001e-05, "loss": 0.0, "step": 63700 }, { "epoch": 1.0208, "grad_norm": 1.0997852628591431e-09, "learning_rate": 1.3197333333333335e-05, "loss": 0.0, "step": 63800 }, { "epoch": 1.0224, "grad_norm": 9.264469191805347e-10, "learning_rate": 1.3186666666666667e-05, "loss": 0.0, "step": 63900 }, { "epoch": 1.024, "grad_norm": 1.024118345682723e-09, "learning_rate": 1.3176000000000002e-05, "loss": 0.0, "step": 64000 }, { "epoch": 1.0256, "grad_norm": 1.1323602056023674e-09, "learning_rate": 1.3165333333333334e-05, "loss": 0.0, "step": 64100 }, { "epoch": 1.0272, "grad_norm": 9.059453187632016e-10, "learning_rate": 1.3154666666666666e-05, "loss": 0.0, "step": 64200 }, { "epoch": 1.0288, "grad_norm": 1.2914237457195554e-09, "learning_rate": 1.3144000000000002e-05, "loss": 0.0, "step": 64300 }, { "epoch": 1.0304, "grad_norm": 1.276821981477383e-09, "learning_rate": 1.3133333333333334e-05, "loss": 0.0, "step": 64400 }, { "epoch": 1.032, "grad_norm": 1.0085237089896282e-09, "learning_rate": 1.3122666666666667e-05, "loss": 0.0, "step": 64500 }, { "epoch": 1.0336, "grad_norm": 9.43720768198375e-10, "learning_rate": 1.3112e-05, "loss": 0.0, "step": 64600 }, { "epoch": 1.0352, "grad_norm": 9.372732590051669e-10, "learning_rate": 1.3101333333333334e-05, "loss": 0.0, "step": 64700 }, { "epoch": 1.0368, "grad_norm": 9.827507696513749e-10, "learning_rate": 1.3090666666666666e-05, "loss": 0.0, "step": 64800 }, { "epoch": 1.0384, "grad_norm": 1.0029460595362139e-09, "learning_rate": 1.3080000000000002e-05, "loss": 0.0, "step": 64900 }, { "epoch": 1.04, "grad_norm": 9.08757957773787e-10, "learning_rate": 1.3069333333333334e-05, "loss": 0.0, "step": 65000 }, { "epoch": 1.0416, "grad_norm": 9.103614528882531e-10, "learning_rate": 1.3058666666666669e-05, "loss": 0.0, "step": 65100 }, { "epoch": 1.0432, "grad_norm": 1.0736145306111666e-09, "learning_rate": 1.3048000000000001e-05, "loss": 0.0, "step": 65200 }, { "epoch": 1.0448, "grad_norm": 9.602840744804553e-10, "learning_rate": 1.3037440000000001e-05, "loss": 0.0, "step": 65300 }, { "epoch": 1.0464, "grad_norm": 9.235551767794448e-10, "learning_rate": 1.3026773333333333e-05, "loss": 0.0, "step": 65400 }, { "epoch": 1.048, "grad_norm": 9.633351893967301e-10, "learning_rate": 1.3016106666666668e-05, "loss": 0.0, "step": 65500 }, { "epoch": 1.0496, "grad_norm": 1.1186043202826568e-09, "learning_rate": 1.300544e-05, "loss": 0.0, "step": 65600 }, { "epoch": 1.0512, "grad_norm": 1.0211760326228614e-09, "learning_rate": 1.2994773333333334e-05, "loss": 0.0, "step": 65700 }, { "epoch": 1.0528, "grad_norm": 9.168440451290394e-10, "learning_rate": 1.2984106666666668e-05, "loss": 0.0, "step": 65800 }, { "epoch": 1.0544, "grad_norm": 8.920100214027116e-10, "learning_rate": 1.2973440000000001e-05, "loss": 0.0, "step": 65900 }, { "epoch": 1.056, "grad_norm": 1.012602446337496e-09, "learning_rate": 1.2962773333333333e-05, "loss": 0.0, "step": 66000 }, { "epoch": 1.0576, "grad_norm": 9.479604878848136e-10, "learning_rate": 1.2952106666666669e-05, "loss": 0.0, "step": 66100 }, { "epoch": 1.0592, "grad_norm": 8.731246836646278e-10, "learning_rate": 1.294144e-05, "loss": 0.0, "step": 66200 }, { "epoch": 1.0608, "grad_norm": 8.414572372217322e-10, "learning_rate": 1.2930773333333336e-05, "loss": 0.0, "step": 66300 }, { "epoch": 1.0624, "grad_norm": 8.615465563188707e-10, "learning_rate": 1.2920106666666668e-05, "loss": 0.0, "step": 66400 }, { "epoch": 1.064, "grad_norm": 8.551171437609639e-10, "learning_rate": 1.2909440000000002e-05, "loss": 0.0, "step": 66500 }, { "epoch": 1.0656, "grad_norm": 8.412649465938671e-10, "learning_rate": 1.2898773333333334e-05, "loss": 0.0, "step": 66600 }, { "epoch": 1.0672, "grad_norm": 9.170219583687356e-10, "learning_rate": 1.2888106666666669e-05, "loss": 0.0, "step": 66700 }, { "epoch": 1.0688, "grad_norm": 9.65918456330428e-10, "learning_rate": 1.287744e-05, "loss": 0.0, "step": 66800 }, { "epoch": 1.0704, "grad_norm": 9.650189536358766e-10, "learning_rate": 1.2866773333333333e-05, "loss": 0.0, "step": 66900 }, { "epoch": 1.072, "grad_norm": 1.0463857558207224e-09, "learning_rate": 1.2856106666666668e-05, "loss": 0.0, "step": 67000 }, { "epoch": 1.0735999999999999, "grad_norm": 1.0233374148072016e-09, "learning_rate": 1.284544e-05, "loss": 0.0, "step": 67100 }, { "epoch": 1.0752, "grad_norm": 8.434659082290352e-10, "learning_rate": 1.2834773333333335e-05, "loss": 0.0, "step": 67200 }, { "epoch": 1.0768, "grad_norm": 9.97494087329187e-10, "learning_rate": 1.2824213333333335e-05, "loss": 0.0, "step": 67300 }, { "epoch": 1.0784, "grad_norm": 9.205015638613645e-10, "learning_rate": 1.2813546666666667e-05, "loss": 0.0, "step": 67400 }, { "epoch": 1.08, "grad_norm": 8.380530158724753e-10, "learning_rate": 1.2802880000000003e-05, "loss": 0.0, "step": 67500 }, { "epoch": 1.0816, "grad_norm": 1.011245975846009e-09, "learning_rate": 1.2792213333333335e-05, "loss": 0.0, "step": 67600 }, { "epoch": 1.0832, "grad_norm": 8.420891206561976e-10, "learning_rate": 1.2781546666666668e-05, "loss": 0.0, "step": 67700 }, { "epoch": 1.0848, "grad_norm": 8.901164250119109e-10, "learning_rate": 1.277088e-05, "loss": 0.0, "step": 67800 }, { "epoch": 1.0864, "grad_norm": 1.0247853676759178e-09, "learning_rate": 1.2760213333333334e-05, "loss": 0.0, "step": 67900 }, { "epoch": 1.088, "grad_norm": 8.465730894080536e-10, "learning_rate": 1.2749546666666668e-05, "loss": 0.0, "step": 68000 }, { "epoch": 1.0896, "grad_norm": 8.001896922849028e-10, "learning_rate": 1.273888e-05, "loss": 0.0, "step": 68100 }, { "epoch": 1.0912, "grad_norm": 9.676128787106109e-10, "learning_rate": 1.2728213333333335e-05, "loss": 0.0, "step": 68200 }, { "epoch": 1.0928, "grad_norm": 1.048631736999539e-09, "learning_rate": 1.2717653333333335e-05, "loss": 0.0062, "step": 68300 }, { "epoch": 1.0944, "grad_norm": 8.591498623644611e-10, "learning_rate": 1.2706986666666667e-05, "loss": 0.0, "step": 68400 }, { "epoch": 1.096, "grad_norm": 7.713490401961565e-10, "learning_rate": 1.2696320000000002e-05, "loss": 0.0, "step": 68500 }, { "epoch": 1.0976, "grad_norm": 8.318906119519909e-10, "learning_rate": 1.2685653333333334e-05, "loss": 0.0, "step": 68600 }, { "epoch": 1.0992, "grad_norm": 8.382292637776345e-10, "learning_rate": 1.267498666666667e-05, "loss": 0.0, "step": 68700 }, { "epoch": 1.1008, "grad_norm": 8.728018308090668e-10, "learning_rate": 1.2664320000000001e-05, "loss": 0.0, "step": 68800 }, { "epoch": 1.1024, "grad_norm": 8.128788753225535e-10, "learning_rate": 1.2653653333333333e-05, "loss": 0.0, "step": 68900 }, { "epoch": 1.104, "grad_norm": 9.276343582165225e-10, "learning_rate": 1.2642986666666667e-05, "loss": 0.0, "step": 69000 }, { "epoch": 1.1056, "grad_norm": 9.612994844587774e-10, "learning_rate": 1.263232e-05, "loss": 0.0, "step": 69100 }, { "epoch": 1.1072, "grad_norm": 8.774414528289753e-10, "learning_rate": 1.2621653333333334e-05, "loss": 0.0, "step": 69200 }, { "epoch": 1.1088, "grad_norm": 8.03707767005335e-10, "learning_rate": 1.2610986666666666e-05, "loss": 0.0, "step": 69300 }, { "epoch": 1.1104, "grad_norm": 7.440583704720893e-10, "learning_rate": 1.2600320000000002e-05, "loss": 0.0, "step": 69400 }, { "epoch": 1.112, "grad_norm": 8.746649515778415e-10, "learning_rate": 1.2589653333333334e-05, "loss": 0.0, "step": 69500 }, { "epoch": 1.1136, "grad_norm": 9.14446185440454e-10, "learning_rate": 1.2578986666666669e-05, "loss": 0.0, "step": 69600 }, { "epoch": 1.1152, "grad_norm": 9.497618247422679e-10, "learning_rate": 1.2568320000000001e-05, "loss": 0.0, "step": 69700 }, { "epoch": 1.1168, "grad_norm": 6.972887267586714e-10, "learning_rate": 1.2557653333333335e-05, "loss": 0.0, "step": 69800 }, { "epoch": 1.1184, "grad_norm": 7.838346638422422e-10, "learning_rate": 1.2546986666666667e-05, "loss": 0.0, "step": 69900 }, { "epoch": 1.12, "grad_norm": 9.652738608423306e-10, "learning_rate": 1.2536320000000002e-05, "loss": 0.0, "step": 70000 }, { "epoch": 1.1216, "grad_norm": 9.003021661513344e-10, "learning_rate": 1.2525653333333334e-05, "loss": 0.0, "step": 70100 }, { "epoch": 1.1232, "grad_norm": 7.499614262940213e-10, "learning_rate": 1.251498666666667e-05, "loss": 0.0, "step": 70200 }, { "epoch": 1.1248, "grad_norm": 9.013067514551665e-10, "learning_rate": 1.2504320000000001e-05, "loss": 0.0, "step": 70300 }, { "epoch": 1.1264, "grad_norm": 7.933402268456291e-10, "learning_rate": 1.2493653333333335e-05, "loss": 0.0, "step": 70400 }, { "epoch": 1.1280000000000001, "grad_norm": 8.555990360648025e-10, "learning_rate": 1.2482986666666667e-05, "loss": 0.0, "step": 70500 }, { "epoch": 1.1296, "grad_norm": 8.119356853519832e-10, "learning_rate": 1.247232e-05, "loss": 0.0, "step": 70600 }, { "epoch": 1.1312, "grad_norm": 7.346589447898566e-10, "learning_rate": 1.2461653333333334e-05, "loss": 0.0, "step": 70700 }, { "epoch": 1.1328, "grad_norm": 7.587566130951018e-10, "learning_rate": 1.2450986666666666e-05, "loss": 0.0, "step": 70800 }, { "epoch": 1.1344, "grad_norm": 7.846492344754097e-10, "learning_rate": 1.2440320000000002e-05, "loss": 0.0, "step": 70900 }, { "epoch": 1.1360000000000001, "grad_norm": 7.894234155259028e-10, "learning_rate": 1.2429653333333334e-05, "loss": 0.0, "step": 71000 }, { "epoch": 1.1376, "grad_norm": 8.277507013154661e-10, "learning_rate": 1.2418986666666669e-05, "loss": 0.0, "step": 71100 }, { "epoch": 1.1392, "grad_norm": 1.0105526415671306e-09, "learning_rate": 1.240832e-05, "loss": 0.0, "step": 71200 }, { "epoch": 1.1408, "grad_norm": 8.373828852548115e-10, "learning_rate": 1.2397653333333334e-05, "loss": 0.0, "step": 71300 }, { "epoch": 1.1424, "grad_norm": 7.613104036074958e-10, "learning_rate": 1.2386986666666666e-05, "loss": 0.0, "step": 71400 }, { "epoch": 1.144, "grad_norm": 7.672882329501363e-10, "learning_rate": 1.2376320000000002e-05, "loss": 0.0, "step": 71500 }, { "epoch": 1.1456, "grad_norm": 8.460581679692325e-10, "learning_rate": 1.2365653333333334e-05, "loss": 0.0, "step": 71600 }, { "epoch": 1.1472, "grad_norm": 7.44310335587528e-10, "learning_rate": 1.2354986666666669e-05, "loss": 0.0, "step": 71700 }, { "epoch": 1.1488, "grad_norm": 1.0604844780104372e-09, "learning_rate": 1.2344320000000001e-05, "loss": 0.0, "step": 71800 }, { "epoch": 1.1504, "grad_norm": 1.0349415768828862e-09, "learning_rate": 1.2333653333333335e-05, "loss": 0.0, "step": 71900 }, { "epoch": 1.152, "grad_norm": 6.777969852045374e-10, "learning_rate": 1.2322986666666667e-05, "loss": 0.0, "step": 72000 }, { "epoch": 1.1536, "grad_norm": 7.222641928983364e-10, "learning_rate": 1.2312320000000002e-05, "loss": 0.0, "step": 72100 }, { "epoch": 1.1552, "grad_norm": 7.221346853825139e-10, "learning_rate": 1.2301653333333334e-05, "loss": 0.0, "step": 72200 }, { "epoch": 1.1568, "grad_norm": 7.315776318073119e-10, "learning_rate": 1.2291093333333336e-05, "loss": 0.0, "step": 72300 }, { "epoch": 1.1584, "grad_norm": 7.50608741828529e-10, "learning_rate": 1.2280426666666668e-05, "loss": 0.0, "step": 72400 }, { "epoch": 1.16, "grad_norm": 8.917317440015893e-10, "learning_rate": 1.2269760000000001e-05, "loss": 0.0, "step": 72500 }, { "epoch": 1.1616, "grad_norm": 8.488655889316021e-10, "learning_rate": 1.2259093333333333e-05, "loss": 0.0, "step": 72600 }, { "epoch": 1.1632, "grad_norm": 8.317495581167123e-10, "learning_rate": 1.2248426666666669e-05, "loss": 0.0, "step": 72700 }, { "epoch": 1.1648, "grad_norm": 8.380575677868762e-10, "learning_rate": 1.223776e-05, "loss": 0.0, "step": 72800 }, { "epoch": 1.1663999999999999, "grad_norm": 7.481774644269024e-10, "learning_rate": 1.2227093333333336e-05, "loss": 0.0, "step": 72900 }, { "epoch": 1.168, "grad_norm": 7.781525424022107e-10, "learning_rate": 1.2216426666666668e-05, "loss": 0.0, "step": 73000 }, { "epoch": 1.1696, "grad_norm": 7.969014892417192e-10, "learning_rate": 1.2205760000000002e-05, "loss": 0.0, "step": 73100 }, { "epoch": 1.1712, "grad_norm": 7.775729504722051e-10, "learning_rate": 1.2195093333333333e-05, "loss": 0.0, "step": 73200 }, { "epoch": 1.1728, "grad_norm": 6.34098329399535e-10, "learning_rate": 1.2184426666666667e-05, "loss": 0.0, "step": 73300 }, { "epoch": 1.1743999999999999, "grad_norm": 7.285243519561391e-10, "learning_rate": 1.217376e-05, "loss": 0.0, "step": 73400 }, { "epoch": 1.176, "grad_norm": 6.910694239081749e-10, "learning_rate": 1.2163093333333333e-05, "loss": 0.0, "step": 73500 }, { "epoch": 1.1776, "grad_norm": 7.225641196484389e-10, "learning_rate": 1.2152426666666668e-05, "loss": 0.0, "step": 73600 }, { "epoch": 1.1792, "grad_norm": 7.201360063824325e-10, "learning_rate": 1.214176e-05, "loss": 0.0, "step": 73700 }, { "epoch": 1.1808, "grad_norm": 8.230751080695597e-10, "learning_rate": 1.2131093333333335e-05, "loss": 0.0, "step": 73800 }, { "epoch": 1.1824, "grad_norm": 6.787413409092835e-10, "learning_rate": 1.2120426666666667e-05, "loss": 0.0, "step": 73900 }, { "epoch": 1.184, "grad_norm": 7.84307008228069e-10, "learning_rate": 1.2109760000000001e-05, "loss": 0.0, "step": 74000 }, { "epoch": 1.1856, "grad_norm": 7.790625367043447e-10, "learning_rate": 1.2099093333333333e-05, "loss": 0.0, "step": 74100 }, { "epoch": 1.1872, "grad_norm": 6.860920165330242e-10, "learning_rate": 1.2088426666666668e-05, "loss": 0.0, "step": 74200 }, { "epoch": 1.1888, "grad_norm": 7.330959728157893e-10, "learning_rate": 1.2077866666666667e-05, "loss": 0.0, "step": 74300 }, { "epoch": 1.1904, "grad_norm": 7.594225803764232e-10, "learning_rate": 1.2067200000000002e-05, "loss": 0.0, "step": 74400 }, { "epoch": 1.192, "grad_norm": 6.988423728593318e-10, "learning_rate": 1.2056533333333334e-05, "loss": 0.0, "step": 74500 }, { "epoch": 1.1936, "grad_norm": 7.298672222155744e-10, "learning_rate": 1.2045866666666668e-05, "loss": 0.0, "step": 74600 }, { "epoch": 1.1952, "grad_norm": 8.189103284372834e-10, "learning_rate": 1.20352e-05, "loss": 0.0, "step": 74700 }, { "epoch": 1.1968, "grad_norm": 7.069017038396908e-10, "learning_rate": 1.2024533333333335e-05, "loss": 0.0, "step": 74800 }, { "epoch": 1.1984, "grad_norm": 7.00525581986966e-10, "learning_rate": 1.2013866666666667e-05, "loss": 0.0, "step": 74900 }, { "epoch": 1.2, "grad_norm": 6.524729645462912e-10, "learning_rate": 1.2003200000000002e-05, "loss": 0.0, "step": 75000 }, { "epoch": 1.2016, "grad_norm": 8.050649036306368e-10, "learning_rate": 1.1992533333333334e-05, "loss": 0.0, "step": 75100 }, { "epoch": 1.2032, "grad_norm": 6.366120408607401e-10, "learning_rate": 1.1981866666666668e-05, "loss": 0.0, "step": 75200 }, { "epoch": 1.2048, "grad_norm": 7.503823118426567e-10, "learning_rate": 1.19712e-05, "loss": 0.0, "step": 75300 }, { "epoch": 1.2064, "grad_norm": 7.408499369532251e-10, "learning_rate": 1.1960533333333335e-05, "loss": 0.0, "step": 75400 }, { "epoch": 1.208, "grad_norm": 7.222865638922826e-10, "learning_rate": 1.1949866666666667e-05, "loss": 0.0, "step": 75500 }, { "epoch": 1.2096, "grad_norm": 6.85863921212615e-10, "learning_rate": 1.1939200000000003e-05, "loss": 0.0, "step": 75600 }, { "epoch": 1.2112, "grad_norm": 7.474298402421198e-10, "learning_rate": 1.1928533333333334e-05, "loss": 0.0, "step": 75700 }, { "epoch": 1.2128, "grad_norm": 7.375329791337037e-10, "learning_rate": 1.1917866666666668e-05, "loss": 0.0, "step": 75800 }, { "epoch": 1.2144, "grad_norm": 6.531271079524004e-10, "learning_rate": 1.1907200000000002e-05, "loss": 0.0, "step": 75900 }, { "epoch": 1.216, "grad_norm": 6.889024350975603e-10, "learning_rate": 1.1896533333333334e-05, "loss": 0.0, "step": 76000 }, { "epoch": 1.2176, "grad_norm": 7.948841029836728e-10, "learning_rate": 1.1885866666666667e-05, "loss": 0.0, "step": 76100 }, { "epoch": 1.2192, "grad_norm": 6.737276292412275e-10, "learning_rate": 1.18752e-05, "loss": 0.0, "step": 76200 }, { "epoch": 1.2208, "grad_norm": 6.623592785359733e-10, "learning_rate": 1.1864640000000001e-05, "loss": 0.0, "step": 76300 }, { "epoch": 1.2224, "grad_norm": 7.499975640534728e-10, "learning_rate": 1.1853973333333335e-05, "loss": 0.0, "step": 76400 }, { "epoch": 1.224, "grad_norm": 6.780030425979078e-10, "learning_rate": 1.1843306666666667e-05, "loss": 0.0, "step": 76500 }, { "epoch": 1.2256, "grad_norm": 6.722285506022274e-10, "learning_rate": 1.1832640000000002e-05, "loss": 0.0, "step": 76600 }, { "epoch": 1.2272, "grad_norm": 8.135015994170658e-10, "learning_rate": 1.1821973333333334e-05, "loss": 0.0, "step": 76700 }, { "epoch": 1.2288000000000001, "grad_norm": 6.711602940079331e-10, "learning_rate": 1.181130666666667e-05, "loss": 0.0, "step": 76800 }, { "epoch": 1.2304, "grad_norm": 6.749571457298487e-10, "learning_rate": 1.1800640000000001e-05, "loss": 0.0, "step": 76900 }, { "epoch": 1.232, "grad_norm": 6.809800501272889e-10, "learning_rate": 1.1789973333333333e-05, "loss": 0.0, "step": 77000 }, { "epoch": 1.2336, "grad_norm": 7.227068388182545e-10, "learning_rate": 1.1779306666666669e-05, "loss": 0.0, "step": 77100 }, { "epoch": 1.2352, "grad_norm": 6.931459295422826e-10, "learning_rate": 1.176864e-05, "loss": 0.0, "step": 77200 }, { "epoch": 1.2368000000000001, "grad_norm": 7.349219566243903e-10, "learning_rate": 1.1757973333333334e-05, "loss": 0.0, "step": 77300 }, { "epoch": 1.2384, "grad_norm": 6.904257165984973e-10, "learning_rate": 1.1747306666666666e-05, "loss": 0.0, "step": 77400 }, { "epoch": 1.24, "grad_norm": 6.707744359957246e-10, "learning_rate": 1.1736640000000002e-05, "loss": 0.0, "step": 77500 }, { "epoch": 1.2416, "grad_norm": 7.440013050086236e-10, "learning_rate": 1.1725973333333333e-05, "loss": 0.0, "step": 77600 }, { "epoch": 1.2432, "grad_norm": 6.905128135947791e-10, "learning_rate": 1.1715306666666669e-05, "loss": 0.0, "step": 77700 }, { "epoch": 1.2448, "grad_norm": 7.121554457256707e-10, "learning_rate": 1.170464e-05, "loss": 0.0, "step": 77800 }, { "epoch": 1.2464, "grad_norm": 6.614024883333514e-10, "learning_rate": 1.1693973333333334e-05, "loss": 0.0, "step": 77900 }, { "epoch": 1.248, "grad_norm": 8.201337386992691e-10, "learning_rate": 1.1683306666666666e-05, "loss": 0.0, "step": 78000 }, { "epoch": 1.2496, "grad_norm": 6.445476374850045e-10, "learning_rate": 1.1672640000000002e-05, "loss": 0.0, "step": 78100 }, { "epoch": 1.2511999999999999, "grad_norm": 6.423729326243688e-10, "learning_rate": 1.1661973333333334e-05, "loss": 0.0, "step": 78200 }, { "epoch": 1.2528000000000001, "grad_norm": 6.967155741222086e-10, "learning_rate": 1.1651413333333335e-05, "loss": 0.0, "step": 78300 }, { "epoch": 1.2544, "grad_norm": 7.263475931829078e-10, "learning_rate": 1.1640746666666667e-05, "loss": 0.0, "step": 78400 }, { "epoch": 1.256, "grad_norm": 6.611411973445058e-10, "learning_rate": 1.1630080000000001e-05, "loss": 0.0, "step": 78500 }, { "epoch": 1.2576, "grad_norm": 7.416991465447609e-10, "learning_rate": 1.1619413333333333e-05, "loss": 0.0, "step": 78600 }, { "epoch": 1.2591999999999999, "grad_norm": 6.979516409266751e-10, "learning_rate": 1.1608746666666668e-05, "loss": 0.0, "step": 78700 }, { "epoch": 1.2608, "grad_norm": 6.440111222083544e-10, "learning_rate": 1.159808e-05, "loss": 0.0, "step": 78800 }, { "epoch": 1.2624, "grad_norm": 6.55300813612314e-10, "learning_rate": 1.1587413333333336e-05, "loss": 0.0, "step": 78900 }, { "epoch": 1.264, "grad_norm": 8.47833137029852e-10, "learning_rate": 1.1576746666666668e-05, "loss": 0.0, "step": 79000 }, { "epoch": 1.2656, "grad_norm": 6.960564902236399e-10, "learning_rate": 1.1566080000000001e-05, "loss": 0.0, "step": 79100 }, { "epoch": 1.2671999999999999, "grad_norm": 6.218321413342665e-10, "learning_rate": 1.1555413333333333e-05, "loss": 0.0, "step": 79200 }, { "epoch": 1.2688, "grad_norm": 6.057512824675371e-10, "learning_rate": 1.1544746666666669e-05, "loss": 0.0, "step": 79300 }, { "epoch": 1.2704, "grad_norm": 6.84770296022208e-10, "learning_rate": 1.153408e-05, "loss": 0.0, "step": 79400 }, { "epoch": 1.272, "grad_norm": 6.928757567692401e-10, "learning_rate": 1.1523413333333336e-05, "loss": 0.0, "step": 79500 }, { "epoch": 1.2736, "grad_norm": 7.145783964546126e-10, "learning_rate": 1.1512746666666668e-05, "loss": 0.0, "step": 79600 }, { "epoch": 1.2752, "grad_norm": 7.012357916558187e-10, "learning_rate": 1.150208e-05, "loss": 0.0, "step": 79700 }, { "epoch": 1.2768, "grad_norm": 5.548985715364552e-10, "learning_rate": 1.1491413333333335e-05, "loss": 0.0, "step": 79800 }, { "epoch": 1.2784, "grad_norm": 6.490817883175737e-10, "learning_rate": 1.1480746666666667e-05, "loss": 0.0, "step": 79900 }, { "epoch": 1.28, "grad_norm": 7.258327272552378e-10, "learning_rate": 1.147008e-05, "loss": 0.0, "step": 80000 }, { "epoch": 1.2816, "grad_norm": 6.322843359996e-10, "learning_rate": 1.1459413333333333e-05, "loss": 0.0, "step": 80100 }, { "epoch": 1.2832, "grad_norm": 5.73928182756589e-10, "learning_rate": 1.1448746666666668e-05, "loss": 0.0, "step": 80200 }, { "epoch": 1.2848, "grad_norm": 6.66260102644145e-10, "learning_rate": 1.1438186666666668e-05, "loss": 0.0, "step": 80300 }, { "epoch": 1.2864, "grad_norm": 6.943345898235975e-10, "learning_rate": 1.1427520000000002e-05, "loss": 0.0, "step": 80400 }, { "epoch": 1.288, "grad_norm": 6.01619698503697e-10, "learning_rate": 1.1416853333333335e-05, "loss": 0.0, "step": 80500 }, { "epoch": 1.2896, "grad_norm": 6.199550317553815e-10, "learning_rate": 1.1406186666666667e-05, "loss": 0.0, "step": 80600 }, { "epoch": 1.2912, "grad_norm": 6.131075647175521e-10, "learning_rate": 1.139552e-05, "loss": 0.0, "step": 80700 }, { "epoch": 1.2928, "grad_norm": 6.558119047817002e-10, "learning_rate": 1.1384853333333335e-05, "loss": 0.0, "step": 80800 }, { "epoch": 1.2944, "grad_norm": 7.416850467123481e-10, "learning_rate": 1.1374186666666667e-05, "loss": 0.0, "step": 80900 }, { "epoch": 1.296, "grad_norm": 6.171292921131055e-10, "learning_rate": 1.1363520000000002e-05, "loss": 0.0, "step": 81000 }, { "epoch": 1.2976, "grad_norm": 6.382306905194923e-10, "learning_rate": 1.1352853333333334e-05, "loss": 0.0, "step": 81100 }, { "epoch": 1.2992, "grad_norm": 6.83234524512244e-10, "learning_rate": 1.1342186666666668e-05, "loss": 0.0, "step": 81200 }, { "epoch": 1.3008, "grad_norm": 6.375938110814161e-10, "learning_rate": 1.133152e-05, "loss": 0.0, "step": 81300 }, { "epoch": 1.3024, "grad_norm": 6.206507530137628e-10, "learning_rate": 1.1320853333333335e-05, "loss": 0.0, "step": 81400 }, { "epoch": 1.304, "grad_norm": 6.203613733823943e-10, "learning_rate": 1.1310186666666667e-05, "loss": 0.0, "step": 81500 }, { "epoch": 1.3056, "grad_norm": 6.634810478800546e-10, "learning_rate": 1.1299520000000002e-05, "loss": 0.0, "step": 81600 }, { "epoch": 1.3072, "grad_norm": 6.436079447169618e-10, "learning_rate": 1.1288853333333334e-05, "loss": 0.0, "step": 81700 }, { "epoch": 1.3088, "grad_norm": 6.385461603919396e-10, "learning_rate": 1.1278186666666668e-05, "loss": 0.0, "step": 81800 }, { "epoch": 1.3104, "grad_norm": 6.053507140002523e-10, "learning_rate": 1.1267520000000002e-05, "loss": 0.0, "step": 81900 }, { "epoch": 1.312, "grad_norm": 5.554394721940525e-10, "learning_rate": 1.1256853333333335e-05, "loss": 0.0, "step": 82000 }, { "epoch": 1.3136, "grad_norm": 5.886454101933225e-10, "learning_rate": 1.1246186666666667e-05, "loss": 0.0, "step": 82100 }, { "epoch": 1.3152, "grad_norm": 6.300750476917472e-10, "learning_rate": 1.1235520000000003e-05, "loss": 0.0, "step": 82200 }, { "epoch": 1.3168, "grad_norm": 6.563332655140641e-10, "learning_rate": 1.122496e-05, "loss": 0.0, "step": 82300 }, { "epoch": 1.3184, "grad_norm": 7.078077013389361e-10, "learning_rate": 1.1214293333333334e-05, "loss": 0.0, "step": 82400 }, { "epoch": 1.32, "grad_norm": 6.116768203057177e-10, "learning_rate": 1.1203626666666666e-05, "loss": 0.0, "step": 82500 }, { "epoch": 1.3216, "grad_norm": 6.549613074113836e-10, "learning_rate": 1.1192960000000002e-05, "loss": 0.0, "step": 82600 }, { "epoch": 1.3232, "grad_norm": 6.117500950253429e-10, "learning_rate": 1.1182293333333334e-05, "loss": 0.0, "step": 82700 }, { "epoch": 1.3248, "grad_norm": 5.881409803620841e-10, "learning_rate": 1.1171626666666669e-05, "loss": 0.0, "step": 82800 }, { "epoch": 1.3264, "grad_norm": 6.678351205380295e-10, "learning_rate": 1.1160960000000001e-05, "loss": 0.0, "step": 82900 }, { "epoch": 1.328, "grad_norm": 5.966392935263798e-10, "learning_rate": 1.1150293333333335e-05, "loss": 0.0, "step": 83000 }, { "epoch": 1.3296000000000001, "grad_norm": 7.432381932126475e-10, "learning_rate": 1.1139626666666668e-05, "loss": 0.0, "step": 83100 }, { "epoch": 1.3312, "grad_norm": 4.739015291299609e-10, "learning_rate": 1.1128960000000002e-05, "loss": 0.0, "step": 83200 }, { "epoch": 1.3328, "grad_norm": 6.477304803631512e-10, "learning_rate": 1.1118293333333334e-05, "loss": 0.0, "step": 83300 }, { "epoch": 1.3344, "grad_norm": 5.787638701626463e-10, "learning_rate": 1.1107626666666666e-05, "loss": 0.0, "step": 83400 }, { "epoch": 1.336, "grad_norm": 7.410624336401384e-10, "learning_rate": 1.1096960000000001e-05, "loss": 0.0, "step": 83500 }, { "epoch": 1.3376000000000001, "grad_norm": 6.283489284442112e-10, "learning_rate": 1.1086293333333333e-05, "loss": 0.0, "step": 83600 }, { "epoch": 1.3392, "grad_norm": 5.612005860022862e-10, "learning_rate": 1.1075626666666669e-05, "loss": 0.0, "step": 83700 }, { "epoch": 1.3408, "grad_norm": 5.851056861239101e-10, "learning_rate": 1.106496e-05, "loss": 0.0, "step": 83800 }, { "epoch": 1.3424, "grad_norm": 6.839360744415046e-10, "learning_rate": 1.1054293333333334e-05, "loss": 0.0, "step": 83900 }, { "epoch": 1.3439999999999999, "grad_norm": 6.574785715862674e-10, "learning_rate": 1.1043626666666666e-05, "loss": 0.0, "step": 84000 }, { "epoch": 1.3456000000000001, "grad_norm": 5.788382551052962e-10, "learning_rate": 1.1032960000000002e-05, "loss": 0.0, "step": 84100 }, { "epoch": 1.3472, "grad_norm": 6.020297038666911e-10, "learning_rate": 1.1022293333333333e-05, "loss": 0.0, "step": 84200 }, { "epoch": 1.3488, "grad_norm": 5.63116775431638e-10, "learning_rate": 1.1011733333333335e-05, "loss": 0.0, "step": 84300 }, { "epoch": 1.3504, "grad_norm": 5.54920609463494e-10, "learning_rate": 1.1001066666666667e-05, "loss": 0.0, "step": 84400 }, { "epoch": 1.3519999999999999, "grad_norm": 5.796143565106604e-10, "learning_rate": 1.09904e-05, "loss": 0.0, "step": 84500 }, { "epoch": 1.3536000000000001, "grad_norm": 6.275900354957287e-10, "learning_rate": 1.0979733333333333e-05, "loss": 0.0, "step": 84600 }, { "epoch": 1.3552, "grad_norm": 6.258525364621903e-10, "learning_rate": 1.0969066666666668e-05, "loss": 0.0, "step": 84700 }, { "epoch": 1.3568, "grad_norm": 5.800698255065129e-10, "learning_rate": 1.09584e-05, "loss": 0.0, "step": 84800 }, { "epoch": 1.3584, "grad_norm": 5.46154343972205e-10, "learning_rate": 1.0947733333333335e-05, "loss": 0.0, "step": 84900 }, { "epoch": 1.3599999999999999, "grad_norm": 6.077560676942539e-10, "learning_rate": 1.0937066666666667e-05, "loss": 0.0, "step": 85000 }, { "epoch": 1.3616, "grad_norm": 6.742376101875891e-10, "learning_rate": 1.0926400000000001e-05, "loss": 0.0, "step": 85100 }, { "epoch": 1.3632, "grad_norm": 5.864929653043305e-10, "learning_rate": 1.0915733333333333e-05, "loss": 0.0, "step": 85200 }, { "epoch": 1.3648, "grad_norm": 5.370006106453218e-10, "learning_rate": 1.0905066666666668e-05, "loss": 0.0, "step": 85300 }, { "epoch": 1.3664, "grad_norm": 5.971082517319815e-10, "learning_rate": 1.08944e-05, "loss": 0.0, "step": 85400 }, { "epoch": 1.3679999999999999, "grad_norm": 5.998248009397855e-10, "learning_rate": 1.0883733333333336e-05, "loss": 0.0, "step": 85500 }, { "epoch": 1.3696, "grad_norm": 6.55318577180708e-10, "learning_rate": 1.0873066666666668e-05, "loss": 0.0, "step": 85600 }, { "epoch": 1.3712, "grad_norm": 5.878185160845817e-10, "learning_rate": 1.0862400000000001e-05, "loss": 0.0, "step": 85700 }, { "epoch": 1.3728, "grad_norm": 5.754838272586937e-10, "learning_rate": 1.0851733333333335e-05, "loss": 0.0, "step": 85800 }, { "epoch": 1.3744, "grad_norm": 5.975157590931701e-10, "learning_rate": 1.0841066666666669e-05, "loss": 0.0, "step": 85900 }, { "epoch": 1.376, "grad_norm": 5.912444978051212e-10, "learning_rate": 1.08304e-05, "loss": 0.0, "step": 86000 }, { "epoch": 1.3776, "grad_norm": 6.500145977028637e-10, "learning_rate": 1.0819733333333332e-05, "loss": 0.0, "step": 86100 }, { "epoch": 1.3792, "grad_norm": 5.478087983235014e-10, "learning_rate": 1.0809066666666668e-05, "loss": 0.0, "step": 86200 }, { "epoch": 1.3808, "grad_norm": 5.46295730874391e-10, "learning_rate": 1.0798506666666668e-05, "loss": 0.0, "step": 86300 }, { "epoch": 1.3824, "grad_norm": 6.408277797298467e-10, "learning_rate": 1.078784e-05, "loss": 0.0, "step": 86400 }, { "epoch": 1.384, "grad_norm": 5.362842947498336e-10, "learning_rate": 1.0777173333333335e-05, "loss": 0.0, "step": 86500 }, { "epoch": 1.3856, "grad_norm": 5.364217958714335e-10, "learning_rate": 1.0766506666666667e-05, "loss": 0.0, "step": 86600 }, { "epoch": 1.3872, "grad_norm": 6.637624339056458e-10, "learning_rate": 1.0755840000000002e-05, "loss": 0.0, "step": 86700 }, { "epoch": 1.3888, "grad_norm": 5.608428166326007e-10, "learning_rate": 1.0745173333333334e-05, "loss": 0.0, "step": 86800 }, { "epoch": 1.3904, "grad_norm": 6.051981693566688e-10, "learning_rate": 1.0734506666666668e-05, "loss": 0.0, "step": 86900 }, { "epoch": 1.392, "grad_norm": 5.712154638182199e-10, "learning_rate": 1.0723840000000002e-05, "loss": 0.0, "step": 87000 }, { "epoch": 1.3936, "grad_norm": 5.517986068070968e-10, "learning_rate": 1.0713173333333334e-05, "loss": 0.0, "step": 87100 }, { "epoch": 1.3952, "grad_norm": 5.077446796342144e-10, "learning_rate": 1.0702506666666667e-05, "loss": 0.0, "step": 87200 }, { "epoch": 1.3968, "grad_norm": 5.427657212564441e-10, "learning_rate": 1.069184e-05, "loss": 0.0, "step": 87300 }, { "epoch": 1.3984, "grad_norm": 5.647943224218466e-10, "learning_rate": 1.0681173333333335e-05, "loss": 0.0, "step": 87400 }, { "epoch": 1.4, "grad_norm": 5.658243318329426e-10, "learning_rate": 1.0670506666666667e-05, "loss": 0.0, "step": 87500 }, { "epoch": 1.4016, "grad_norm": 6.193895396577886e-10, "learning_rate": 1.0659840000000002e-05, "loss": 0.0, "step": 87600 }, { "epoch": 1.4032, "grad_norm": 5.246263978797572e-10, "learning_rate": 1.0649173333333334e-05, "loss": 0.0, "step": 87700 }, { "epoch": 1.4048, "grad_norm": 6.315946654567028e-10, "learning_rate": 1.0638506666666668e-05, "loss": 0.0, "step": 87800 }, { "epoch": 1.4064, "grad_norm": 6.285246212378581e-10, "learning_rate": 1.062784e-05, "loss": 0.0, "step": 87900 }, { "epoch": 1.408, "grad_norm": 5.474711239905616e-10, "learning_rate": 1.0617173333333335e-05, "loss": 0.0, "step": 88000 }, { "epoch": 1.4096, "grad_norm": 5.513302037130074e-10, "learning_rate": 1.0606506666666667e-05, "loss": 0.0, "step": 88100 }, { "epoch": 1.4112, "grad_norm": 5.629507970894565e-10, "learning_rate": 1.0595840000000002e-05, "loss": 0.0, "step": 88200 }, { "epoch": 1.4128, "grad_norm": 5.768469035771773e-10, "learning_rate": 1.058528e-05, "loss": 0.0, "step": 88300 }, { "epoch": 1.4144, "grad_norm": 6.008518682598663e-10, "learning_rate": 1.0574613333333334e-05, "loss": 0.0, "step": 88400 }, { "epoch": 1.416, "grad_norm": 5.793592272596015e-10, "learning_rate": 1.0563946666666666e-05, "loss": 0.0, "step": 88500 }, { "epoch": 1.4176, "grad_norm": 5.425913607304267e-10, "learning_rate": 1.0553280000000001e-05, "loss": 0.0, "step": 88600 }, { "epoch": 1.4192, "grad_norm": 6.409086594771907e-10, "learning_rate": 1.0542613333333333e-05, "loss": 0.0, "step": 88700 }, { "epoch": 1.4208, "grad_norm": 5.236285849363753e-10, "learning_rate": 1.0531946666666669e-05, "loss": 0.0, "step": 88800 }, { "epoch": 1.4224, "grad_norm": 6.056585233338296e-10, "learning_rate": 1.052128e-05, "loss": 0.0, "step": 88900 }, { "epoch": 1.424, "grad_norm": 5.547549086770687e-10, "learning_rate": 1.0510613333333334e-05, "loss": 0.0, "step": 89000 }, { "epoch": 1.4256, "grad_norm": 5.975334116392617e-10, "learning_rate": 1.0499946666666668e-05, "loss": 0.0, "step": 89100 }, { "epoch": 1.4272, "grad_norm": 5.109008216486188e-10, "learning_rate": 1.0489280000000002e-05, "loss": 0.0, "step": 89200 }, { "epoch": 1.4288, "grad_norm": 5.687548210175919e-10, "learning_rate": 1.0478613333333334e-05, "loss": 0.0, "step": 89300 }, { "epoch": 1.4304000000000001, "grad_norm": 5.137646974517907e-10, "learning_rate": 1.0467946666666669e-05, "loss": 0.0, "step": 89400 }, { "epoch": 1.432, "grad_norm": 6.048679335179941e-10, "learning_rate": 1.0457280000000001e-05, "loss": 0.0, "step": 89500 }, { "epoch": 1.4336, "grad_norm": 5.696781379960214e-10, "learning_rate": 1.0446613333333335e-05, "loss": 0.0, "step": 89600 }, { "epoch": 1.4352, "grad_norm": 4.831122168980073e-10, "learning_rate": 1.0435946666666668e-05, "loss": 0.0, "step": 89700 }, { "epoch": 1.4368, "grad_norm": 5.424258819886063e-10, "learning_rate": 1.042528e-05, "loss": 0.0, "step": 89800 }, { "epoch": 1.4384000000000001, "grad_norm": 5.259140345437174e-10, "learning_rate": 1.0414613333333334e-05, "loss": 0.0, "step": 89900 }, { "epoch": 1.44, "grad_norm": 5.324803931117117e-10, "learning_rate": 1.0403946666666666e-05, "loss": 0.0, "step": 90000 }, { "epoch": 1.4416, "grad_norm": 4.962464328350791e-10, "learning_rate": 1.0393280000000001e-05, "loss": 0.0, "step": 90100 }, { "epoch": 1.4432, "grad_norm": 5.588483009688616e-10, "learning_rate": 1.0382613333333333e-05, "loss": 0.0, "step": 90200 }, { "epoch": 1.4447999999999999, "grad_norm": 5.986189322015889e-10, "learning_rate": 1.0372053333333335e-05, "loss": 0.0, "step": 90300 }, { "epoch": 1.4464000000000001, "grad_norm": 5.928699198243237e-10, "learning_rate": 1.0361386666666668e-05, "loss": 0.0, "step": 90400 }, { "epoch": 1.448, "grad_norm": 5.903031952136928e-10, "learning_rate": 1.035072e-05, "loss": 0.0, "step": 90500 }, { "epoch": 1.4496, "grad_norm": 5.040313166837507e-10, "learning_rate": 1.0340053333333336e-05, "loss": 0.0, "step": 90600 }, { "epoch": 1.4512, "grad_norm": 5.496075261568478e-10, "learning_rate": 1.0329386666666668e-05, "loss": 0.0, "step": 90700 }, { "epoch": 1.4527999999999999, "grad_norm": 5.886685028322347e-10, "learning_rate": 1.031872e-05, "loss": 0.0, "step": 90800 }, { "epoch": 1.4544000000000001, "grad_norm": 6.315082345942358e-10, "learning_rate": 1.0308053333333335e-05, "loss": 0.0, "step": 90900 }, { "epoch": 1.456, "grad_norm": 5.297525196290565e-10, "learning_rate": 1.0297386666666667e-05, "loss": 0.0, "step": 91000 }, { "epoch": 1.4576, "grad_norm": 5.356007859447232e-10, "learning_rate": 1.028672e-05, "loss": 0.0, "step": 91100 }, { "epoch": 1.4592, "grad_norm": 4.88950879784511e-10, "learning_rate": 1.0276053333333333e-05, "loss": 0.0, "step": 91200 }, { "epoch": 1.4607999999999999, "grad_norm": 5.3139331823715e-10, "learning_rate": 1.0265386666666668e-05, "loss": 0.0, "step": 91300 }, { "epoch": 1.4624, "grad_norm": 5.54078782855072e-10, "learning_rate": 1.025472e-05, "loss": 0.0, "step": 91400 }, { "epoch": 1.464, "grad_norm": 5.137185121739662e-10, "learning_rate": 1.0244053333333335e-05, "loss": 0.0, "step": 91500 }, { "epoch": 1.4656, "grad_norm": 4.941256848134401e-10, "learning_rate": 1.0233386666666667e-05, "loss": 0.0, "step": 91600 }, { "epoch": 1.4672, "grad_norm": 4.685933308046231e-10, "learning_rate": 1.0222720000000001e-05, "loss": 0.0, "step": 91700 }, { "epoch": 1.4687999999999999, "grad_norm": 5.587479923185867e-10, "learning_rate": 1.0212053333333335e-05, "loss": 0.0, "step": 91800 }, { "epoch": 1.4704, "grad_norm": 5.077032128042447e-10, "learning_rate": 1.0201386666666668e-05, "loss": 0.0, "step": 91900 }, { "epoch": 1.472, "grad_norm": 5.029731076078292e-10, "learning_rate": 1.019072e-05, "loss": 0.0, "step": 92000 }, { "epoch": 1.4736, "grad_norm": 5.442807315958476e-10, "learning_rate": 1.0180053333333336e-05, "loss": 0.0, "step": 92100 }, { "epoch": 1.4752, "grad_norm": 5.390694557405595e-10, "learning_rate": 1.0169386666666668e-05, "loss": 0.0, "step": 92200 }, { "epoch": 1.4768, "grad_norm": 5.623801979659504e-10, "learning_rate": 1.0158826666666667e-05, "loss": 0.0, "step": 92300 }, { "epoch": 1.4784, "grad_norm": 6.57076393295597e-10, "learning_rate": 1.014816e-05, "loss": 0.0, "step": 92400 }, { "epoch": 1.48, "grad_norm": 4.5838538520470706e-10, "learning_rate": 1.0137493333333335e-05, "loss": 0.0, "step": 92500 }, { "epoch": 1.4816, "grad_norm": 5.495686683509859e-10, "learning_rate": 1.0126826666666667e-05, "loss": 0.0, "step": 92600 }, { "epoch": 1.4832, "grad_norm": 5.727119334331121e-10, "learning_rate": 1.0116160000000002e-05, "loss": 0.0, "step": 92700 }, { "epoch": 1.4848, "grad_norm": 5.174423667320127e-10, "learning_rate": 1.0105493333333334e-05, "loss": 0.0, "step": 92800 }, { "epoch": 1.4864, "grad_norm": 5.335489272617622e-10, "learning_rate": 1.0094826666666668e-05, "loss": 0.0, "step": 92900 }, { "epoch": 1.488, "grad_norm": 5.264799707305201e-10, "learning_rate": 1.0084160000000001e-05, "loss": 0.0, "step": 93000 }, { "epoch": 1.4896, "grad_norm": 5.720047213664259e-10, "learning_rate": 1.0073493333333335e-05, "loss": 0.0, "step": 93100 }, { "epoch": 1.4912, "grad_norm": 5.582779238899604e-10, "learning_rate": 1.0062826666666667e-05, "loss": 0.0, "step": 93200 }, { "epoch": 1.4928, "grad_norm": 4.6262518815787246e-10, "learning_rate": 1.0052160000000002e-05, "loss": 0.0, "step": 93300 }, { "epoch": 1.4944, "grad_norm": 4.776294915131984e-10, "learning_rate": 1.0041493333333334e-05, "loss": 0.0, "step": 93400 }, { "epoch": 1.496, "grad_norm": 4.914520457255378e-10, "learning_rate": 1.0030826666666666e-05, "loss": 0.0, "step": 93500 }, { "epoch": 1.4976, "grad_norm": 6.19320483785657e-10, "learning_rate": 1.0020160000000002e-05, "loss": 0.0, "step": 93600 }, { "epoch": 1.4992, "grad_norm": 5.20640253132143e-10, "learning_rate": 1.0009493333333334e-05, "loss": 0.0, "step": 93700 }, { "epoch": 1.5008, "grad_norm": 6.135625896241947e-10, "learning_rate": 9.998826666666667e-06, "loss": 0.0, "step": 93800 }, { "epoch": 1.5024, "grad_norm": 5.266881930587886e-10, "learning_rate": 9.988160000000001e-06, "loss": 0.0, "step": 93900 }, { "epoch": 1.504, "grad_norm": 5.349725107350878e-10, "learning_rate": 9.977493333333335e-06, "loss": 0.0, "step": 94000 }, { "epoch": 1.5056, "grad_norm": 4.890383098477002e-10, "learning_rate": 9.966826666666668e-06, "loss": 0.0, "step": 94100 }, { "epoch": 1.5072, "grad_norm": 4.4868195270275635e-10, "learning_rate": 9.95616e-06, "loss": 0.0, "step": 94200 }, { "epoch": 1.5088, "grad_norm": 5.361253108127073e-10, "learning_rate": 9.9456e-06, "loss": 0.0, "step": 94300 }, { "epoch": 1.5104, "grad_norm": 5.17853149251124e-10, "learning_rate": 9.934933333333334e-06, "loss": 0.0, "step": 94400 }, { "epoch": 1.512, "grad_norm": 4.967238287356679e-10, "learning_rate": 9.924266666666667e-06, "loss": 0.0, "step": 94500 }, { "epoch": 1.5135999999999998, "grad_norm": 4.906704487162017e-10, "learning_rate": 9.913600000000001e-06, "loss": 0.0, "step": 94600 }, { "epoch": 1.5152, "grad_norm": 5.268001035396708e-10, "learning_rate": 9.902933333333335e-06, "loss": 0.0, "step": 94700 }, { "epoch": 1.5168, "grad_norm": 5.242197786969882e-10, "learning_rate": 9.892266666666668e-06, "loss": 0.0, "step": 94800 }, { "epoch": 1.5184, "grad_norm": 5.241659883914451e-10, "learning_rate": 9.8816e-06, "loss": 0.0, "step": 94900 }, { "epoch": 1.52, "grad_norm": 4.4715769975667286e-10, "learning_rate": 9.870933333333334e-06, "loss": 0.0, "step": 95000 }, { "epoch": 1.5215999999999998, "grad_norm": 4.530822383941313e-10, "learning_rate": 9.860266666666668e-06, "loss": 0.0, "step": 95100 }, { "epoch": 1.5232, "grad_norm": 5.462981733650452e-10, "learning_rate": 9.8496e-06, "loss": 0.0, "step": 95200 }, { "epoch": 1.5248, "grad_norm": 4.974491374376555e-10, "learning_rate": 9.838933333333333e-06, "loss": 0.0, "step": 95300 }, { "epoch": 1.5264, "grad_norm": 5.55941737090393e-10, "learning_rate": 9.828266666666667e-06, "loss": 0.0, "step": 95400 }, { "epoch": 1.528, "grad_norm": 4.966964617381109e-10, "learning_rate": 9.8176e-06, "loss": 0.0, "step": 95500 }, { "epoch": 1.5295999999999998, "grad_norm": 4.89033924466753e-10, "learning_rate": 9.806933333333334e-06, "loss": 0.0, "step": 95600 }, { "epoch": 1.5312000000000001, "grad_norm": 4.738755499111846e-10, "learning_rate": 9.796266666666668e-06, "loss": 0.0, "step": 95700 }, { "epoch": 1.5328, "grad_norm": 4.927081520555987e-10, "learning_rate": 9.7856e-06, "loss": 0.0, "step": 95800 }, { "epoch": 1.5344, "grad_norm": 4.789697527485259e-10, "learning_rate": 9.774933333333334e-06, "loss": 0.0, "step": 95900 }, { "epoch": 1.536, "grad_norm": 5.042264938914798e-10, "learning_rate": 9.764266666666667e-06, "loss": 0.0, "step": 96000 }, { "epoch": 1.5375999999999999, "grad_norm": 5.888044496416001e-10, "learning_rate": 9.753600000000001e-06, "loss": 0.0, "step": 96100 }, { "epoch": 1.5392000000000001, "grad_norm": 4.739236780793021e-10, "learning_rate": 9.742933333333335e-06, "loss": 0.0, "step": 96200 }, { "epoch": 1.5408, "grad_norm": 4.984360146842448e-10, "learning_rate": 9.732373333333334e-06, "loss": 0.0, "step": 96300 }, { "epoch": 1.5424, "grad_norm": 4.876881676274536e-10, "learning_rate": 9.721706666666666e-06, "loss": 0.0, "step": 96400 }, { "epoch": 1.544, "grad_norm": 4.751539162128893e-10, "learning_rate": 9.71104e-06, "loss": 0.0, "step": 96500 }, { "epoch": 1.5455999999999999, "grad_norm": 5.07874187150037e-10, "learning_rate": 9.700373333333334e-06, "loss": 0.0, "step": 96600 }, { "epoch": 1.5472000000000001, "grad_norm": 5.160135652104714e-10, "learning_rate": 9.689706666666667e-06, "loss": 0.0, "step": 96700 }, { "epoch": 1.5488, "grad_norm": 5.204631170485641e-10, "learning_rate": 9.679040000000001e-06, "loss": 0.0, "step": 96800 }, { "epoch": 1.5504, "grad_norm": 4.644329643088696e-10, "learning_rate": 9.668373333333335e-06, "loss": 0.0, "step": 96900 }, { "epoch": 1.552, "grad_norm": 4.671064646188938e-10, "learning_rate": 9.657706666666667e-06, "loss": 0.0, "step": 97000 }, { "epoch": 1.5535999999999999, "grad_norm": 4.2251369070100964e-10, "learning_rate": 9.64704e-06, "loss": 0.0, "step": 97100 }, { "epoch": 1.5552000000000001, "grad_norm": 4.467473335711958e-10, "learning_rate": 9.636373333333334e-06, "loss": 0.0, "step": 97200 }, { "epoch": 1.5568, "grad_norm": 4.549756682514783e-10, "learning_rate": 9.625706666666668e-06, "loss": 0.0, "step": 97300 }, { "epoch": 1.5584, "grad_norm": 4.926519192594014e-10, "learning_rate": 9.615040000000001e-06, "loss": 0.0, "step": 97400 }, { "epoch": 1.56, "grad_norm": 4.958358723605727e-10, "learning_rate": 9.604373333333335e-06, "loss": 0.0, "step": 97500 }, { "epoch": 1.5615999999999999, "grad_norm": 4.6558790156581153e-10, "learning_rate": 9.593706666666667e-06, "loss": 0.0, "step": 97600 }, { "epoch": 1.5632000000000001, "grad_norm": 4.873765835355925e-10, "learning_rate": 9.58304e-06, "loss": 0.0, "step": 97700 }, { "epoch": 1.5648, "grad_norm": 5.526700763702763e-10, "learning_rate": 9.572373333333334e-06, "loss": 0.0, "step": 97800 }, { "epoch": 1.5664, "grad_norm": 5.036164818505995e-10, "learning_rate": 9.561706666666666e-06, "loss": 0.0, "step": 97900 }, { "epoch": 1.568, "grad_norm": 5.022996463210916e-10, "learning_rate": 9.55104e-06, "loss": 0.0, "step": 98000 }, { "epoch": 1.5695999999999999, "grad_norm": 4.1894715474555255e-10, "learning_rate": 9.540373333333334e-06, "loss": 0.0, "step": 98100 }, { "epoch": 1.5712000000000002, "grad_norm": 5.156983728937803e-10, "learning_rate": 9.529706666666667e-06, "loss": 0.0, "step": 98200 }, { "epoch": 1.5728, "grad_norm": 6.390084017482422e-10, "learning_rate": 9.519146666666667e-06, "loss": 0.0, "step": 98300 }, { "epoch": 1.5744, "grad_norm": 4.4025955103776937e-10, "learning_rate": 9.50848e-06, "loss": 0.0, "step": 98400 }, { "epoch": 1.576, "grad_norm": 4.516456653114176e-10, "learning_rate": 9.497813333333334e-06, "loss": 0.0, "step": 98500 }, { "epoch": 1.5776, "grad_norm": 5.295929805804178e-10, "learning_rate": 9.487146666666668e-06, "loss": 0.0, "step": 98600 }, { "epoch": 1.5792000000000002, "grad_norm": 5.199463637417523e-10, "learning_rate": 9.476480000000002e-06, "loss": 0.0, "step": 98700 }, { "epoch": 1.5808, "grad_norm": 4.967469213745801e-10, "learning_rate": 9.465813333333335e-06, "loss": 0.0, "step": 98800 }, { "epoch": 1.5824, "grad_norm": 5.326165064545307e-10, "learning_rate": 9.455146666666667e-06, "loss": 0.0, "step": 98900 }, { "epoch": 1.584, "grad_norm": 4.468987124806034e-10, "learning_rate": 9.444480000000001e-06, "loss": 0.0, "step": 99000 }, { "epoch": 1.5856, "grad_norm": 4.5896644818022025e-10, "learning_rate": 9.433813333333333e-06, "loss": 0.0, "step": 99100 }, { "epoch": 1.5872000000000002, "grad_norm": 4.599170211339043e-10, "learning_rate": 9.423146666666667e-06, "loss": 0.0, "step": 99200 }, { "epoch": 1.5888, "grad_norm": 6.37258690261433e-10, "learning_rate": 9.41248e-06, "loss": 0.0, "step": 99300 }, { "epoch": 1.5904, "grad_norm": 4.773172967986739e-10, "learning_rate": 9.401813333333334e-06, "loss": 0.0, "step": 99400 }, { "epoch": 1.592, "grad_norm": 4.815640664013188e-10, "learning_rate": 9.391146666666668e-06, "loss": 0.0, "step": 99500 }, { "epoch": 1.5936, "grad_norm": 4.2155792745468545e-10, "learning_rate": 9.380480000000001e-06, "loss": 0.0, "step": 99600 }, { "epoch": 1.5952, "grad_norm": 4.883138338129811e-10, "learning_rate": 9.369813333333333e-06, "loss": 0.0, "step": 99700 }, { "epoch": 1.5968, "grad_norm": 4.786478990936871e-10, "learning_rate": 9.359146666666667e-06, "loss": 0.0, "step": 99800 }, { "epoch": 1.5984, "grad_norm": 4.716769197443682e-10, "learning_rate": 9.34848e-06, "loss": 0.0, "step": 99900 }, { "epoch": 1.6, "grad_norm": 6.381822292844674e-10, "learning_rate": 9.337813333333334e-06, "loss": 0.0, "step": 100000 }, { "epoch": 1.6016, "grad_norm": 4.4980219549017875e-10, "learning_rate": 9.327146666666668e-06, "loss": 0.0, "step": 100100 }, { "epoch": 1.6032, "grad_norm": 4.52530068972834e-10, "learning_rate": 9.316480000000002e-06, "loss": 0.0, "step": 100200 }, { "epoch": 1.6048, "grad_norm": 5.355089705005867e-10, "learning_rate": 9.30592e-06, "loss": 0.0, "step": 100300 }, { "epoch": 1.6064, "grad_norm": 4.910692963377983e-10, "learning_rate": 9.295253333333333e-06, "loss": 0.0, "step": 100400 }, { "epoch": 1.608, "grad_norm": 4.659169716703104e-10, "learning_rate": 9.284586666666667e-06, "loss": 0.0, "step": 100500 }, { "epoch": 1.6096, "grad_norm": 4.666996789026712e-10, "learning_rate": 9.27392e-06, "loss": 0.0, "step": 100600 }, { "epoch": 1.6112, "grad_norm": 4.879100456989249e-10, "learning_rate": 9.263253333333334e-06, "loss": 0.0, "step": 100700 }, { "epoch": 1.6128, "grad_norm": 4.6187625946103594e-10, "learning_rate": 9.252586666666668e-06, "loss": 0.0, "step": 100800 }, { "epoch": 1.6143999999999998, "grad_norm": 4.967702360580972e-10, "learning_rate": 9.24192e-06, "loss": 0.0, "step": 100900 }, { "epoch": 1.616, "grad_norm": 4.569091494044386e-10, "learning_rate": 9.231253333333334e-06, "loss": 0.0, "step": 101000 }, { "epoch": 1.6176, "grad_norm": 4.689266197566155e-10, "learning_rate": 9.220586666666667e-06, "loss": 0.0, "step": 101100 }, { "epoch": 1.6192, "grad_norm": 4.676980469575653e-10, "learning_rate": 9.209920000000001e-06, "loss": 0.0, "step": 101200 }, { "epoch": 1.6208, "grad_norm": 4.98105279245209e-10, "learning_rate": 9.199253333333335e-06, "loss": 0.0, "step": 101300 }, { "epoch": 1.6223999999999998, "grad_norm": 4.5279924254515436e-10, "learning_rate": 9.188586666666668e-06, "loss": 0.0, "step": 101400 }, { "epoch": 1.624, "grad_norm": 4.5119308289542914e-10, "learning_rate": 9.177920000000002e-06, "loss": 0.0, "step": 101500 }, { "epoch": 1.6256, "grad_norm": 4.940734488201315e-10, "learning_rate": 9.167253333333334e-06, "loss": 0.0, "step": 101600 }, { "epoch": 1.6272, "grad_norm": 4.655633656369673e-10, "learning_rate": 9.156586666666668e-06, "loss": 0.0, "step": 101700 }, { "epoch": 1.6288, "grad_norm": 4.491180205512535e-10, "learning_rate": 9.14592e-06, "loss": 0.0, "step": 101800 }, { "epoch": 1.6303999999999998, "grad_norm": 5.074501374657814e-10, "learning_rate": 9.135253333333333e-06, "loss": 0.0, "step": 101900 }, { "epoch": 1.6320000000000001, "grad_norm": 4.688566757060642e-10, "learning_rate": 9.124586666666667e-06, "loss": 0.0, "step": 102000 }, { "epoch": 1.6336, "grad_norm": 4.940789444241034e-10, "learning_rate": 9.11392e-06, "loss": 0.0, "step": 102100 }, { "epoch": 1.6352, "grad_norm": 4.237742101675934e-10, "learning_rate": 9.103253333333334e-06, "loss": 0.0, "step": 102200 }, { "epoch": 1.6368, "grad_norm": 4.354671345740968e-10, "learning_rate": 9.092693333333334e-06, "loss": 0.0, "step": 102300 }, { "epoch": 1.6383999999999999, "grad_norm": 4.2457856674893435e-10, "learning_rate": 9.082026666666668e-06, "loss": 0.0, "step": 102400 }, { "epoch": 1.6400000000000001, "grad_norm": 5.333455344036508e-10, "learning_rate": 9.071360000000002e-06, "loss": 0.0, "step": 102500 }, { "epoch": 1.6416, "grad_norm": 4.5173134677334303e-10, "learning_rate": 9.060693333333333e-06, "loss": 0.0, "step": 102600 }, { "epoch": 1.6432, "grad_norm": 4.536357955942094e-10, "learning_rate": 9.050026666666667e-06, "loss": 0.0, "step": 102700 }, { "epoch": 1.6448, "grad_norm": 4.703466505162623e-10, "learning_rate": 9.03936e-06, "loss": 0.0, "step": 102800 }, { "epoch": 1.6463999999999999, "grad_norm": 5.340259345842924e-10, "learning_rate": 9.028693333333334e-06, "loss": 0.0, "step": 102900 }, { "epoch": 1.6480000000000001, "grad_norm": 4.893057070631812e-10, "learning_rate": 9.018026666666666e-06, "loss": 0.0, "step": 103000 }, { "epoch": 1.6496, "grad_norm": 5.063186536702347e-10, "learning_rate": 9.00736e-06, "loss": 0.0, "step": 103100 }, { "epoch": 1.6512, "grad_norm": 4.451939372707159e-10, "learning_rate": 8.996693333333334e-06, "loss": 0.0, "step": 103200 }, { "epoch": 1.6528, "grad_norm": 4.6109718820908085e-10, "learning_rate": 8.986026666666667e-06, "loss": 0.0, "step": 103300 }, { "epoch": 1.6543999999999999, "grad_norm": 4.4266854071217665e-10, "learning_rate": 8.975360000000001e-06, "loss": 0.0, "step": 103400 }, { "epoch": 1.6560000000000001, "grad_norm": 4.788144880585321e-10, "learning_rate": 8.964693333333335e-06, "loss": 0.0, "step": 103500 }, { "epoch": 1.6576, "grad_norm": 4.82060280582175e-10, "learning_rate": 8.954026666666667e-06, "loss": 0.0, "step": 103600 }, { "epoch": 1.6592, "grad_norm": 4.389811569804891e-10, "learning_rate": 8.94336e-06, "loss": 0.0, "step": 103700 }, { "epoch": 1.6608, "grad_norm": 4.343586323951598e-10, "learning_rate": 8.932693333333334e-06, "loss": 0.0, "step": 103800 }, { "epoch": 1.6623999999999999, "grad_norm": 4.671401598876912e-10, "learning_rate": 8.922026666666668e-06, "loss": 0.0, "step": 103900 }, { "epoch": 1.6640000000000001, "grad_norm": 5.315575757336433e-10, "learning_rate": 8.911360000000001e-06, "loss": 0.0, "step": 104000 }, { "epoch": 1.6656, "grad_norm": 4.899097794108798e-10, "learning_rate": 8.900693333333335e-06, "loss": 0.0, "step": 104100 }, { "epoch": 1.6672, "grad_norm": 4.712583656640845e-10, "learning_rate": 8.890026666666669e-06, "loss": 0.0, "step": 104200 }, { "epoch": 1.6688, "grad_norm": 5.255385571167892e-10, "learning_rate": 8.879466666666667e-06, "loss": 0.0, "step": 104300 }, { "epoch": 1.6703999999999999, "grad_norm": 5.019102355952043e-10, "learning_rate": 8.8688e-06, "loss": 0.0, "step": 104400 }, { "epoch": 1.6720000000000002, "grad_norm": 4.878926707085895e-10, "learning_rate": 8.858133333333334e-06, "loss": 0.0, "step": 104500 }, { "epoch": 1.6736, "grad_norm": 5.263302016444982e-10, "learning_rate": 8.847466666666668e-06, "loss": 0.0, "step": 104600 }, { "epoch": 1.6752, "grad_norm": 4.87433815532512e-10, "learning_rate": 8.836800000000002e-06, "loss": 0.0, "step": 104700 }, { "epoch": 1.6768, "grad_norm": 5.448867468338392e-10, "learning_rate": 8.826133333333333e-06, "loss": 0.0, "step": 104800 }, { "epoch": 1.6784, "grad_norm": 4.712887857749593e-10, "learning_rate": 8.815466666666667e-06, "loss": 0.0, "step": 104900 }, { "epoch": 1.6800000000000002, "grad_norm": 4.890989280248448e-10, "learning_rate": 8.8048e-06, "loss": 0.0, "step": 105000 }, { "epoch": 1.6816, "grad_norm": 4.740015047133284e-10, "learning_rate": 8.794133333333334e-06, "loss": 0.0, "step": 105100 }, { "epoch": 1.6832, "grad_norm": 4.64401378463819e-10, "learning_rate": 8.783466666666668e-06, "loss": 0.0, "step": 105200 }, { "epoch": 1.6848, "grad_norm": 4.4849124414270136e-10, "learning_rate": 8.7728e-06, "loss": 0.0, "step": 105300 }, { "epoch": 1.6864, "grad_norm": 4.824929344948714e-10, "learning_rate": 8.762133333333334e-06, "loss": 0.0, "step": 105400 }, { "epoch": 1.688, "grad_norm": 4.988812141171195e-10, "learning_rate": 8.751466666666667e-06, "loss": 0.0, "step": 105500 }, { "epoch": 1.6896, "grad_norm": 4.219902483004745e-10, "learning_rate": 8.740800000000001e-06, "loss": 0.0, "step": 105600 }, { "epoch": 1.6912, "grad_norm": 4.6039519419061037e-10, "learning_rate": 8.730133333333333e-06, "loss": 0.0, "step": 105700 }, { "epoch": 1.6928, "grad_norm": 4.4612283311984413e-10, "learning_rate": 8.719466666666667e-06, "loss": 0.0, "step": 105800 }, { "epoch": 1.6944, "grad_norm": 4.724451385662576e-10, "learning_rate": 8.7088e-06, "loss": 0.0, "step": 105900 }, { "epoch": 1.696, "grad_norm": 4.354032412390296e-10, "learning_rate": 8.698133333333334e-06, "loss": 0.0, "step": 106000 }, { "epoch": 1.6976, "grad_norm": 4.1531311723019826e-10, "learning_rate": 8.687466666666668e-06, "loss": 0.0, "step": 106100 }, { "epoch": 1.6992, "grad_norm": 4.632969285989219e-10, "learning_rate": 8.676800000000001e-06, "loss": 0.0, "step": 106200 }, { "epoch": 1.7008, "grad_norm": 4.3505521407638525e-10, "learning_rate": 8.66624e-06, "loss": 0.0, "step": 106300 }, { "epoch": 1.7024, "grad_norm": 4.36348734922376e-10, "learning_rate": 8.655573333333333e-06, "loss": 0.0, "step": 106400 }, { "epoch": 1.704, "grad_norm": 5.153161786175531e-10, "learning_rate": 8.644906666666667e-06, "loss": 0.0, "step": 106500 }, { "epoch": 1.7056, "grad_norm": 4.2810929801184727e-10, "learning_rate": 8.63424e-06, "loss": 0.0, "step": 106600 }, { "epoch": 1.7072, "grad_norm": 4.3347678224670005e-10, "learning_rate": 8.623573333333334e-06, "loss": 0.0, "step": 106700 }, { "epoch": 1.7088, "grad_norm": 4.5993236996721976e-10, "learning_rate": 8.612906666666668e-06, "loss": 0.0, "step": 106800 }, { "epoch": 1.7104, "grad_norm": 3.921188651556662e-10, "learning_rate": 8.60224e-06, "loss": 0.0, "step": 106900 }, { "epoch": 1.712, "grad_norm": 4.702156441993566e-10, "learning_rate": 8.591573333333333e-06, "loss": 0.0, "step": 107000 }, { "epoch": 1.7136, "grad_norm": 4.634352346322146e-10, "learning_rate": 8.580906666666667e-06, "loss": 0.0, "step": 107100 }, { "epoch": 1.7151999999999998, "grad_norm": 4.677648268724965e-10, "learning_rate": 8.57024e-06, "loss": 0.0, "step": 107200 }, { "epoch": 1.7168, "grad_norm": 4.1052947152842023e-10, "learning_rate": 8.559573333333334e-06, "loss": 0.0, "step": 107300 }, { "epoch": 1.7184, "grad_norm": 4.50171316890291e-10, "learning_rate": 8.548906666666668e-06, "loss": 0.0, "step": 107400 }, { "epoch": 1.72, "grad_norm": 4.4094466966626555e-10, "learning_rate": 8.538240000000002e-06, "loss": 0.0, "step": 107500 }, { "epoch": 1.7216, "grad_norm": 4.3990203146826445e-10, "learning_rate": 8.527573333333334e-06, "loss": 0.0, "step": 107600 }, { "epoch": 1.7231999999999998, "grad_norm": 4.527758445949104e-10, "learning_rate": 8.516906666666667e-06, "loss": 0.0, "step": 107700 }, { "epoch": 1.7248, "grad_norm": 4.432502143103534e-10, "learning_rate": 8.506240000000001e-06, "loss": 0.0, "step": 107800 }, { "epoch": 1.7264, "grad_norm": 5.320764384642018e-10, "learning_rate": 8.495573333333335e-06, "loss": 0.0, "step": 107900 }, { "epoch": 1.728, "grad_norm": 5.419791282434971e-10, "learning_rate": 8.484906666666667e-06, "loss": 0.0, "step": 108000 }, { "epoch": 1.7296, "grad_norm": 4.636018513526352e-10, "learning_rate": 8.47424e-06, "loss": 0.0, "step": 108100 }, { "epoch": 1.7311999999999999, "grad_norm": 4.347150417416401e-10, "learning_rate": 8.463573333333334e-06, "loss": 0.0, "step": 108200 }, { "epoch": 1.7328000000000001, "grad_norm": 4.0812139778800827e-10, "learning_rate": 8.453013333333334e-06, "loss": 0.0, "step": 108300 }, { "epoch": 1.7344, "grad_norm": 4.330950598152583e-10, "learning_rate": 8.442346666666668e-06, "loss": 0.0, "step": 108400 }, { "epoch": 1.736, "grad_norm": 4.0077227647650204e-10, "learning_rate": 8.431680000000001e-06, "loss": 0.0, "step": 108500 }, { "epoch": 1.7376, "grad_norm": 3.9647155003486034e-10, "learning_rate": 8.421013333333335e-06, "loss": 0.0, "step": 108600 }, { "epoch": 1.7391999999999999, "grad_norm": 4.4827672129876817e-10, "learning_rate": 8.410346666666669e-06, "loss": 0.0, "step": 108700 }, { "epoch": 1.7408000000000001, "grad_norm": 4.3940090455052427e-10, "learning_rate": 8.39968e-06, "loss": 0.0, "step": 108800 }, { "epoch": 1.7424, "grad_norm": 4.4715203761924727e-10, "learning_rate": 8.389013333333334e-06, "loss": 0.0, "step": 108900 }, { "epoch": 1.744, "grad_norm": 5.149586312924725e-10, "learning_rate": 8.378346666666666e-06, "loss": 0.0, "step": 109000 }, { "epoch": 1.7456, "grad_norm": 3.7759578797036397e-10, "learning_rate": 8.36768e-06, "loss": 0.0, "step": 109100 }, { "epoch": 1.7471999999999999, "grad_norm": 4.5103748513852793e-10, "learning_rate": 8.357013333333333e-06, "loss": 0.0, "step": 109200 }, { "epoch": 1.7488000000000001, "grad_norm": 3.922396574207454e-10, "learning_rate": 8.346346666666667e-06, "loss": 0.0, "step": 109300 }, { "epoch": 1.7504, "grad_norm": 4.3240877545258627e-10, "learning_rate": 8.33568e-06, "loss": 0.0, "step": 109400 }, { "epoch": 1.752, "grad_norm": 4.870079339802658e-10, "learning_rate": 8.325013333333334e-06, "loss": 0.0, "step": 109500 }, { "epoch": 1.7536, "grad_norm": 4.3274636651879916e-10, "learning_rate": 8.314346666666666e-06, "loss": 0.0, "step": 109600 }, { "epoch": 1.7551999999999999, "grad_norm": 4.619736815314468e-10, "learning_rate": 8.30368e-06, "loss": 0.0, "step": 109700 }, { "epoch": 1.7568000000000001, "grad_norm": 4.66312211067077e-10, "learning_rate": 8.293013333333334e-06, "loss": 0.0, "step": 109800 }, { "epoch": 1.7584, "grad_norm": 4.596607261486696e-10, "learning_rate": 8.282346666666667e-06, "loss": 0.0, "step": 109900 }, { "epoch": 1.76, "grad_norm": 4.215601479007347e-10, "learning_rate": 8.271680000000001e-06, "loss": 0.0, "step": 110000 }, { "epoch": 1.7616, "grad_norm": 4.482559601282077e-10, "learning_rate": 8.261013333333335e-06, "loss": 0.0, "step": 110100 }, { "epoch": 1.7631999999999999, "grad_norm": 5.197632879649916e-10, "learning_rate": 8.250346666666668e-06, "loss": 0.0, "step": 110200 }, { "epoch": 1.7648000000000001, "grad_norm": 4.0586969896061476e-10, "learning_rate": 8.239786666666667e-06, "loss": 0.0, "step": 110300 }, { "epoch": 1.7664, "grad_norm": 4.2740991301748466e-10, "learning_rate": 8.22912e-06, "loss": 0.0, "step": 110400 }, { "epoch": 1.768, "grad_norm": 4.692780053439094e-10, "learning_rate": 8.218453333333334e-06, "loss": 0.0, "step": 110500 }, { "epoch": 1.7696, "grad_norm": 4.822203747423259e-10, "learning_rate": 8.207786666666668e-06, "loss": 0.0, "step": 110600 }, { "epoch": 1.7711999999999999, "grad_norm": 4.1366046699131687e-10, "learning_rate": 8.197120000000001e-06, "loss": 0.0, "step": 110700 }, { "epoch": 1.7728000000000002, "grad_norm": 4.547510146224454e-10, "learning_rate": 8.186453333333333e-06, "loss": 0.0, "step": 110800 }, { "epoch": 1.7744, "grad_norm": 4.710006273889178e-10, "learning_rate": 8.175786666666667e-06, "loss": 0.0, "step": 110900 }, { "epoch": 1.776, "grad_norm": 4.019528043741616e-10, "learning_rate": 8.16512e-06, "loss": 0.0, "step": 111000 }, { "epoch": 1.7776, "grad_norm": 4.4090189832424187e-10, "learning_rate": 8.154453333333334e-06, "loss": 0.0, "step": 111100 }, { "epoch": 1.7792, "grad_norm": 3.623143174369403e-10, "learning_rate": 8.143786666666668e-06, "loss": 0.0, "step": 111200 }, { "epoch": 1.7808000000000002, "grad_norm": 4.729666658320753e-10, "learning_rate": 8.133120000000002e-06, "loss": 0.0, "step": 111300 }, { "epoch": 1.7824, "grad_norm": 4.4260373144311416e-10, "learning_rate": 8.122453333333335e-06, "loss": 0.0, "step": 111400 }, { "epoch": 1.784, "grad_norm": 4.167254319398239e-10, "learning_rate": 8.111786666666667e-06, "loss": 0.0, "step": 111500 }, { "epoch": 1.7856, "grad_norm": 3.742823273533702e-10, "learning_rate": 8.10112e-06, "loss": 0.0, "step": 111600 }, { "epoch": 1.7872, "grad_norm": 3.949512938916655e-10, "learning_rate": 8.090453333333333e-06, "loss": 0.0, "step": 111700 }, { "epoch": 1.7888, "grad_norm": 4.0243700039077623e-10, "learning_rate": 8.079786666666666e-06, "loss": 0.0, "step": 111800 }, { "epoch": 1.7904, "grad_norm": 4.3016451511945775e-10, "learning_rate": 8.06912e-06, "loss": 0.0, "step": 111900 }, { "epoch": 1.792, "grad_norm": 5.145310288945382e-10, "learning_rate": 8.058453333333334e-06, "loss": 0.0, "step": 112000 }, { "epoch": 1.7936, "grad_norm": 4.136258835440998e-10, "learning_rate": 8.047786666666667e-06, "loss": 0.0, "step": 112100 }, { "epoch": 1.7952, "grad_norm": 4.291315636173465e-10, "learning_rate": 8.037120000000001e-06, "loss": 0.0, "step": 112200 }, { "epoch": 1.7968, "grad_norm": 4.4781267583005047e-10, "learning_rate": 8.026560000000001e-06, "loss": 0.0, "step": 112300 }, { "epoch": 1.7984, "grad_norm": 4.1648379189851426e-10, "learning_rate": 8.015893333333335e-06, "loss": 0.0, "step": 112400 }, { "epoch": 1.8, "grad_norm": 3.5812414145297566e-10, "learning_rate": 8.005226666666668e-06, "loss": 0.0, "step": 112500 }, { "epoch": 1.8016, "grad_norm": 3.9350600555820847e-10, "learning_rate": 7.994560000000002e-06, "loss": 0.0, "step": 112600 }, { "epoch": 1.8032, "grad_norm": 5.302043804000789e-10, "learning_rate": 7.983893333333334e-06, "loss": 0.0, "step": 112700 }, { "epoch": 1.8048, "grad_norm": 4.2428871527278034e-10, "learning_rate": 7.973226666666668e-06, "loss": 0.0, "step": 112800 }, { "epoch": 1.8064, "grad_norm": 4.075805526415621e-10, "learning_rate": 7.96256e-06, "loss": 0.0, "step": 112900 }, { "epoch": 1.808, "grad_norm": 3.9440761767650656e-10, "learning_rate": 7.951893333333333e-06, "loss": 0.0, "step": 113000 }, { "epoch": 1.8096, "grad_norm": 4.301925204952539e-10, "learning_rate": 7.941226666666667e-06, "loss": 0.0, "step": 113100 }, { "epoch": 1.8112, "grad_norm": 4.331336123097884e-10, "learning_rate": 7.93056e-06, "loss": 0.0, "step": 113200 }, { "epoch": 1.8128, "grad_norm": 4.014021059983719e-10, "learning_rate": 7.919893333333334e-06, "loss": 0.0, "step": 113300 }, { "epoch": 1.8144, "grad_norm": 4.0218645080969395e-10, "learning_rate": 7.909226666666668e-06, "loss": 0.0, "step": 113400 }, { "epoch": 1.8159999999999998, "grad_norm": 3.9455977374203144e-10, "learning_rate": 7.898560000000002e-06, "loss": 0.0, "step": 113500 }, { "epoch": 1.8176, "grad_norm": 4.237443729238066e-10, "learning_rate": 7.887893333333333e-06, "loss": 0.0, "step": 113600 }, { "epoch": 1.8192, "grad_norm": 4.090339178475233e-10, "learning_rate": 7.877226666666667e-06, "loss": 0.0, "step": 113700 }, { "epoch": 1.8208, "grad_norm": 4.000908215839871e-10, "learning_rate": 7.86656e-06, "loss": 0.0, "step": 113800 }, { "epoch": 1.8224, "grad_norm": 5.131250979673041e-10, "learning_rate": 7.855893333333334e-06, "loss": 0.0, "step": 113900 }, { "epoch": 1.8239999999999998, "grad_norm": 4.795586705519383e-10, "learning_rate": 7.845226666666668e-06, "loss": 0.0, "step": 114000 }, { "epoch": 1.8256000000000001, "grad_norm": 4.0907541243306866e-10, "learning_rate": 7.834560000000002e-06, "loss": 0.0, "step": 114100 }, { "epoch": 1.8272, "grad_norm": 3.9622685688023296e-10, "learning_rate": 7.823893333333334e-06, "loss": 0.0, "step": 114200 }, { "epoch": 1.8288, "grad_norm": 4.1976641607099907e-10, "learning_rate": 7.813333333333334e-06, "loss": 0.0, "step": 114300 }, { "epoch": 1.8304, "grad_norm": 4.1367503866851507e-10, "learning_rate": 7.802666666666667e-06, "loss": 0.0, "step": 114400 }, { "epoch": 1.8319999999999999, "grad_norm": 4.634559958027751e-10, "learning_rate": 7.792000000000001e-06, "loss": 0.0, "step": 114500 }, { "epoch": 1.8336000000000001, "grad_norm": 3.870982423492819e-10, "learning_rate": 7.781333333333335e-06, "loss": 0.0, "step": 114600 }, { "epoch": 1.8352, "grad_norm": 4.067195191748141e-10, "learning_rate": 7.770666666666668e-06, "loss": 0.0, "step": 114700 }, { "epoch": 1.8368, "grad_norm": 4.756415816764559e-10, "learning_rate": 7.76e-06, "loss": 0.0, "step": 114800 }, { "epoch": 1.8384, "grad_norm": 3.771707113298106e-10, "learning_rate": 7.749333333333334e-06, "loss": 0.0, "step": 114900 }, { "epoch": 1.8399999999999999, "grad_norm": 4.661844243969426e-10, "learning_rate": 7.738666666666668e-06, "loss": 0.0, "step": 115000 }, { "epoch": 1.8416000000000001, "grad_norm": 3.889114308375241e-10, "learning_rate": 7.728000000000001e-06, "loss": 0.0, "step": 115100 }, { "epoch": 1.8432, "grad_norm": 4.98358521117126e-10, "learning_rate": 7.717333333333335e-06, "loss": 0.0, "step": 115200 }, { "epoch": 1.8448, "grad_norm": 4.00487337737232e-10, "learning_rate": 7.706666666666669e-06, "loss": 0.0, "step": 115300 }, { "epoch": 1.8464, "grad_norm": 4.590608726484646e-10, "learning_rate": 7.696e-06, "loss": 0.0, "step": 115400 }, { "epoch": 1.8479999999999999, "grad_norm": 4.706336431681279e-10, "learning_rate": 7.685333333333334e-06, "loss": 0.0, "step": 115500 }, { "epoch": 1.8496000000000001, "grad_norm": 4.2912273734430073e-10, "learning_rate": 7.674666666666666e-06, "loss": 0.0, "step": 115600 }, { "epoch": 1.8512, "grad_norm": 4.348189308611694e-10, "learning_rate": 7.664e-06, "loss": 0.0, "step": 115700 }, { "epoch": 1.8528, "grad_norm": 4.2325393190267846e-10, "learning_rate": 7.653333333333333e-06, "loss": 0.0, "step": 115800 }, { "epoch": 1.8544, "grad_norm": 3.974467699396911e-10, "learning_rate": 7.642666666666667e-06, "loss": 0.0, "step": 115900 }, { "epoch": 1.8559999999999999, "grad_norm": 3.9203501556173137e-10, "learning_rate": 7.632e-06, "loss": 0.0, "step": 116000 }, { "epoch": 1.8576000000000001, "grad_norm": 3.9661945949731603e-10, "learning_rate": 7.621333333333334e-06, "loss": 0.0, "step": 116100 }, { "epoch": 1.8592, "grad_norm": 3.812622439980373e-10, "learning_rate": 7.610666666666667e-06, "loss": 0.0, "step": 116200 }, { "epoch": 1.8608, "grad_norm": 3.698427120113479e-10, "learning_rate": 7.600106666666667e-06, "loss": 0.0, "step": 116300 }, { "epoch": 1.8624, "grad_norm": 4.232131312065235e-10, "learning_rate": 7.58944e-06, "loss": 0.0, "step": 116400 }, { "epoch": 1.8639999999999999, "grad_norm": 4.4403153376393334e-10, "learning_rate": 7.578773333333334e-06, "loss": 0.0, "step": 116500 }, { "epoch": 1.8656000000000001, "grad_norm": 4.1083020319021557e-10, "learning_rate": 7.568106666666667e-06, "loss": 0.0, "step": 116600 }, { "epoch": 1.8672, "grad_norm": 3.7283290343914643e-10, "learning_rate": 7.55744e-06, "loss": 0.0, "step": 116700 }, { "epoch": 1.8688, "grad_norm": 3.569435857997405e-10, "learning_rate": 7.546773333333334e-06, "loss": 0.0, "step": 116800 }, { "epoch": 1.8704, "grad_norm": 3.854363495037205e-10, "learning_rate": 7.536106666666667e-06, "loss": 0.0, "step": 116900 }, { "epoch": 1.8719999999999999, "grad_norm": 4.250739205069465e-10, "learning_rate": 7.52544e-06, "loss": 0.0, "step": 117000 }, { "epoch": 1.8736000000000002, "grad_norm": 3.892854649745203e-10, "learning_rate": 7.514773333333334e-06, "loss": 0.0, "step": 117100 }, { "epoch": 1.8752, "grad_norm": 3.700696971087325e-10, "learning_rate": 7.5041066666666676e-06, "loss": 0.0, "step": 117200 }, { "epoch": 1.8768, "grad_norm": 3.9235820148419975e-10, "learning_rate": 7.49344e-06, "loss": 0.0, "step": 117300 }, { "epoch": 1.8784, "grad_norm": 4.3322692655500816e-10, "learning_rate": 7.482773333333334e-06, "loss": 0.0, "step": 117400 }, { "epoch": 1.88, "grad_norm": 3.9536091067660095e-10, "learning_rate": 7.472106666666668e-06, "loss": 0.0, "step": 117500 }, { "epoch": 1.8816000000000002, "grad_norm": 4.2368120123370545e-10, "learning_rate": 7.4614400000000005e-06, "loss": 0.0, "step": 117600 }, { "epoch": 1.8832, "grad_norm": 3.6490577226544474e-10, "learning_rate": 7.450773333333334e-06, "loss": 0.0, "step": 117700 }, { "epoch": 1.8848, "grad_norm": 4.5185730157548676e-10, "learning_rate": 7.440106666666668e-06, "loss": 0.0, "step": 117800 }, { "epoch": 1.8864, "grad_norm": 4.394575814359314e-10, "learning_rate": 7.4294400000000015e-06, "loss": 0.0, "step": 117900 }, { "epoch": 1.888, "grad_norm": 3.9389899675335016e-10, "learning_rate": 7.418773333333334e-06, "loss": 0.0, "step": 118000 }, { "epoch": 1.8896, "grad_norm": 3.721323804661836e-10, "learning_rate": 7.408106666666667e-06, "loss": 0.0, "step": 118100 }, { "epoch": 1.8912, "grad_norm": 3.776292334389808e-10, "learning_rate": 7.39744e-06, "loss": 0.0, "step": 118200 }, { "epoch": 1.8928, "grad_norm": 5.135606384598645e-10, "learning_rate": 7.386880000000001e-06, "loss": 0.0, "step": 118300 }, { "epoch": 1.8944, "grad_norm": 3.89065391015464e-10, "learning_rate": 7.376213333333334e-06, "loss": 0.0, "step": 118400 }, { "epoch": 1.896, "grad_norm": 4.307231238342979e-10, "learning_rate": 7.365546666666667e-06, "loss": 0.0, "step": 118500 }, { "epoch": 1.8976, "grad_norm": 3.7099379124327925e-10, "learning_rate": 7.354880000000001e-06, "loss": 0.0, "step": 118600 }, { "epoch": 1.8992, "grad_norm": 3.781083501852578e-10, "learning_rate": 7.3442133333333345e-06, "loss": 0.0, "step": 118700 }, { "epoch": 1.9008, "grad_norm": 3.7049530110522255e-10, "learning_rate": 7.333546666666667e-06, "loss": 0.0, "step": 118800 }, { "epoch": 1.9024, "grad_norm": 4.3801351434780145e-10, "learning_rate": 7.322880000000001e-06, "loss": 0.0, "step": 118900 }, { "epoch": 1.904, "grad_norm": 3.7083930370940266e-10, "learning_rate": 7.312213333333334e-06, "loss": 0.0, "step": 119000 }, { "epoch": 1.9056, "grad_norm": 3.9448730393409903e-10, "learning_rate": 7.3015466666666666e-06, "loss": 0.0, "step": 119100 }, { "epoch": 1.9072, "grad_norm": 3.2575211972307727e-10, "learning_rate": 7.29088e-06, "loss": 0.0, "step": 119200 }, { "epoch": 1.9088, "grad_norm": 4.2201819816511943e-10, "learning_rate": 7.280213333333334e-06, "loss": 0.0, "step": 119300 }, { "epoch": 1.9104, "grad_norm": 3.909043089223019e-10, "learning_rate": 7.269546666666667e-06, "loss": 0.0, "step": 119400 }, { "epoch": 1.912, "grad_norm": 4.1434686237629137e-10, "learning_rate": 7.25888e-06, "loss": 0.0, "step": 119500 }, { "epoch": 1.9136, "grad_norm": 3.6153977034381057e-10, "learning_rate": 7.248213333333334e-06, "loss": 0.0, "step": 119600 }, { "epoch": 1.9152, "grad_norm": 3.851917951269712e-10, "learning_rate": 7.237546666666667e-06, "loss": 0.0, "step": 119700 }, { "epoch": 1.9167999999999998, "grad_norm": 3.6602923469963855e-10, "learning_rate": 7.2268800000000005e-06, "loss": 0.0, "step": 119800 }, { "epoch": 1.9184, "grad_norm": 3.5369218664982327e-10, "learning_rate": 7.216213333333334e-06, "loss": 0.0, "step": 119900 }, { "epoch": 1.92, "grad_norm": 3.881550636464226e-10, "learning_rate": 7.205546666666667e-06, "loss": 0.0, "step": 120000 }, { "epoch": 1.9216, "grad_norm": 3.5312691659683537e-10, "learning_rate": 7.194880000000001e-06, "loss": 0.0, "step": 120100 }, { "epoch": 1.9232, "grad_norm": 4.049090229774066e-10, "learning_rate": 7.184213333333334e-06, "loss": 0.0, "step": 120200 }, { "epoch": 1.9247999999999998, "grad_norm": 3.724604513699603e-10, "learning_rate": 7.173653333333333e-06, "loss": 0.0, "step": 120300 }, { "epoch": 1.9264000000000001, "grad_norm": 4.271837328317929e-10, "learning_rate": 7.162986666666667e-06, "loss": 0.0, "step": 120400 }, { "epoch": 1.928, "grad_norm": 3.5024760869362126e-10, "learning_rate": 7.152320000000001e-06, "loss": 0.0, "step": 120500 }, { "epoch": 1.9296, "grad_norm": 3.967563222406767e-10, "learning_rate": 7.1416533333333335e-06, "loss": 0.0, "step": 120600 }, { "epoch": 1.9312, "grad_norm": 3.7704683819583806e-10, "learning_rate": 7.130986666666667e-06, "loss": 0.0, "step": 120700 }, { "epoch": 1.9327999999999999, "grad_norm": 4.5326434272574545e-10, "learning_rate": 7.120320000000001e-06, "loss": 0.0, "step": 120800 }, { "epoch": 1.9344000000000001, "grad_norm": 4.3631270818522694e-10, "learning_rate": 7.109653333333334e-06, "loss": 0.0, "step": 120900 }, { "epoch": 1.936, "grad_norm": 3.850170182673196e-10, "learning_rate": 7.098986666666667e-06, "loss": 0.0, "step": 121000 }, { "epoch": 1.9376, "grad_norm": 3.7997033297543226e-10, "learning_rate": 7.088320000000001e-06, "loss": 0.0, "step": 121100 }, { "epoch": 1.9392, "grad_norm": 3.596896946955752e-10, "learning_rate": 7.077653333333334e-06, "loss": 0.0, "step": 121200 }, { "epoch": 1.9407999999999999, "grad_norm": 4.466108038947425e-10, "learning_rate": 7.066986666666667e-06, "loss": 0.0, "step": 121300 }, { "epoch": 1.9424000000000001, "grad_norm": 3.7888384096795846e-10, "learning_rate": 7.056320000000001e-06, "loss": 0.0, "step": 121400 }, { "epoch": 1.944, "grad_norm": 4.121096519593692e-10, "learning_rate": 7.045653333333335e-06, "loss": 0.0, "step": 121500 }, { "epoch": 1.9456, "grad_norm": 3.6524303026475025e-10, "learning_rate": 7.0349866666666676e-06, "loss": 0.0, "step": 121600 }, { "epoch": 1.9472, "grad_norm": 3.782101298810403e-10, "learning_rate": 7.02432e-06, "loss": 0.0, "step": 121700 }, { "epoch": 1.9487999999999999, "grad_norm": 3.848371066261791e-10, "learning_rate": 7.013653333333333e-06, "loss": 0.0, "step": 121800 }, { "epoch": 1.9504000000000001, "grad_norm": 4.2844633396654785e-10, "learning_rate": 7.002986666666667e-06, "loss": 0.0, "step": 121900 }, { "epoch": 1.952, "grad_norm": 3.7923861273547743e-10, "learning_rate": 6.9923200000000005e-06, "loss": 0.0, "step": 122000 }, { "epoch": 1.9536, "grad_norm": 3.8374092792281544e-10, "learning_rate": 6.981653333333333e-06, "loss": 0.0, "step": 122100 }, { "epoch": 1.9552, "grad_norm": 3.8730768592287745e-10, "learning_rate": 6.970986666666667e-06, "loss": 0.0, "step": 122200 }, { "epoch": 1.9567999999999999, "grad_norm": 3.046911334347868e-10, "learning_rate": 6.960426666666668e-06, "loss": 0.0, "step": 122300 }, { "epoch": 1.9584000000000001, "grad_norm": 4.0943107237900733e-10, "learning_rate": 6.949760000000001e-06, "loss": 0.0, "step": 122400 }, { "epoch": 1.96, "grad_norm": 3.87526372103153e-10, "learning_rate": 6.939093333333334e-06, "loss": 0.0, "step": 122500 }, { "epoch": 1.9616, "grad_norm": 3.5078512317099353e-10, "learning_rate": 6.928426666666668e-06, "loss": 0.0, "step": 122600 }, { "epoch": 1.9632, "grad_norm": 3.851710339564107e-10, "learning_rate": 6.91776e-06, "loss": 0.0, "step": 122700 }, { "epoch": 1.9647999999999999, "grad_norm": 4.2831735380666203e-10, "learning_rate": 6.9070933333333335e-06, "loss": 0.0, "step": 122800 }, { "epoch": 1.9664000000000001, "grad_norm": 4.133291209296175e-10, "learning_rate": 6.896426666666667e-06, "loss": 0.0, "step": 122900 }, { "epoch": 1.968, "grad_norm": 3.5069580572866244e-10, "learning_rate": 6.88576e-06, "loss": 0.0, "step": 123000 }, { "epoch": 1.9696, "grad_norm": 4.440373624348126e-10, "learning_rate": 6.875093333333334e-06, "loss": 0.0, "step": 123100 }, { "epoch": 1.9712, "grad_norm": 4.2887132734037436e-10, "learning_rate": 6.864426666666667e-06, "loss": 0.0, "step": 123200 }, { "epoch": 1.9727999999999999, "grad_norm": 3.9255546036010003e-10, "learning_rate": 6.85376e-06, "loss": 0.0, "step": 123300 }, { "epoch": 1.9744000000000002, "grad_norm": 3.361030898041406e-10, "learning_rate": 6.843200000000001e-06, "loss": 0.0012, "step": 123400 }, { "epoch": 1.976, "grad_norm": 4.0181064031585834e-10, "learning_rate": 6.8325333333333345e-06, "loss": 0.0, "step": 123500 }, { "epoch": 1.9776, "grad_norm": 3.394372005693924e-10, "learning_rate": 6.821866666666668e-06, "loss": 0.0, "step": 123600 }, { "epoch": 1.9792, "grad_norm": 3.51736029191585e-10, "learning_rate": 6.8112e-06, "loss": 0.0, "step": 123700 }, { "epoch": 1.9808, "grad_norm": 4.138572817780073e-10, "learning_rate": 6.800533333333334e-06, "loss": 0.0, "step": 123800 }, { "epoch": 1.9824000000000002, "grad_norm": 3.4377134472407533e-10, "learning_rate": 6.789866666666667e-06, "loss": 0.0, "step": 123900 }, { "epoch": 1.984, "grad_norm": 3.4477956600831305e-10, "learning_rate": 6.7792e-06, "loss": 0.0, "step": 124000 }, { "epoch": 1.9856, "grad_norm": 3.550735816482131e-10, "learning_rate": 6.768533333333334e-06, "loss": 0.0, "step": 124100 }, { "epoch": 1.9872, "grad_norm": 3.8030351090512227e-10, "learning_rate": 6.757866666666667e-06, "loss": 0.0, "step": 124200 }, { "epoch": 1.9888, "grad_norm": 3.70059261012301e-10, "learning_rate": 6.7472e-06, "loss": 0.0, "step": 124300 }, { "epoch": 1.9904, "grad_norm": 4.0140915591457826e-10, "learning_rate": 6.736533333333334e-06, "loss": 0.0, "step": 124400 }, { "epoch": 1.992, "grad_norm": 3.9125461204214673e-10, "learning_rate": 6.725866666666667e-06, "loss": 0.0, "step": 124500 }, { "epoch": 1.9936, "grad_norm": 3.850074148381566e-10, "learning_rate": 6.7152000000000005e-06, "loss": 0.0, "step": 124600 }, { "epoch": 1.9952, "grad_norm": 3.167325290931444e-10, "learning_rate": 6.704533333333334e-06, "loss": 0.0, "step": 124700 }, { "epoch": 1.9968, "grad_norm": 3.8711692185167124e-10, "learning_rate": 6.693866666666667e-06, "loss": 0.0, "step": 124800 }, { "epoch": 1.9984, "grad_norm": 4.977473988532211e-10, "learning_rate": 6.683200000000001e-06, "loss": 0.0, "step": 124900 }, { "epoch": 2.0, "grad_norm": 4.150200183516972e-10, "learning_rate": 6.672533333333334e-06, "loss": 0.0, "step": 125000 }, { "epoch": 2.0, "eval_accuracy": 1.0, "eval_f1": 1.0, "eval_loss": 0.0, "eval_precision": 1.0, "eval_recall": 1.0, "eval_runtime": 8.0963, "eval_samples_per_second": 617.568, "eval_steps_per_second": 19.392, "step": 125000 }, { "epoch": 2.0016, "grad_norm": 3.991003638681434e-10, "learning_rate": 6.661866666666668e-06, "loss": 0.0, "step": 125100 }, { "epoch": 2.0032, "grad_norm": 3.1487351614956083e-10, "learning_rate": 6.651200000000001e-06, "loss": 0.0, "step": 125200 }, { "epoch": 2.0048, "grad_norm": 4.1273645612349696e-10, "learning_rate": 6.6405333333333345e-06, "loss": 0.0, "step": 125300 }, { "epoch": 2.0064, "grad_norm": 3.750386945444717e-10, "learning_rate": 6.6298666666666664e-06, "loss": 0.0, "step": 125400 }, { "epoch": 2.008, "grad_norm": 4.321738800161512e-10, "learning_rate": 6.6192e-06, "loss": 0.0, "step": 125500 }, { "epoch": 2.0096, "grad_norm": 4.4668596599350963e-10, "learning_rate": 6.608533333333334e-06, "loss": 0.0, "step": 125600 }, { "epoch": 2.0112, "grad_norm": 7.448987844327348e-07, "learning_rate": 6.5978666666666666e-06, "loss": 0.0, "step": 125700 }, { "epoch": 2.0128, "grad_norm": 4.136745113125784e-10, "learning_rate": 6.5872e-06, "loss": 0.0, "step": 125800 }, { "epoch": 2.0144, "grad_norm": 3.8429967541553367e-10, "learning_rate": 6.576533333333334e-06, "loss": 0.0, "step": 125900 }, { "epoch": 2.016, "grad_norm": 3.879069843115701e-10, "learning_rate": 6.565866666666667e-06, "loss": 0.0, "step": 126000 }, { "epoch": 2.0176, "grad_norm": 4.6280776433427206e-10, "learning_rate": 6.5552e-06, "loss": 0.0, "step": 126100 }, { "epoch": 2.0192, "grad_norm": 3.790135427728103e-10, "learning_rate": 6.544533333333334e-06, "loss": 0.0, "step": 126200 }, { "epoch": 2.0208, "grad_norm": 7.234312038306712e-10, "learning_rate": 6.533866666666667e-06, "loss": 0.0, "step": 126300 }, { "epoch": 2.0224, "grad_norm": 3.8614270114756266e-10, "learning_rate": 6.5232000000000005e-06, "loss": 0.0, "step": 126400 }, { "epoch": 2.024, "grad_norm": 3.2542066263907543e-10, "learning_rate": 6.512533333333334e-06, "loss": 0.0, "step": 126500 }, { "epoch": 2.0256, "grad_norm": 3.9041017640961684e-10, "learning_rate": 6.501866666666668e-06, "loss": 0.0, "step": 126600 }, { "epoch": 2.0272, "grad_norm": 3.871179210523934e-10, "learning_rate": 6.491200000000001e-06, "loss": 0.0, "step": 126700 }, { "epoch": 2.0288, "grad_norm": 3.9133457585549536e-10, "learning_rate": 6.480533333333334e-06, "loss": 0.0, "step": 126800 }, { "epoch": 2.0304, "grad_norm": 3.894175260032995e-10, "learning_rate": 6.469866666666668e-06, "loss": 0.0, "step": 126900 }, { "epoch": 2.032, "grad_norm": 3.497703515709105e-10, "learning_rate": 6.459200000000001e-06, "loss": 0.0, "step": 127000 }, { "epoch": 2.0336, "grad_norm": 4.0571357384777684e-10, "learning_rate": 6.448533333333334e-06, "loss": 0.0, "step": 127100 }, { "epoch": 2.0352, "grad_norm": 3.678700954967695e-10, "learning_rate": 6.437866666666666e-06, "loss": 0.0, "step": 127200 }, { "epoch": 2.0368, "grad_norm": 3.897554778919954e-10, "learning_rate": 6.4272e-06, "loss": 0.0, "step": 127300 }, { "epoch": 2.0384, "grad_norm": 3.3333188986794937e-10, "learning_rate": 6.416640000000001e-06, "loss": 0.0, "step": 127400 }, { "epoch": 2.04, "grad_norm": 3.4666983173003985e-10, "learning_rate": 6.4059733333333345e-06, "loss": 0.0, "step": 127500 }, { "epoch": 2.0416, "grad_norm": 3.371311285693679e-10, "learning_rate": 6.395306666666667e-06, "loss": 0.0, "step": 127600 }, { "epoch": 2.0432, "grad_norm": 3.766844614006004e-10, "learning_rate": 6.384640000000001e-06, "loss": 0.0, "step": 127700 }, { "epoch": 2.0448, "grad_norm": 3.6131420078078236e-10, "learning_rate": 6.373973333333335e-06, "loss": 0.0, "step": 127800 }, { "epoch": 2.0464, "grad_norm": 4.013271381886341e-10, "learning_rate": 6.363306666666667e-06, "loss": 0.0, "step": 127900 }, { "epoch": 2.048, "grad_norm": 3.822734351288659e-10, "learning_rate": 6.352640000000001e-06, "loss": 0.0, "step": 128000 }, { "epoch": 2.0496, "grad_norm": 4.073744674926161e-10, "learning_rate": 6.341973333333333e-06, "loss": 0.0, "step": 128100 }, { "epoch": 2.0512, "grad_norm": 3.558728589592164e-10, "learning_rate": 6.331306666666667e-06, "loss": 0.0, "step": 128200 }, { "epoch": 2.0528, "grad_norm": 3.589773478474001e-10, "learning_rate": 6.32064e-06, "loss": 0.0, "step": 128300 }, { "epoch": 2.0544, "grad_norm": 3.087334277118714e-10, "learning_rate": 6.309973333333333e-06, "loss": 0.0, "step": 128400 }, { "epoch": 2.056, "grad_norm": 3.6877820241976167e-10, "learning_rate": 6.299306666666667e-06, "loss": 0.0, "step": 128500 }, { "epoch": 2.0576, "grad_norm": 3.531880898854922e-10, "learning_rate": 6.2886400000000005e-06, "loss": 0.0, "step": 128600 }, { "epoch": 2.0592, "grad_norm": 3.710859119987475e-10, "learning_rate": 6.277973333333333e-06, "loss": 0.0, "step": 128700 }, { "epoch": 2.0608, "grad_norm": 3.6059405461585925e-10, "learning_rate": 6.267306666666667e-06, "loss": 0.0, "step": 128800 }, { "epoch": 2.0624, "grad_norm": 3.2803604277376053e-10, "learning_rate": 6.256640000000001e-06, "loss": 0.0, "step": 128900 }, { "epoch": 2.064, "grad_norm": 4.3225656387591016e-10, "learning_rate": 6.245973333333334e-06, "loss": 0.0, "step": 129000 }, { "epoch": 2.0656, "grad_norm": 3.9650888128406336e-10, "learning_rate": 6.235306666666667e-06, "loss": 0.0, "step": 129100 }, { "epoch": 2.0672, "grad_norm": 4.1305875386754565e-10, "learning_rate": 6.224640000000001e-06, "loss": 0.0, "step": 129200 }, { "epoch": 2.0688, "grad_norm": 4.3229009261125384e-10, "learning_rate": 6.2139733333333344e-06, "loss": 0.0, "step": 129300 }, { "epoch": 2.0704, "grad_norm": 3.881890087154005e-10, "learning_rate": 6.2034133333333335e-06, "loss": 0.0, "step": 129400 }, { "epoch": 2.072, "grad_norm": 3.4428457307278393e-10, "learning_rate": 6.192746666666667e-06, "loss": 0.0, "step": 129500 }, { "epoch": 2.0736, "grad_norm": 3.849046081860763e-10, "learning_rate": 6.18208e-06, "loss": 0.0, "step": 129600 }, { "epoch": 2.0752, "grad_norm": 3.721246366605868e-10, "learning_rate": 6.171413333333334e-06, "loss": 0.0, "step": 129700 }, { "epoch": 2.0768, "grad_norm": 3.6488290167113746e-10, "learning_rate": 6.160746666666667e-06, "loss": 0.0, "step": 129800 }, { "epoch": 2.0784, "grad_norm": 4.0296502246128796e-10, "learning_rate": 6.15008e-06, "loss": 0.0, "step": 129900 }, { "epoch": 2.08, "grad_norm": 3.0108482373947254e-10, "learning_rate": 6.139413333333334e-06, "loss": 0.0, "step": 130000 }, { "epoch": 2.0816, "grad_norm": 3.71706887491996e-10, "learning_rate": 6.128746666666667e-06, "loss": 0.0, "step": 130100 }, { "epoch": 2.0832, "grad_norm": 3.201095222227224e-10, "learning_rate": 6.118080000000001e-06, "loss": 0.0, "step": 130200 }, { "epoch": 2.0848, "grad_norm": 3.1688793256101633e-10, "learning_rate": 6.107413333333334e-06, "loss": 0.0, "step": 130300 }, { "epoch": 2.0864, "grad_norm": 3.278495530611991e-10, "learning_rate": 6.0967466666666675e-06, "loss": 0.0, "step": 130400 }, { "epoch": 2.088, "grad_norm": 3.553420335755675e-10, "learning_rate": 6.086080000000001e-06, "loss": 0.0, "step": 130500 }, { "epoch": 2.0896, "grad_norm": 3.181967467291713e-10, "learning_rate": 6.075413333333334e-06, "loss": 0.0, "step": 130600 }, { "epoch": 2.0912, "grad_norm": 4.235712058875407e-10, "learning_rate": 6.064746666666668e-06, "loss": 0.0, "step": 130700 }, { "epoch": 2.0928, "grad_norm": 3.167354711841597e-10, "learning_rate": 6.05408e-06, "loss": 0.0, "step": 130800 }, { "epoch": 2.0944, "grad_norm": 3.328254616352666e-10, "learning_rate": 6.043413333333333e-06, "loss": 0.0, "step": 130900 }, { "epoch": 2.096, "grad_norm": 3.5349256854999567e-10, "learning_rate": 6.032746666666667e-06, "loss": 0.0, "step": 131000 }, { "epoch": 2.0976, "grad_norm": 3.653969349315389e-10, "learning_rate": 6.02208e-06, "loss": 0.0, "step": 131100 }, { "epoch": 2.0992, "grad_norm": 3.267140447071881e-10, "learning_rate": 6.0114133333333334e-06, "loss": 0.0, "step": 131200 }, { "epoch": 2.1008, "grad_norm": 3.5367314632495095e-10, "learning_rate": 6.000746666666667e-06, "loss": 0.0, "step": 131300 }, { "epoch": 2.1024, "grad_norm": 4.173340284463478e-10, "learning_rate": 5.990186666666668e-06, "loss": 0.0, "step": 131400 }, { "epoch": 2.104, "grad_norm": 3.092436307028379e-10, "learning_rate": 5.979520000000001e-06, "loss": 0.0, "step": 131500 }, { "epoch": 2.1056, "grad_norm": 3.255921643408044e-10, "learning_rate": 5.968853333333334e-06, "loss": 0.0, "step": 131600 }, { "epoch": 2.1072, "grad_norm": 3.18639781227148e-10, "learning_rate": 5.958186666666668e-06, "loss": 0.0, "step": 131700 }, { "epoch": 2.1088, "grad_norm": 3.323397113064175e-10, "learning_rate": 5.94752e-06, "loss": 0.0, "step": 131800 }, { "epoch": 2.1104, "grad_norm": 3.9191597189791594e-10, "learning_rate": 5.936853333333334e-06, "loss": 0.0, "step": 131900 }, { "epoch": 2.112, "grad_norm": 3.7129835317450954e-10, "learning_rate": 5.926186666666666e-06, "loss": 0.0, "step": 132000 }, { "epoch": 2.1136, "grad_norm": 3.4218919364725764e-10, "learning_rate": 5.91552e-06, "loss": 0.0, "step": 132100 }, { "epoch": 2.1152, "grad_norm": 3.935327064219507e-10, "learning_rate": 5.904853333333334e-06, "loss": 0.0, "step": 132200 }, { "epoch": 2.1168, "grad_norm": 3.9517442096403954e-10, "learning_rate": 5.8941866666666665e-06, "loss": 0.0, "step": 132300 }, { "epoch": 2.1184, "grad_norm": 4.338248094093444e-10, "learning_rate": 5.88352e-06, "loss": 0.0, "step": 132400 }, { "epoch": 2.12, "grad_norm": 3.169141893355487e-10, "learning_rate": 5.872853333333334e-06, "loss": 0.0, "step": 132500 }, { "epoch": 2.1216, "grad_norm": 3.3418851019817453e-10, "learning_rate": 5.8621866666666675e-06, "loss": 0.0, "step": 132600 }, { "epoch": 2.1232, "grad_norm": 3.151207073059936e-10, "learning_rate": 5.85152e-06, "loss": 0.0, "step": 132700 }, { "epoch": 2.1248, "grad_norm": 3.551595406658947e-10, "learning_rate": 5.840853333333334e-06, "loss": 0.0, "step": 132800 }, { "epoch": 2.1264, "grad_norm": 3.8189740259042537e-10, "learning_rate": 5.830186666666668e-06, "loss": 0.0, "step": 132900 }, { "epoch": 2.128, "grad_norm": 3.3512673192070963e-10, "learning_rate": 5.8195200000000005e-06, "loss": 0.0, "step": 133000 }, { "epoch": 2.1296, "grad_norm": 3.79571318820382e-10, "learning_rate": 5.808853333333334e-06, "loss": 0.0, "step": 133100 }, { "epoch": 2.1312, "grad_norm": 3.7049241452535853e-10, "learning_rate": 5.798186666666668e-06, "loss": 0.0, "step": 133200 }, { "epoch": 2.1328, "grad_norm": 3.589487318489404e-10, "learning_rate": 5.787520000000001e-06, "loss": 0.0, "step": 133300 }, { "epoch": 2.1344, "grad_norm": 3.515325253111712e-10, "learning_rate": 5.7769600000000005e-06, "loss": 0.0, "step": 133400 }, { "epoch": 2.136, "grad_norm": 2.953911559799849e-10, "learning_rate": 5.766293333333333e-06, "loss": 0.0, "step": 133500 }, { "epoch": 2.1376, "grad_norm": 3.7348593662223095e-10, "learning_rate": 5.755626666666667e-06, "loss": 0.0, "step": 133600 }, { "epoch": 2.1391999999999998, "grad_norm": 3.207605847599382e-10, "learning_rate": 5.744960000000001e-06, "loss": 0.0, "step": 133700 }, { "epoch": 2.1408, "grad_norm": 3.6121028390567744e-10, "learning_rate": 5.734293333333334e-06, "loss": 0.0, "step": 133800 }, { "epoch": 2.1424, "grad_norm": 3.1161104252497296e-10, "learning_rate": 5.723626666666667e-06, "loss": 0.0, "step": 133900 }, { "epoch": 2.144, "grad_norm": 3.2392713511519844e-10, "learning_rate": 5.712960000000001e-06, "loss": 0.0, "step": 134000 }, { "epoch": 2.1456, "grad_norm": 3.302331463839181e-10, "learning_rate": 5.7022933333333344e-06, "loss": 0.0, "step": 134100 }, { "epoch": 2.1471999999999998, "grad_norm": 3.19793053149553e-10, "learning_rate": 5.691626666666667e-06, "loss": 0.0, "step": 134200 }, { "epoch": 2.1488, "grad_norm": 3.187430319684381e-10, "learning_rate": 5.680960000000001e-06, "loss": 0.0, "step": 134300 }, { "epoch": 2.1504, "grad_norm": 3.623960298515527e-10, "learning_rate": 5.670293333333335e-06, "loss": 0.0, "step": 134400 }, { "epoch": 2.152, "grad_norm": 3.3849512082184674e-10, "learning_rate": 5.6596266666666665e-06, "loss": 0.0, "step": 134500 }, { "epoch": 2.1536, "grad_norm": 3.606306919756719e-10, "learning_rate": 5.64896e-06, "loss": 0.0, "step": 134600 }, { "epoch": 2.1552, "grad_norm": 4.167296230317419e-10, "learning_rate": 5.638293333333333e-06, "loss": 0.0, "step": 134700 }, { "epoch": 2.1568, "grad_norm": 3.812472559872049e-10, "learning_rate": 5.627626666666667e-06, "loss": 0.0, "step": 134800 }, { "epoch": 2.1584, "grad_norm": 3.74777847644836e-10, "learning_rate": 5.61696e-06, "loss": 0.0, "step": 134900 }, { "epoch": 2.16, "grad_norm": 3.498955569725126e-10, "learning_rate": 5.606293333333334e-06, "loss": 0.0, "step": 135000 }, { "epoch": 2.1616, "grad_norm": 3.2129504612399273e-10, "learning_rate": 5.595626666666667e-06, "loss": 0.0, "step": 135100 }, { "epoch": 2.1632, "grad_norm": 3.180447016859489e-10, "learning_rate": 5.5849600000000005e-06, "loss": 0.0, "step": 135200 }, { "epoch": 2.1648, "grad_norm": 3.785192992378228e-10, "learning_rate": 5.574293333333334e-06, "loss": 0.0, "step": 135300 }, { "epoch": 2.1664, "grad_norm": 3.1428346036754817e-10, "learning_rate": 5.563733333333334e-06, "loss": 0.0, "step": 135400 }, { "epoch": 2.168, "grad_norm": 3.4921379676866593e-10, "learning_rate": 5.553066666666667e-06, "loss": 0.0, "step": 135500 }, { "epoch": 2.1696, "grad_norm": 3.6303696160366883e-10, "learning_rate": 5.5424e-06, "loss": 0.0, "step": 135600 }, { "epoch": 2.1712, "grad_norm": 3.6458880359191426e-10, "learning_rate": 5.531733333333333e-06, "loss": 0.0, "step": 135700 }, { "epoch": 2.1728, "grad_norm": 3.6211800225061097e-10, "learning_rate": 5.521066666666667e-06, "loss": 0.0, "step": 135800 }, { "epoch": 2.1744, "grad_norm": 3.0631719383222844e-10, "learning_rate": 5.5104e-06, "loss": 0.0, "step": 135900 }, { "epoch": 2.176, "grad_norm": 3.3581656899706047e-10, "learning_rate": 5.4997333333333335e-06, "loss": 0.0, "step": 136000 }, { "epoch": 2.1776, "grad_norm": 3.078323707050856e-10, "learning_rate": 5.489066666666667e-06, "loss": 0.0, "step": 136100 }, { "epoch": 2.1792, "grad_norm": 3.726907671364188e-10, "learning_rate": 5.478400000000001e-06, "loss": 0.0, "step": 136200 }, { "epoch": 2.1808, "grad_norm": 3.7740641167793854e-10, "learning_rate": 5.467733333333334e-06, "loss": 0.0, "step": 136300 }, { "epoch": 2.1824, "grad_norm": 3.2373426162024543e-10, "learning_rate": 5.457066666666667e-06, "loss": 0.0, "step": 136400 }, { "epoch": 2.184, "grad_norm": 2.981603852703074e-10, "learning_rate": 5.446400000000001e-06, "loss": 0.0, "step": 136500 }, { "epoch": 2.1856, "grad_norm": 3.636410339513674e-10, "learning_rate": 5.435733333333334e-06, "loss": 0.0, "step": 136600 }, { "epoch": 2.1872, "grad_norm": 3.115487867688671e-10, "learning_rate": 5.425066666666667e-06, "loss": 0.0, "step": 136700 }, { "epoch": 2.1888, "grad_norm": 3.5186684121946143e-10, "learning_rate": 5.414400000000001e-06, "loss": 0.0, "step": 136800 }, { "epoch": 2.1904, "grad_norm": 2.877695304270844e-10, "learning_rate": 5.403733333333334e-06, "loss": 0.0, "step": 136900 }, { "epoch": 2.192, "grad_norm": 3.407149284928579e-10, "learning_rate": 5.3930666666666675e-06, "loss": 0.0, "step": 137000 }, { "epoch": 2.1936, "grad_norm": 3.9003689167316224e-10, "learning_rate": 5.382400000000001e-06, "loss": 0.0, "step": 137100 }, { "epoch": 2.1952, "grad_norm": 3.3503388952027535e-10, "learning_rate": 5.371733333333333e-06, "loss": 0.0, "step": 137200 }, { "epoch": 2.1968, "grad_norm": 3.3567607027329416e-10, "learning_rate": 5.361066666666667e-06, "loss": 0.0, "step": 137300 }, { "epoch": 2.1984, "grad_norm": 3.1499045038962947e-10, "learning_rate": 5.3505066666666675e-06, "loss": 0.0, "step": 137400 }, { "epoch": 2.2, "grad_norm": 3.2844049702163147e-10, "learning_rate": 5.33984e-06, "loss": 0.0, "step": 137500 }, { "epoch": 2.2016, "grad_norm": 3.623423783238877e-10, "learning_rate": 5.329173333333334e-06, "loss": 0.0, "step": 137600 }, { "epoch": 2.2032, "grad_norm": 3.3017180656180756e-10, "learning_rate": 5.318506666666668e-06, "loss": 0.0, "step": 137700 }, { "epoch": 2.2048, "grad_norm": 3.403816117852898e-10, "learning_rate": 5.3078400000000005e-06, "loss": 0.0, "step": 137800 }, { "epoch": 2.2064, "grad_norm": 3.070988463527158e-10, "learning_rate": 5.297173333333334e-06, "loss": 0.0, "step": 137900 }, { "epoch": 2.208, "grad_norm": 3.51049161961825e-10, "learning_rate": 5.286506666666668e-06, "loss": 0.0, "step": 138000 }, { "epoch": 2.2096, "grad_norm": 3.7242220418676197e-10, "learning_rate": 5.275840000000001e-06, "loss": 0.0, "step": 138100 }, { "epoch": 2.2112, "grad_norm": 3.1819114010289695e-10, "learning_rate": 5.2651733333333334e-06, "loss": 0.0, "step": 138200 }, { "epoch": 2.2128, "grad_norm": 3.6323183350006616e-10, "learning_rate": 5.254506666666666e-06, "loss": 0.0, "step": 138300 }, { "epoch": 2.2144, "grad_norm": 3.8500166943400416e-10, "learning_rate": 5.24384e-06, "loss": 0.0, "step": 138400 }, { "epoch": 2.216, "grad_norm": 3.3075234218138405e-10, "learning_rate": 5.233173333333334e-06, "loss": 0.0, "step": 138500 }, { "epoch": 2.2176, "grad_norm": 3.574484874757644e-10, "learning_rate": 5.222506666666667e-06, "loss": 0.0, "step": 138600 }, { "epoch": 2.2192, "grad_norm": 3.007455950942983e-10, "learning_rate": 5.21184e-06, "loss": 0.0, "step": 138700 }, { "epoch": 2.2208, "grad_norm": 3.1821018042776927e-10, "learning_rate": 5.201173333333334e-06, "loss": 0.0, "step": 138800 }, { "epoch": 2.2224, "grad_norm": 2.9769092746434467e-10, "learning_rate": 5.190506666666667e-06, "loss": 0.0, "step": 138900 }, { "epoch": 2.224, "grad_norm": 2.9204330620480334e-10, "learning_rate": 5.17984e-06, "loss": 0.0, "step": 139000 }, { "epoch": 2.2256, "grad_norm": 3.189616348819868e-10, "learning_rate": 5.169173333333334e-06, "loss": 0.0, "step": 139100 }, { "epoch": 2.2272, "grad_norm": 4.2649478393386175e-10, "learning_rate": 5.1585066666666675e-06, "loss": 0.0, "step": 139200 }, { "epoch": 2.2288, "grad_norm": 3.4308908491986756e-10, "learning_rate": 5.14784e-06, "loss": 0.0, "step": 139300 }, { "epoch": 2.2304, "grad_norm": 3.1920646681449227e-10, "learning_rate": 5.13728e-06, "loss": 0.0, "step": 139400 }, { "epoch": 2.232, "grad_norm": 3.259533476462906e-10, "learning_rate": 5.126613333333333e-06, "loss": 0.0, "step": 139500 }, { "epoch": 2.2336, "grad_norm": 3.543887405754731e-10, "learning_rate": 5.115946666666667e-06, "loss": 0.0, "step": 139600 }, { "epoch": 2.2352, "grad_norm": 3.4216449118495973e-10, "learning_rate": 5.10528e-06, "loss": 0.0, "step": 139700 }, { "epoch": 2.2368, "grad_norm": 3.952222715764009e-10, "learning_rate": 5.094613333333334e-06, "loss": 0.0, "step": 139800 }, { "epoch": 2.2384, "grad_norm": 3.5622177430028046e-10, "learning_rate": 5.083946666666667e-06, "loss": 0.0, "step": 139900 }, { "epoch": 2.24, "grad_norm": 3.49989620618274e-10, "learning_rate": 5.0732800000000005e-06, "loss": 0.0, "step": 140000 }, { "epoch": 2.2416, "grad_norm": 3.104675683207603e-10, "learning_rate": 5.062613333333334e-06, "loss": 0.0, "step": 140100 }, { "epoch": 2.2432, "grad_norm": 3.764113465365426e-10, "learning_rate": 5.051946666666667e-06, "loss": 0.0, "step": 140200 }, { "epoch": 2.2448, "grad_norm": 3.194480235890751e-10, "learning_rate": 5.041280000000001e-06, "loss": 0.0, "step": 140300 }, { "epoch": 2.2464, "grad_norm": 3.6820582693941617e-10, "learning_rate": 5.030613333333334e-06, "loss": 0.0, "step": 140400 }, { "epoch": 2.248, "grad_norm": 3.392682523806201e-10, "learning_rate": 5.019946666666667e-06, "loss": 0.0, "step": 140500 }, { "epoch": 2.2496, "grad_norm": 3.164263018273772e-10, "learning_rate": 5.009280000000001e-06, "loss": 0.0, "step": 140600 }, { "epoch": 2.2512, "grad_norm": 3.436536888390407e-10, "learning_rate": 4.998613333333334e-06, "loss": 0.0, "step": 140700 }, { "epoch": 2.2528, "grad_norm": 3.2565580787569104e-10, "learning_rate": 4.987946666666667e-06, "loss": 0.0, "step": 140800 }, { "epoch": 2.2544, "grad_norm": 3.506593349023035e-10, "learning_rate": 4.97728e-06, "loss": 0.0, "step": 140900 }, { "epoch": 2.2560000000000002, "grad_norm": 3.463666298220147e-10, "learning_rate": 4.966613333333334e-06, "loss": 0.0, "step": 141000 }, { "epoch": 2.2576, "grad_norm": 3.1316282900206716e-10, "learning_rate": 4.955946666666667e-06, "loss": 0.0, "step": 141100 }, { "epoch": 2.2592, "grad_norm": 3.7461786450698753e-10, "learning_rate": 4.945280000000001e-06, "loss": 0.0, "step": 141200 }, { "epoch": 2.2608, "grad_norm": 3.8401357094208777e-10, "learning_rate": 4.934613333333334e-06, "loss": 0.0, "step": 141300 }, { "epoch": 2.2624, "grad_norm": 3.144419447043134e-10, "learning_rate": 4.924053333333334e-06, "loss": 0.0, "step": 141400 }, { "epoch": 2.2640000000000002, "grad_norm": 3.2484614997940753e-10, "learning_rate": 4.9133866666666666e-06, "loss": 0.0, "step": 141500 }, { "epoch": 2.2656, "grad_norm": 3.531926417998932e-10, "learning_rate": 4.90272e-06, "loss": 0.0, "step": 141600 }, { "epoch": 2.2672, "grad_norm": 3.318923746942204e-10, "learning_rate": 4.892053333333334e-06, "loss": 0.0, "step": 141700 }, { "epoch": 2.2688, "grad_norm": 3.0195415612332965e-10, "learning_rate": 4.881386666666667e-06, "loss": 0.0, "step": 141800 }, { "epoch": 2.2704, "grad_norm": 3.548563942690208e-10, "learning_rate": 4.87072e-06, "loss": 0.0, "step": 141900 }, { "epoch": 2.2720000000000002, "grad_norm": 2.8433891352541707e-10, "learning_rate": 4.860053333333334e-06, "loss": 0.0, "step": 142000 }, { "epoch": 2.2736, "grad_norm": 3.305513640583513e-10, "learning_rate": 4.849386666666667e-06, "loss": 0.0, "step": 142100 }, { "epoch": 2.2752, "grad_norm": 2.9917573973747835e-10, "learning_rate": 4.8387200000000005e-06, "loss": 0.0, "step": 142200 }, { "epoch": 2.2768, "grad_norm": 3.306266926905721e-10, "learning_rate": 4.828053333333333e-06, "loss": 0.0, "step": 142300 }, { "epoch": 2.2784, "grad_norm": 3.230272438425885e-10, "learning_rate": 4.817386666666667e-06, "loss": 0.0, "step": 142400 }, { "epoch": 2.2800000000000002, "grad_norm": 3.4481820176957e-10, "learning_rate": 4.806720000000001e-06, "loss": 0.0, "step": 142500 }, { "epoch": 2.2816, "grad_norm": 3.329036213362002e-10, "learning_rate": 4.7960533333333334e-06, "loss": 0.0, "step": 142600 }, { "epoch": 2.2832, "grad_norm": 3.2530245164252847e-10, "learning_rate": 4.785386666666667e-06, "loss": 0.0, "step": 142700 }, { "epoch": 2.2848, "grad_norm": 3.4515673652535384e-10, "learning_rate": 4.774720000000001e-06, "loss": 0.0, "step": 142800 }, { "epoch": 2.2864, "grad_norm": 3.2469293920200926e-10, "learning_rate": 4.764053333333334e-06, "loss": 0.0, "step": 142900 }, { "epoch": 2.288, "grad_norm": 4.765293160069461e-10, "learning_rate": 4.753386666666667e-06, "loss": 0.0, "step": 143000 }, { "epoch": 2.2896, "grad_norm": 3.307053519918668e-10, "learning_rate": 4.742720000000001e-06, "loss": 0.0, "step": 143100 }, { "epoch": 2.2912, "grad_norm": 3.125607273002373e-10, "learning_rate": 4.732053333333334e-06, "loss": 0.0, "step": 143200 }, { "epoch": 2.2928, "grad_norm": 3.246035384929513e-10, "learning_rate": 4.7213866666666665e-06, "loss": 0.0, "step": 143300 }, { "epoch": 2.2944, "grad_norm": 3.260721970210767e-10, "learning_rate": 4.710826666666667e-06, "loss": 0.0, "step": 143400 }, { "epoch": 2.296, "grad_norm": 3.4822336680839783e-10, "learning_rate": 4.70016e-06, "loss": 0.0, "step": 143500 }, { "epoch": 2.2976, "grad_norm": 3.2709840391831335e-10, "learning_rate": 4.689493333333334e-06, "loss": 0.0, "step": 143600 }, { "epoch": 2.2992, "grad_norm": 3.454010688574982e-10, "learning_rate": 4.678826666666667e-06, "loss": 0.0, "step": 143700 }, { "epoch": 2.3008, "grad_norm": 3.6283540061354813e-10, "learning_rate": 4.66816e-06, "loss": 0.0, "step": 143800 }, { "epoch": 2.3024, "grad_norm": 3.1457095261977486e-10, "learning_rate": 4.657493333333334e-06, "loss": 0.0, "step": 143900 }, { "epoch": 2.304, "grad_norm": 2.9043575877629735e-10, "learning_rate": 4.6468266666666675e-06, "loss": 0.0, "step": 144000 }, { "epoch": 2.3056, "grad_norm": 3.0756566737899504e-10, "learning_rate": 4.63616e-06, "loss": 0.0, "step": 144100 }, { "epoch": 2.3072, "grad_norm": 3.5682767851596964e-10, "learning_rate": 4.625493333333333e-06, "loss": 0.0, "step": 144200 }, { "epoch": 2.3088, "grad_norm": 3.389039049395137e-10, "learning_rate": 4.614826666666667e-06, "loss": 0.0, "step": 144300 }, { "epoch": 2.3104, "grad_norm": 2.8128110951541885e-10, "learning_rate": 4.6041600000000005e-06, "loss": 0.0, "step": 144400 }, { "epoch": 2.312, "grad_norm": 3.24759247272155e-10, "learning_rate": 4.593493333333333e-06, "loss": 0.0, "step": 144500 }, { "epoch": 2.3136, "grad_norm": 3.1841473902005646e-10, "learning_rate": 4.582826666666667e-06, "loss": 0.0, "step": 144600 }, { "epoch": 2.3152, "grad_norm": 3.4204841736773517e-10, "learning_rate": 4.572160000000001e-06, "loss": 0.0, "step": 144700 }, { "epoch": 2.3168, "grad_norm": 3.4004746241045325e-10, "learning_rate": 4.561493333333334e-06, "loss": 0.0, "step": 144800 }, { "epoch": 2.3184, "grad_norm": 3.2099969904386683e-10, "learning_rate": 4.550826666666667e-06, "loss": 0.0, "step": 144900 }, { "epoch": 2.32, "grad_norm": 3.011644822414894e-10, "learning_rate": 4.54016e-06, "loss": 0.0, "step": 145000 }, { "epoch": 2.3216, "grad_norm": 3.725202923909876e-10, "learning_rate": 4.5294933333333336e-06, "loss": 0.0, "step": 145100 }, { "epoch": 2.3232, "grad_norm": 3.4397809600683615e-10, "learning_rate": 4.518826666666667e-06, "loss": 0.0, "step": 145200 }, { "epoch": 2.3247999999999998, "grad_norm": 3.7204120340028624e-10, "learning_rate": 4.50816e-06, "loss": 0.0, "step": 145300 }, { "epoch": 2.3264, "grad_norm": 3.074286658577563e-10, "learning_rate": 4.4976e-06, "loss": 0.0, "step": 145400 }, { "epoch": 2.328, "grad_norm": 3.4369265766720503e-10, "learning_rate": 4.486933333333334e-06, "loss": 0.0, "step": 145500 }, { "epoch": 2.3296, "grad_norm": 3.143056648280407e-10, "learning_rate": 4.476266666666667e-06, "loss": 0.0, "step": 145600 }, { "epoch": 2.3312, "grad_norm": 3.2501737412538034e-10, "learning_rate": 4.4656e-06, "loss": 0.0, "step": 145700 }, { "epoch": 2.3327999999999998, "grad_norm": 3.110080248891478e-10, "learning_rate": 4.454933333333334e-06, "loss": 0.0, "step": 145800 }, { "epoch": 2.3344, "grad_norm": 3.790766311961846e-10, "learning_rate": 4.444266666666667e-06, "loss": 0.0, "step": 145900 }, { "epoch": 2.336, "grad_norm": 3.4419955774467326e-10, "learning_rate": 4.4336e-06, "loss": 0.0, "step": 146000 }, { "epoch": 2.3376, "grad_norm": 3.3076669181397733e-10, "learning_rate": 4.422933333333334e-06, "loss": 0.0, "step": 146100 }, { "epoch": 2.3392, "grad_norm": 3.4487371292080127e-10, "learning_rate": 4.412266666666667e-06, "loss": 0.0, "step": 146200 }, { "epoch": 2.3407999999999998, "grad_norm": 3.1364211228179784e-10, "learning_rate": 4.4016e-06, "loss": 0.0, "step": 146300 }, { "epoch": 2.3424, "grad_norm": 3.1019614654681504e-10, "learning_rate": 4.390933333333334e-06, "loss": 0.0, "step": 146400 }, { "epoch": 2.344, "grad_norm": 3.2614189127144755e-10, "learning_rate": 4.380266666666667e-06, "loss": 0.0, "step": 146500 }, { "epoch": 2.3456, "grad_norm": 3.3636157747984896e-10, "learning_rate": 4.3696000000000005e-06, "loss": 0.0, "step": 146600 }, { "epoch": 2.3472, "grad_norm": 3.7909245187428553e-10, "learning_rate": 4.358933333333334e-06, "loss": 0.0, "step": 146700 }, { "epoch": 2.3487999999999998, "grad_norm": 2.948243038591869e-10, "learning_rate": 4.348266666666667e-06, "loss": 0.0, "step": 146800 }, { "epoch": 2.3504, "grad_norm": 3.4089084333110975e-10, "learning_rate": 4.3376e-06, "loss": 0.0, "step": 146900 }, { "epoch": 2.352, "grad_norm": 3.189335739950394e-10, "learning_rate": 4.3269333333333334e-06, "loss": 0.0, "step": 147000 }, { "epoch": 2.3536, "grad_norm": 3.215777089060623e-10, "learning_rate": 4.316266666666667e-06, "loss": 0.0, "step": 147100 }, { "epoch": 2.3552, "grad_norm": 3.7832489918621093e-10, "learning_rate": 4.305600000000001e-06, "loss": 0.0, "step": 147200 }, { "epoch": 2.3568, "grad_norm": 3.410358107025502e-10, "learning_rate": 4.2949333333333336e-06, "loss": 0.0, "step": 147300 }, { "epoch": 2.3584, "grad_norm": 2.979992641538587e-10, "learning_rate": 4.2843733333333335e-06, "loss": 0.0, "step": 147400 }, { "epoch": 2.36, "grad_norm": 3.2437472152757607e-10, "learning_rate": 4.273706666666667e-06, "loss": 0.0, "step": 147500 }, { "epoch": 2.3616, "grad_norm": 3.4929428793795125e-10, "learning_rate": 4.263040000000001e-06, "loss": 0.0, "step": 147600 }, { "epoch": 2.3632, "grad_norm": 3.505996326591543e-10, "learning_rate": 4.252373333333334e-06, "loss": 0.0, "step": 147700 }, { "epoch": 2.3648, "grad_norm": 3.3485769712626734e-10, "learning_rate": 4.241706666666666e-06, "loss": 0.0, "step": 147800 }, { "epoch": 2.3664, "grad_norm": 3.0993388411282297e-10, "learning_rate": 4.23104e-06, "loss": 0.0, "step": 147900 }, { "epoch": 2.368, "grad_norm": 3.327347009030035e-10, "learning_rate": 4.220373333333334e-06, "loss": 0.0, "step": 148000 }, { "epoch": 2.3696, "grad_norm": 3.4363320522423635e-10, "learning_rate": 4.2097066666666665e-06, "loss": 0.0, "step": 148100 }, { "epoch": 2.3712, "grad_norm": 3.2631153334961027e-10, "learning_rate": 4.19904e-06, "loss": 0.0, "step": 148200 }, { "epoch": 2.3728, "grad_norm": 3.1324579041758227e-10, "learning_rate": 4.188373333333334e-06, "loss": 0.0, "step": 148300 }, { "epoch": 2.3744, "grad_norm": 3.6043637519078686e-10, "learning_rate": 4.1777066666666675e-06, "loss": 0.0, "step": 148400 }, { "epoch": 2.376, "grad_norm": 3.4278183069780255e-10, "learning_rate": 4.16704e-06, "loss": 0.0, "step": 148500 }, { "epoch": 2.3776, "grad_norm": 3.1465618999249045e-10, "learning_rate": 4.156373333333334e-06, "loss": 0.0, "step": 148600 }, { "epoch": 2.3792, "grad_norm": 3.033701345689366e-10, "learning_rate": 4.145706666666667e-06, "loss": 0.0, "step": 148700 }, { "epoch": 2.3808, "grad_norm": 3.0445052034977493e-10, "learning_rate": 4.1350400000000005e-06, "loss": 0.0, "step": 148800 }, { "epoch": 2.3824, "grad_norm": 3.720963814846101e-10, "learning_rate": 4.124373333333333e-06, "loss": 0.0, "step": 148900 }, { "epoch": 2.384, "grad_norm": 3.356656341768627e-10, "learning_rate": 4.113706666666667e-06, "loss": 0.0, "step": 149000 }, { "epoch": 2.3856, "grad_norm": 3.3748148720036397e-10, "learning_rate": 4.103040000000001e-06, "loss": 0.0, "step": 149100 }, { "epoch": 2.3872, "grad_norm": 3.6574512862763697e-10, "learning_rate": 4.0923733333333334e-06, "loss": 0.0, "step": 149200 }, { "epoch": 2.3888, "grad_norm": 3.182066832252417e-10, "learning_rate": 4.081706666666667e-06, "loss": 0.0, "step": 149300 }, { "epoch": 2.3904, "grad_norm": 3.3478983474388713e-10, "learning_rate": 4.071146666666667e-06, "loss": 0.0, "step": 149400 }, { "epoch": 2.392, "grad_norm": 3.3549257816289924e-10, "learning_rate": 4.060480000000001e-06, "loss": 0.0, "step": 149500 }, { "epoch": 2.3936, "grad_norm": 3.11757480941921e-10, "learning_rate": 4.049813333333334e-06, "loss": 0.0, "step": 149600 }, { "epoch": 2.3952, "grad_norm": 3.0566157938061167e-10, "learning_rate": 4.039146666666667e-06, "loss": 0.0, "step": 149700 }, { "epoch": 2.3968, "grad_norm": 3.4185942965336835e-10, "learning_rate": 4.02848e-06, "loss": 0.0, "step": 149800 }, { "epoch": 2.3984, "grad_norm": 3.158525108126753e-10, "learning_rate": 4.017813333333334e-06, "loss": 0.0, "step": 149900 }, { "epoch": 2.4, "grad_norm": 3.0210917101314294e-10, "learning_rate": 4.007146666666667e-06, "loss": 0.0, "step": 150000 }, { "epoch": 2.4016, "grad_norm": 3.4216451894053534e-10, "learning_rate": 3.99648e-06, "loss": 0.0, "step": 150100 }, { "epoch": 2.4032, "grad_norm": 3.0805921702459216e-10, "learning_rate": 3.985813333333334e-06, "loss": 0.0, "step": 150200 }, { "epoch": 2.4048, "grad_norm": 2.72425942915433e-10, "learning_rate": 3.975146666666667e-06, "loss": 0.0, "step": 150300 }, { "epoch": 2.4064, "grad_norm": 3.6067646091986205e-10, "learning_rate": 3.96448e-06, "loss": 0.0, "step": 150400 }, { "epoch": 2.408, "grad_norm": 3.0487212754337634e-10, "learning_rate": 3.953813333333333e-06, "loss": 0.0, "step": 150500 }, { "epoch": 2.4096, "grad_norm": 3.5418193378156104e-10, "learning_rate": 3.943146666666667e-06, "loss": 0.0, "step": 150600 }, { "epoch": 2.4112, "grad_norm": 3.4485947431051045e-10, "learning_rate": 3.93248e-06, "loss": 0.0, "step": 150700 }, { "epoch": 2.4128, "grad_norm": 3.2224070634079283e-10, "learning_rate": 3.921813333333334e-06, "loss": 0.0, "step": 150800 }, { "epoch": 2.4144, "grad_norm": 3.079188570787039e-10, "learning_rate": 3.911146666666667e-06, "loss": 0.0, "step": 150900 }, { "epoch": 2.416, "grad_norm": 3.194769726544422e-10, "learning_rate": 3.9004800000000005e-06, "loss": 0.0, "step": 151000 }, { "epoch": 2.4176, "grad_norm": 2.930619358298969e-10, "learning_rate": 3.889813333333334e-06, "loss": 0.0, "step": 151100 }, { "epoch": 2.4192, "grad_norm": 2.899386286614458e-10, "learning_rate": 3.879146666666667e-06, "loss": 0.0, "step": 151200 }, { "epoch": 2.4208, "grad_norm": 2.9698660197752247e-10, "learning_rate": 3.868480000000001e-06, "loss": 0.0, "step": 151300 }, { "epoch": 2.4224, "grad_norm": 3.791341407488602e-10, "learning_rate": 3.8579200000000005e-06, "loss": 0.0, "step": 151400 }, { "epoch": 2.424, "grad_norm": 3.556027972084763e-10, "learning_rate": 3.847253333333333e-06, "loss": 0.0, "step": 151500 }, { "epoch": 2.4256, "grad_norm": 2.987325942171992e-10, "learning_rate": 3.836586666666667e-06, "loss": 0.0, "step": 151600 }, { "epoch": 2.4272, "grad_norm": 3.233907308608508e-10, "learning_rate": 3.82592e-06, "loss": 0.0, "step": 151700 }, { "epoch": 2.4288, "grad_norm": 2.877357796471358e-10, "learning_rate": 3.8152533333333334e-06, "loss": 0.0, "step": 151800 }, { "epoch": 2.4304, "grad_norm": 3.761882749753198e-10, "learning_rate": 3.804586666666667e-06, "loss": 0.0, "step": 151900 }, { "epoch": 2.432, "grad_norm": 2.952665334454707e-10, "learning_rate": 3.7939200000000003e-06, "loss": 0.0, "step": 152000 }, { "epoch": 2.4336, "grad_norm": 3.567107720314766e-10, "learning_rate": 3.7832533333333336e-06, "loss": 0.0, "step": 152100 }, { "epoch": 2.4352, "grad_norm": 3.655786229295188e-10, "learning_rate": 3.7725866666666672e-06, "loss": 0.0, "step": 152200 }, { "epoch": 2.4368, "grad_norm": 3.540001625168543e-10, "learning_rate": 3.7619200000000005e-06, "loss": 0.0, "step": 152300 }, { "epoch": 2.4384, "grad_norm": 3.111925717114161e-10, "learning_rate": 3.7512533333333333e-06, "loss": 0.0, "step": 152400 }, { "epoch": 2.44, "grad_norm": 3.0528768402149353e-10, "learning_rate": 3.740586666666667e-06, "loss": 0.0, "step": 152500 }, { "epoch": 2.4416, "grad_norm": 3.0782795756856274e-10, "learning_rate": 3.72992e-06, "loss": 0.0, "step": 152600 }, { "epoch": 2.4432, "grad_norm": 3.2485475420784837e-10, "learning_rate": 3.7192533333333334e-06, "loss": 0.0, "step": 152700 }, { "epoch": 2.4448, "grad_norm": 2.8426982989770977e-10, "learning_rate": 3.708586666666667e-06, "loss": 0.0, "step": 152800 }, { "epoch": 2.4464, "grad_norm": 2.7763535914715476e-10, "learning_rate": 3.6979200000000003e-06, "loss": 0.0, "step": 152900 }, { "epoch": 2.448, "grad_norm": 3.22074394931704e-10, "learning_rate": 3.687253333333334e-06, "loss": 0.0, "step": 153000 }, { "epoch": 2.4496, "grad_norm": 3.303696760603714e-10, "learning_rate": 3.6765866666666672e-06, "loss": 0.0, "step": 153100 }, { "epoch": 2.4512, "grad_norm": 3.110529611660695e-10, "learning_rate": 3.66592e-06, "loss": 0.0, "step": 153200 }, { "epoch": 2.4528, "grad_norm": 3.2933264448864463e-10, "learning_rate": 3.6552533333333333e-06, "loss": 0.0, "step": 153300 }, { "epoch": 2.4544, "grad_norm": 3.6721090057589834e-10, "learning_rate": 3.6446933333333336e-06, "loss": 0.0, "step": 153400 }, { "epoch": 2.456, "grad_norm": 3.254415903430896e-10, "learning_rate": 3.634026666666667e-06, "loss": 0.0, "step": 153500 }, { "epoch": 2.4576000000000002, "grad_norm": 3.1462457639186425e-10, "learning_rate": 3.62336e-06, "loss": 0.0, "step": 153600 }, { "epoch": 2.4592, "grad_norm": 3.077621490987781e-10, "learning_rate": 3.6126933333333337e-06, "loss": 0.0, "step": 153700 }, { "epoch": 2.4608, "grad_norm": 3.5332825554235114e-10, "learning_rate": 3.602026666666667e-06, "loss": 0.0, "step": 153800 }, { "epoch": 2.4624, "grad_norm": 3.209556231897892e-10, "learning_rate": 3.59136e-06, "loss": 0.0, "step": 153900 }, { "epoch": 2.464, "grad_norm": 3.7852632139845355e-10, "learning_rate": 3.580693333333334e-06, "loss": 0.0, "step": 154000 }, { "epoch": 2.4656000000000002, "grad_norm": 3.4514857638612284e-10, "learning_rate": 3.570026666666667e-06, "loss": 0.0, "step": 154100 }, { "epoch": 2.4672, "grad_norm": 3.091882583294847e-10, "learning_rate": 3.55936e-06, "loss": 0.0, "step": 154200 }, { "epoch": 2.4688, "grad_norm": 3.4811420412950156e-10, "learning_rate": 3.5486933333333336e-06, "loss": 0.0, "step": 154300 }, { "epoch": 2.4704, "grad_norm": 3.116397417901595e-10, "learning_rate": 3.538026666666667e-06, "loss": 0.0, "step": 154400 }, { "epoch": 2.472, "grad_norm": 2.872356796856934e-10, "learning_rate": 3.52736e-06, "loss": 0.0, "step": 154500 }, { "epoch": 2.4736000000000002, "grad_norm": 3.2320165987975713e-10, "learning_rate": 3.5166933333333337e-06, "loss": 0.0, "step": 154600 }, { "epoch": 2.4752, "grad_norm": 3.3538322119497366e-10, "learning_rate": 3.506026666666667e-06, "loss": 0.0, "step": 154700 }, { "epoch": 2.4768, "grad_norm": 3.744046739306839e-10, "learning_rate": 3.4953600000000006e-06, "loss": 0.0, "step": 154800 }, { "epoch": 2.4784, "grad_norm": 2.965843959312764e-10, "learning_rate": 3.484693333333334e-06, "loss": 0.0, "step": 154900 }, { "epoch": 2.48, "grad_norm": 3.1988514614944563e-10, "learning_rate": 3.474026666666667e-06, "loss": 0.0, "step": 155000 }, { "epoch": 2.4816, "grad_norm": 3.640237833391069e-10, "learning_rate": 3.46336e-06, "loss": 0.0, "step": 155100 }, { "epoch": 2.4832, "grad_norm": 2.8467697643641543e-10, "learning_rate": 3.4526933333333336e-06, "loss": 0.0, "step": 155200 }, { "epoch": 2.4848, "grad_norm": 3.281006577537937e-10, "learning_rate": 3.442026666666667e-06, "loss": 0.0, "step": 155300 }, { "epoch": 2.4864, "grad_norm": 3.1727054317087777e-10, "learning_rate": 3.4314666666666667e-06, "loss": 0.0, "step": 155400 }, { "epoch": 2.488, "grad_norm": 3.803219961184823e-10, "learning_rate": 3.4208000000000004e-06, "loss": 0.0, "step": 155500 }, { "epoch": 2.4896, "grad_norm": 3.896810651937699e-10, "learning_rate": 3.4101333333333336e-06, "loss": 0.0, "step": 155600 }, { "epoch": 2.4912, "grad_norm": 3.4157138228962936e-10, "learning_rate": 3.399466666666667e-06, "loss": 0.0, "step": 155700 }, { "epoch": 2.4928, "grad_norm": 3.626851319271651e-10, "learning_rate": 3.3888000000000005e-06, "loss": 0.0, "step": 155800 }, { "epoch": 2.4944, "grad_norm": 3.071512488794781e-10, "learning_rate": 3.3781333333333337e-06, "loss": 0.0, "step": 155900 }, { "epoch": 2.496, "grad_norm": 3.259466585525672e-10, "learning_rate": 3.3674666666666674e-06, "loss": 0.0, "step": 156000 }, { "epoch": 2.4976, "grad_norm": 3.360231815019432e-10, "learning_rate": 3.3568e-06, "loss": 0.0, "step": 156100 }, { "epoch": 2.4992, "grad_norm": 3.38830158375103e-10, "learning_rate": 3.3461333333333334e-06, "loss": 0.0, "step": 156200 }, { "epoch": 2.5008, "grad_norm": 3.0782598692269403e-10, "learning_rate": 3.3354666666666667e-06, "loss": 0.0, "step": 156300 }, { "epoch": 2.5023999999999997, "grad_norm": 3.367198742054711e-10, "learning_rate": 3.3248000000000003e-06, "loss": 0.0, "step": 156400 }, { "epoch": 2.504, "grad_norm": 3.5758634941984724e-10, "learning_rate": 3.3141333333333336e-06, "loss": 0.0, "step": 156500 }, { "epoch": 2.5056000000000003, "grad_norm": 3.5063280057201496e-10, "learning_rate": 3.3034666666666672e-06, "loss": 0.0, "step": 156600 }, { "epoch": 2.5072, "grad_norm": 2.8604343893512407e-10, "learning_rate": 3.2928000000000005e-06, "loss": 0.0, "step": 156700 }, { "epoch": 2.5088, "grad_norm": 3.1860986071663433e-10, "learning_rate": 3.2821333333333337e-06, "loss": 0.0, "step": 156800 }, { "epoch": 2.5103999999999997, "grad_norm": 3.663347680760154e-10, "learning_rate": 3.2714666666666665e-06, "loss": 0.0, "step": 156900 }, { "epoch": 2.512, "grad_norm": 3.2278060779766804e-10, "learning_rate": 3.2608e-06, "loss": 0.0, "step": 157000 }, { "epoch": 2.5136, "grad_norm": 3.3043481839634126e-10, "learning_rate": 3.2501333333333334e-06, "loss": 0.0, "step": 157100 }, { "epoch": 2.5152, "grad_norm": 3.427513828313522e-10, "learning_rate": 3.2394666666666667e-06, "loss": 0.0, "step": 157200 }, { "epoch": 2.5168, "grad_norm": 3.475399412700142e-10, "learning_rate": 3.2288000000000003e-06, "loss": 0.0, "step": 157300 }, { "epoch": 2.5183999999999997, "grad_norm": 3.4616973176859744e-10, "learning_rate": 3.21824e-06, "loss": 0.0, "step": 157400 }, { "epoch": 2.52, "grad_norm": 3.012316229789036e-10, "learning_rate": 3.2075733333333334e-06, "loss": 0.0, "step": 157500 }, { "epoch": 2.5216, "grad_norm": 3.3836475288318013e-10, "learning_rate": 3.196906666666667e-06, "loss": 0.0, "step": 157600 }, { "epoch": 2.5232, "grad_norm": 3.5830757805221936e-10, "learning_rate": 3.1862400000000003e-06, "loss": 0.0, "step": 157700 }, { "epoch": 2.5248, "grad_norm": 3.121401193073581e-10, "learning_rate": 3.175573333333334e-06, "loss": 0.0, "step": 157800 }, { "epoch": 2.5263999999999998, "grad_norm": 3.5878758297691604e-10, "learning_rate": 3.164906666666667e-06, "loss": 0.0, "step": 157900 }, { "epoch": 2.528, "grad_norm": 2.77461387199196e-10, "learning_rate": 3.15424e-06, "loss": 0.0, "step": 158000 }, { "epoch": 2.5296, "grad_norm": 4.2493125684828215e-10, "learning_rate": 3.1435733333333333e-06, "loss": 0.0, "step": 158100 }, { "epoch": 2.5312, "grad_norm": 3.1830102442675923e-10, "learning_rate": 3.132906666666667e-06, "loss": 0.0, "step": 158200 }, { "epoch": 2.5328, "grad_norm": 3.199037423851081e-10, "learning_rate": 3.12224e-06, "loss": 0.0, "step": 158300 }, { "epoch": 2.5343999999999998, "grad_norm": 3.1074989803592246e-10, "learning_rate": 3.111573333333334e-06, "loss": 0.0, "step": 158400 }, { "epoch": 2.536, "grad_norm": 3.299244766274967e-10, "learning_rate": 3.100906666666667e-06, "loss": 0.0, "step": 158500 }, { "epoch": 2.5376, "grad_norm": 3.205687937324342e-10, "learning_rate": 3.0902400000000003e-06, "loss": 0.0, "step": 158600 }, { "epoch": 2.5392, "grad_norm": 2.560223699710207e-10, "learning_rate": 3.079573333333334e-06, "loss": 0.0, "step": 158700 }, { "epoch": 2.5408, "grad_norm": 3.500878476003777e-10, "learning_rate": 3.068906666666667e-06, "loss": 0.0, "step": 158800 }, { "epoch": 2.5423999999999998, "grad_norm": 3.036198514827504e-10, "learning_rate": 3.05824e-06, "loss": 0.0, "step": 158900 }, { "epoch": 2.544, "grad_norm": 3.001844051109259e-10, "learning_rate": 3.0475733333333333e-06, "loss": 0.0, "step": 159000 }, { "epoch": 2.5456, "grad_norm": 3.1711988590643614e-10, "learning_rate": 3.036906666666667e-06, "loss": 0.0, "step": 159100 }, { "epoch": 2.5472, "grad_norm": 3.079087262936042e-10, "learning_rate": 3.02624e-06, "loss": 0.0, "step": 159200 }, { "epoch": 2.5488, "grad_norm": 3.1119368193444075e-10, "learning_rate": 3.015573333333334e-06, "loss": 0.0, "step": 159300 }, { "epoch": 2.5504, "grad_norm": 3.303222972927955e-10, "learning_rate": 3.0050133333333337e-06, "loss": 0.0, "step": 159400 }, { "epoch": 2.552, "grad_norm": 3.4466504650332297e-10, "learning_rate": 2.994346666666667e-06, "loss": 0.0, "step": 159500 }, { "epoch": 2.5536, "grad_norm": 3.401476877940013e-10, "learning_rate": 2.9836800000000006e-06, "loss": 0.0, "step": 159600 }, { "epoch": 2.5552, "grad_norm": 3.2524985482673685e-10, "learning_rate": 2.9730133333333334e-06, "loss": 0.0, "step": 159700 }, { "epoch": 2.5568, "grad_norm": 2.806732624094366e-10, "learning_rate": 2.9623466666666667e-06, "loss": 0.0, "step": 159800 }, { "epoch": 2.5584, "grad_norm": 3.5666730680006253e-10, "learning_rate": 2.95168e-06, "loss": 0.0, "step": 159900 }, { "epoch": 2.56, "grad_norm": 2.9318042438220004e-10, "learning_rate": 2.9410133333333336e-06, "loss": 0.0, "step": 160000 }, { "epoch": 2.5616, "grad_norm": 3.1851063453380846e-10, "learning_rate": 2.930346666666667e-06, "loss": 0.0, "step": 160100 }, { "epoch": 2.5632, "grad_norm": 3.4052025088548987e-10, "learning_rate": 2.9196800000000005e-06, "loss": 0.0, "step": 160200 }, { "epoch": 2.5648, "grad_norm": 3.1797589561399775e-10, "learning_rate": 2.9090133333333337e-06, "loss": 0.0, "step": 160300 }, { "epoch": 2.5664, "grad_norm": 3.850268159855119e-10, "learning_rate": 2.898346666666667e-06, "loss": 0.0, "step": 160400 }, { "epoch": 2.568, "grad_norm": 2.8383859151936974e-10, "learning_rate": 2.8876800000000006e-06, "loss": 0.0, "step": 160500 }, { "epoch": 2.5696, "grad_norm": 2.8885893676999785e-10, "learning_rate": 2.8770133333333334e-06, "loss": 0.0, "step": 160600 }, { "epoch": 2.5712, "grad_norm": 3.1816874135337514e-10, "learning_rate": 2.8663466666666667e-06, "loss": 0.0, "step": 160700 }, { "epoch": 2.5728, "grad_norm": 3.38191530335763e-10, "learning_rate": 2.8556800000000003e-06, "loss": 0.0, "step": 160800 }, { "epoch": 2.5744, "grad_norm": 3.401935400049183e-10, "learning_rate": 2.8450133333333336e-06, "loss": 0.0, "step": 160900 }, { "epoch": 2.576, "grad_norm": 3.421747052367863e-10, "learning_rate": 2.834346666666667e-06, "loss": 0.0, "step": 161000 }, { "epoch": 2.5776, "grad_norm": 3.2532287974618157e-10, "learning_rate": 2.8236800000000005e-06, "loss": 0.0, "step": 161100 }, { "epoch": 2.5792, "grad_norm": 2.8875057900279444e-10, "learning_rate": 2.8130133333333337e-06, "loss": 0.0, "step": 161200 }, { "epoch": 2.5808, "grad_norm": 3.3930924736580437e-10, "learning_rate": 2.802346666666667e-06, "loss": 0.0, "step": 161300 }, { "epoch": 2.5824, "grad_norm": 3.2473287947532015e-10, "learning_rate": 2.7917866666666672e-06, "loss": 0.0, "step": 161400 }, { "epoch": 2.584, "grad_norm": 3.1654698307015394e-10, "learning_rate": 2.7811200000000005e-06, "loss": 0.0, "step": 161500 }, { "epoch": 2.5856, "grad_norm": 3.292897898798941e-10, "learning_rate": 2.7704533333333333e-06, "loss": 0.0, "step": 161600 }, { "epoch": 2.5872, "grad_norm": 3.099091261393738e-10, "learning_rate": 2.7597866666666665e-06, "loss": 0.0, "step": 161700 }, { "epoch": 2.5888, "grad_norm": 3.0858771093988935e-10, "learning_rate": 2.74912e-06, "loss": 0.0, "step": 161800 }, { "epoch": 2.5904, "grad_norm": 2.997130599258213e-10, "learning_rate": 2.7384533333333334e-06, "loss": 0.0, "step": 161900 }, { "epoch": 2.592, "grad_norm": 3.0101576786734086e-10, "learning_rate": 2.727786666666667e-06, "loss": 0.0, "step": 162000 }, { "epoch": 2.5936, "grad_norm": 3.2170247021845455e-10, "learning_rate": 2.7171200000000003e-06, "loss": 0.0, "step": 162100 }, { "epoch": 2.5952, "grad_norm": 3.3759031681235285e-10, "learning_rate": 2.7064533333333336e-06, "loss": 0.0, "step": 162200 }, { "epoch": 2.5968, "grad_norm": 3.295141104420196e-10, "learning_rate": 2.6957866666666672e-06, "loss": 0.0, "step": 162300 }, { "epoch": 2.5984, "grad_norm": 2.904882445697865e-10, "learning_rate": 2.68512e-06, "loss": 0.0, "step": 162400 }, { "epoch": 2.6, "grad_norm": 3.2209068745459035e-10, "learning_rate": 2.6744533333333333e-06, "loss": 0.0, "step": 162500 }, { "epoch": 2.6016, "grad_norm": 3.050981134400388e-10, "learning_rate": 2.663786666666667e-06, "loss": 0.0, "step": 162600 }, { "epoch": 2.6032, "grad_norm": 3.24024002074097e-10, "learning_rate": 2.65312e-06, "loss": 0.0, "step": 162700 }, { "epoch": 2.6048, "grad_norm": 3.0734637057605596e-10, "learning_rate": 2.6424533333333334e-06, "loss": 0.0, "step": 162800 }, { "epoch": 2.6064, "grad_norm": 3.1203578609861893e-10, "learning_rate": 2.631786666666667e-06, "loss": 0.0, "step": 162900 }, { "epoch": 2.608, "grad_norm": 2.9264501932857456e-10, "learning_rate": 2.6211200000000003e-06, "loss": 0.0, "step": 163000 }, { "epoch": 2.6096, "grad_norm": 3.4552544159183185e-10, "learning_rate": 2.6104533333333336e-06, "loss": 0.0, "step": 163100 }, { "epoch": 2.6112, "grad_norm": 3.059253683712626e-10, "learning_rate": 2.5997866666666672e-06, "loss": 0.0, "step": 163200 }, { "epoch": 2.6128, "grad_norm": 3.136606807618847e-10, "learning_rate": 2.58912e-06, "loss": 0.0, "step": 163300 }, { "epoch": 2.6144, "grad_norm": NaN, "learning_rate": 2.57856e-06, "loss": 0.0, "step": 163400 }, { "epoch": 2.616, "grad_norm": 3.3314806469064706e-10, "learning_rate": 2.567893333333333e-06, "loss": 0.0, "step": 163500 }, { "epoch": 2.6176, "grad_norm": 3.2303265617983357e-10, "learning_rate": 2.557226666666667e-06, "loss": 0.0, "step": 163600 }, { "epoch": 2.6192, "grad_norm": 3.2077226985727236e-10, "learning_rate": 2.54656e-06, "loss": 0.0, "step": 163700 }, { "epoch": 2.6208, "grad_norm": 3.371652124162239e-10, "learning_rate": 2.5358933333333337e-06, "loss": 0.0, "step": 163800 }, { "epoch": 2.6224, "grad_norm": 2.8985713829143833e-10, "learning_rate": 2.525226666666667e-06, "loss": 0.0, "step": 163900 }, { "epoch": 2.624, "grad_norm": 3.8369069033095116e-10, "learning_rate": 2.51456e-06, "loss": 0.0, "step": 164000 }, { "epoch": 2.6256, "grad_norm": 3.600154063754246e-10, "learning_rate": 2.503893333333334e-06, "loss": 0.0, "step": 164100 }, { "epoch": 2.6272, "grad_norm": 3.504948553612053e-10, "learning_rate": 2.4932266666666667e-06, "loss": 0.0, "step": 164200 }, { "epoch": 2.6288, "grad_norm": 2.935369169954072e-10, "learning_rate": 2.4825600000000003e-06, "loss": 0.0, "step": 164300 }, { "epoch": 2.6304, "grad_norm": 3.1506069975151263e-10, "learning_rate": 2.4718933333333336e-06, "loss": 0.0, "step": 164400 }, { "epoch": 2.632, "grad_norm": 2.9718971727987764e-10, "learning_rate": 2.461226666666667e-06, "loss": 0.0, "step": 164500 }, { "epoch": 2.6336, "grad_norm": 3.534537384997094e-10, "learning_rate": 2.45056e-06, "loss": 0.0, "step": 164600 }, { "epoch": 2.6352, "grad_norm": 3.0352545477008164e-10, "learning_rate": 2.4398933333333337e-06, "loss": 0.0, "step": 164700 }, { "epoch": 2.6368, "grad_norm": 3.1973865222134634e-10, "learning_rate": 2.429226666666667e-06, "loss": 0.0, "step": 164800 }, { "epoch": 2.6384, "grad_norm": 3.0601232658966637e-10, "learning_rate": 2.41856e-06, "loss": 0.0, "step": 164900 }, { "epoch": 2.64, "grad_norm": 3.0535610151538606e-10, "learning_rate": 2.4078933333333334e-06, "loss": 0.0, "step": 165000 }, { "epoch": 2.6416, "grad_norm": 2.988440606088716e-10, "learning_rate": 2.3972266666666667e-06, "loss": 0.0, "step": 165100 }, { "epoch": 2.6432, "grad_norm": 3.361895761777589e-10, "learning_rate": 2.3865600000000003e-06, "loss": 0.0, "step": 165200 }, { "epoch": 2.6448, "grad_norm": 3.0815813789608626e-10, "learning_rate": 2.3758933333333336e-06, "loss": 0.0, "step": 165300 }, { "epoch": 2.6464, "grad_norm": 3.3706906710229134e-10, "learning_rate": 2.365226666666667e-06, "loss": 0.0, "step": 165400 }, { "epoch": 2.648, "grad_norm": 3.0773777970338756e-10, "learning_rate": 2.3546666666666667e-06, "loss": 0.0, "step": 165500 }, { "epoch": 2.6496, "grad_norm": 3.276991178413624e-10, "learning_rate": 2.3440000000000003e-06, "loss": 0.0, "step": 165600 }, { "epoch": 2.6512000000000002, "grad_norm": 3.143424964768826e-10, "learning_rate": 2.3334400000000002e-06, "loss": 0.0065, "step": 165700 }, { "epoch": 2.6528, "grad_norm": 2.6370494676797307e-10, "learning_rate": 2.3227733333333335e-06, "loss": 0.0, "step": 165800 }, { "epoch": 2.6544, "grad_norm": 3.018688354838872e-10, "learning_rate": 2.312106666666667e-06, "loss": 0.0, "step": 165900 }, { "epoch": 2.656, "grad_norm": 3.181157282039493e-10, "learning_rate": 2.30144e-06, "loss": 0.0, "step": 166000 }, { "epoch": 2.6576, "grad_norm": 3.319764185771845e-10, "learning_rate": 2.2907733333333336e-06, "loss": 0.0, "step": 166100 }, { "epoch": 2.6592000000000002, "grad_norm": 3.4610175836391477e-10, "learning_rate": 2.280106666666667e-06, "loss": 0.0, "step": 166200 }, { "epoch": 2.6608, "grad_norm": 3.190221975479801e-10, "learning_rate": 2.26944e-06, "loss": 0.0, "step": 166300 }, { "epoch": 2.6624, "grad_norm": 3.556514249769549e-10, "learning_rate": 2.2587733333333337e-06, "loss": 0.0, "step": 166400 }, { "epoch": 2.664, "grad_norm": 3.342463805733331e-10, "learning_rate": 2.248106666666667e-06, "loss": 0.0, "step": 166500 }, { "epoch": 2.6656, "grad_norm": 3.412072568931279e-10, "learning_rate": 2.2374400000000002e-06, "loss": 0.0, "step": 166600 }, { "epoch": 2.6672000000000002, "grad_norm": 3.020536876174873e-10, "learning_rate": 2.2267733333333335e-06, "loss": 0.0, "step": 166700 }, { "epoch": 2.6688, "grad_norm": 2.9516125654716063e-10, "learning_rate": 2.216106666666667e-06, "loss": 0.0, "step": 166800 }, { "epoch": 2.6704, "grad_norm": 2.6047011769669837e-10, "learning_rate": 2.20544e-06, "loss": 0.0, "step": 166900 }, { "epoch": 2.672, "grad_norm": 3.233562584359362e-10, "learning_rate": 2.1947733333333336e-06, "loss": 0.0, "step": 167000 }, { "epoch": 2.6736, "grad_norm": 2.978616242543808e-10, "learning_rate": 2.184106666666667e-06, "loss": 0.0, "step": 167100 }, { "epoch": 2.6752000000000002, "grad_norm": 2.8724889133968645e-10, "learning_rate": 2.17344e-06, "loss": 0.0, "step": 167200 }, { "epoch": 2.6768, "grad_norm": 3.096752021480853e-10, "learning_rate": 2.1627733333333333e-06, "loss": 0.0, "step": 167300 }, { "epoch": 2.6784, "grad_norm": 2.9209235030691616e-10, "learning_rate": 2.152106666666667e-06, "loss": 0.0, "step": 167400 }, { "epoch": 2.68, "grad_norm": 3.190720465617858e-10, "learning_rate": 2.14144e-06, "loss": 0.0, "step": 167500 }, { "epoch": 2.6816, "grad_norm": 2.834701917642235e-10, "learning_rate": 2.1307733333333334e-06, "loss": 0.0, "step": 167600 }, { "epoch": 2.6832000000000003, "grad_norm": 3.2131677873969977e-10, "learning_rate": 2.1201066666666667e-06, "loss": 0.0, "step": 167700 }, { "epoch": 2.6848, "grad_norm": 2.9026087089434327e-10, "learning_rate": 2.10944e-06, "loss": 0.0, "step": 167800 }, { "epoch": 2.6864, "grad_norm": 3.167019146932404e-10, "learning_rate": 2.0987733333333336e-06, "loss": 0.0, "step": 167900 }, { "epoch": 2.6879999999999997, "grad_norm": 3.771067347280166e-10, "learning_rate": 2.088106666666667e-06, "loss": 0.0, "step": 168000 }, { "epoch": 2.6896, "grad_norm": 2.836681722850898e-10, "learning_rate": 2.0774400000000005e-06, "loss": 0.0, "step": 168100 }, { "epoch": 2.6912000000000003, "grad_norm": 3.2491470625117813e-10, "learning_rate": 2.0667733333333333e-06, "loss": 0.0, "step": 168200 }, { "epoch": 2.6928, "grad_norm": 3.443764717836473e-10, "learning_rate": 2.056106666666667e-06, "loss": 0.0, "step": 168300 }, { "epoch": 2.6944, "grad_norm": 3.0836522224575447e-10, "learning_rate": 2.04544e-06, "loss": 0.0, "step": 168400 }, { "epoch": 2.6959999999999997, "grad_norm": 3.2039593200750005e-10, "learning_rate": 2.0347733333333334e-06, "loss": 0.0, "step": 168500 }, { "epoch": 2.6976, "grad_norm": 3.1799221589245974e-10, "learning_rate": 2.0241066666666667e-06, "loss": 0.0, "step": 168600 }, { "epoch": 2.6992000000000003, "grad_norm": 3.134203729882046e-10, "learning_rate": 2.0134400000000003e-06, "loss": 0.0, "step": 168700 }, { "epoch": 2.7008, "grad_norm": 3.483126009840021e-10, "learning_rate": 2.0027733333333336e-06, "loss": 0.0, "step": 168800 }, { "epoch": 2.7024, "grad_norm": 3.3253999554005986e-10, "learning_rate": 1.992106666666667e-06, "loss": 0.0, "step": 168900 }, { "epoch": 2.7039999999999997, "grad_norm": 2.893058015374095e-10, "learning_rate": 1.98144e-06, "loss": 0.0, "step": 169000 }, { "epoch": 2.7056, "grad_norm": 3.5999400682662497e-10, "learning_rate": 1.9707733333333333e-06, "loss": 0.0, "step": 169100 }, { "epoch": 2.7072000000000003, "grad_norm": 2.9116584143729085e-10, "learning_rate": 1.960106666666667e-06, "loss": 0.0, "step": 169200 }, { "epoch": 2.7088, "grad_norm": 2.9615879193478634e-10, "learning_rate": 1.94944e-06, "loss": 0.0, "step": 169300 }, { "epoch": 2.7104, "grad_norm": 3.2400795935139115e-10, "learning_rate": 1.9387733333333334e-06, "loss": 0.0, "step": 169400 }, { "epoch": 2.7119999999999997, "grad_norm": 3.4416630656508573e-10, "learning_rate": 1.9281066666666667e-06, "loss": 0.0, "step": 169500 }, { "epoch": 2.7136, "grad_norm": 2.6389568308360367e-10, "learning_rate": 1.9174400000000003e-06, "loss": 0.0, "step": 169600 }, { "epoch": 2.7152, "grad_norm": 3.7343853009907946e-10, "learning_rate": 1.9068800000000002e-06, "loss": 0.0, "step": 169700 }, { "epoch": 2.7168, "grad_norm": 3.046977115062077e-10, "learning_rate": 1.8962133333333334e-06, "loss": 0.0, "step": 169800 }, { "epoch": 2.7184, "grad_norm": 3.1630034702523346e-10, "learning_rate": 1.8855466666666669e-06, "loss": 0.0, "step": 169900 }, { "epoch": 2.7199999999999998, "grad_norm": 3.278470273038181e-10, "learning_rate": 1.8748800000000001e-06, "loss": 0.0, "step": 170000 }, { "epoch": 2.7216, "grad_norm": 2.769589557694019e-10, "learning_rate": 1.8642133333333334e-06, "loss": 0.0, "step": 170100 }, { "epoch": 2.7232, "grad_norm": 2.7673438540709583e-10, "learning_rate": 1.8535466666666668e-06, "loss": 0.0, "step": 170200 }, { "epoch": 2.7248, "grad_norm": 3.0530780681381486e-10, "learning_rate": 1.8428800000000003e-06, "loss": 0.0, "step": 170300 }, { "epoch": 2.7264, "grad_norm": 3.48880035971888e-10, "learning_rate": 1.8322133333333337e-06, "loss": 0.0, "step": 170400 }, { "epoch": 2.7279999999999998, "grad_norm": 3.5415781418635106e-10, "learning_rate": 1.8215466666666667e-06, "loss": 0.0, "step": 170500 }, { "epoch": 2.7296, "grad_norm": 3.4133662563107237e-10, "learning_rate": 1.8108800000000002e-06, "loss": 0.0, "step": 170600 }, { "epoch": 2.7312, "grad_norm": 3.358066602565657e-10, "learning_rate": 1.8002133333333336e-06, "loss": 0.0, "step": 170700 }, { "epoch": 2.7328, "grad_norm": 3.0527436134519803e-10, "learning_rate": 1.7895466666666669e-06, "loss": 0.0, "step": 170800 }, { "epoch": 2.7344, "grad_norm": 2.903139950660716e-10, "learning_rate": 1.7788800000000001e-06, "loss": 0.0, "step": 170900 }, { "epoch": 2.7359999999999998, "grad_norm": 2.8370572557889773e-10, "learning_rate": 1.7682133333333333e-06, "loss": 0.0, "step": 171000 }, { "epoch": 2.7376, "grad_norm": 3.0924088290085194e-10, "learning_rate": 1.7575466666666668e-06, "loss": 0.0, "step": 171100 }, { "epoch": 2.7392, "grad_norm": 3.4553179761864783e-10, "learning_rate": 1.7468800000000002e-06, "loss": 0.0, "step": 171200 }, { "epoch": 2.7408, "grad_norm": 3.1518021526011353e-10, "learning_rate": 1.7362133333333333e-06, "loss": 0.0, "step": 171300 }, { "epoch": 2.7424, "grad_norm": 3.2573624353382513e-10, "learning_rate": 1.7255466666666667e-06, "loss": 0.0, "step": 171400 }, { "epoch": 2.7439999999999998, "grad_norm": 3.714730190118587e-10, "learning_rate": 1.7148800000000002e-06, "loss": 0.0, "step": 171500 }, { "epoch": 2.7456, "grad_norm": 2.9144306412653975e-10, "learning_rate": 1.7042133333333336e-06, "loss": 0.0, "step": 171600 }, { "epoch": 2.7472, "grad_norm": 3.304731210906908e-10, "learning_rate": 1.6936533333333335e-06, "loss": 0.0, "step": 171700 }, { "epoch": 2.7488, "grad_norm": 3.540435444815415e-10, "learning_rate": 1.682986666666667e-06, "loss": 0.0, "step": 171800 }, { "epoch": 2.7504, "grad_norm": 2.9305965987269644e-10, "learning_rate": 1.67232e-06, "loss": 0.0, "step": 171900 }, { "epoch": 2.752, "grad_norm": 3.110870727685011e-10, "learning_rate": 1.6616533333333334e-06, "loss": 0.0, "step": 172000 }, { "epoch": 2.7536, "grad_norm": 2.9710356397316673e-10, "learning_rate": 1.6509866666666669e-06, "loss": 0.0, "step": 172100 }, { "epoch": 2.7552, "grad_norm": 2.9852809113606327e-10, "learning_rate": 1.6403200000000003e-06, "loss": 0.0, "step": 172200 }, { "epoch": 2.7568, "grad_norm": 3.2862107479658675e-10, "learning_rate": 1.6296533333333334e-06, "loss": 0.0, "step": 172300 }, { "epoch": 2.7584, "grad_norm": 2.9260555090004914e-10, "learning_rate": 1.6189866666666668e-06, "loss": 0.0, "step": 172400 }, { "epoch": 2.76, "grad_norm": 3.2232441715684956e-10, "learning_rate": 1.6083200000000003e-06, "loss": 0.0, "step": 172500 }, { "epoch": 2.7616, "grad_norm": 2.7783192413366464e-10, "learning_rate": 1.5976533333333335e-06, "loss": 0.0, "step": 172600 }, { "epoch": 2.7632, "grad_norm": 3.396289915968964e-10, "learning_rate": 1.5869866666666667e-06, "loss": 0.0, "step": 172700 }, { "epoch": 2.7648, "grad_norm": 2.938864429591348e-10, "learning_rate": 1.57632e-06, "loss": 0.0, "step": 172800 }, { "epoch": 2.7664, "grad_norm": 3.236617363011618e-10, "learning_rate": 1.5656533333333334e-06, "loss": 0.0, "step": 172900 }, { "epoch": 2.768, "grad_norm": 2.997008197169748e-10, "learning_rate": 1.5549866666666669e-06, "loss": 0.0, "step": 173000 }, { "epoch": 2.7696, "grad_norm": 3.379546642534592e-10, "learning_rate": 1.5443200000000003e-06, "loss": 0.0, "step": 173100 }, { "epoch": 2.7712, "grad_norm": 3.4065286702578135e-10, "learning_rate": 1.5336533333333333e-06, "loss": 0.0, "step": 173200 }, { "epoch": 2.7728, "grad_norm": 3.1768268571319425e-10, "learning_rate": 1.5229866666666668e-06, "loss": 0.0, "step": 173300 }, { "epoch": 2.7744, "grad_norm": 2.9884877905672624e-10, "learning_rate": 1.5123200000000002e-06, "loss": 0.0, "step": 173400 }, { "epoch": 2.776, "grad_norm": 3.123230840618163e-10, "learning_rate": 1.5016533333333335e-06, "loss": 0.0, "step": 173500 }, { "epoch": 2.7776, "grad_norm": 3.99788341320928e-10, "learning_rate": 1.4909866666666667e-06, "loss": 0.0, "step": 173600 }, { "epoch": 2.7792, "grad_norm": 3.0887808977198006e-10, "learning_rate": 1.4804266666666666e-06, "loss": 0.0, "step": 173700 }, { "epoch": 2.7808, "grad_norm": 3.095281531084737e-10, "learning_rate": 1.46976e-06, "loss": 0.0, "step": 173800 }, { "epoch": 2.7824, "grad_norm": 3.384535152139989e-10, "learning_rate": 1.4590933333333335e-06, "loss": 0.0, "step": 173900 }, { "epoch": 2.784, "grad_norm": 2.8974864174635684e-10, "learning_rate": 1.448426666666667e-06, "loss": 0.0, "step": 174000 }, { "epoch": 2.7856, "grad_norm": 3.2321445520011594e-10, "learning_rate": 1.43776e-06, "loss": 0.0, "step": 174100 }, { "epoch": 2.7872, "grad_norm": 2.992701086945715e-10, "learning_rate": 1.4270933333333334e-06, "loss": 0.0, "step": 174200 }, { "epoch": 2.7888, "grad_norm": 3.1115673926329634e-10, "learning_rate": 1.4164266666666669e-06, "loss": 0.0, "step": 174300 }, { "epoch": 2.7904, "grad_norm": 3.2644395520087244e-10, "learning_rate": 1.4057600000000001e-06, "loss": 0.0, "step": 174400 }, { "epoch": 2.792, "grad_norm": 3.723112929066019e-10, "learning_rate": 1.3950933333333336e-06, "loss": 0.0, "step": 174500 }, { "epoch": 2.7936, "grad_norm": 3.703586048953156e-10, "learning_rate": 1.3844266666666666e-06, "loss": 0.0, "step": 174600 }, { "epoch": 2.7952, "grad_norm": 3.0897059910550695e-10, "learning_rate": 1.37376e-06, "loss": 0.0, "step": 174700 }, { "epoch": 2.7968, "grad_norm": 3.2070224253999413e-10, "learning_rate": 1.3630933333333335e-06, "loss": 0.0, "step": 174800 }, { "epoch": 2.7984, "grad_norm": 3.071203569238179e-10, "learning_rate": 1.352426666666667e-06, "loss": 0.0, "step": 174900 }, { "epoch": 2.8, "grad_norm": 3.2045224807042416e-10, "learning_rate": 1.34176e-06, "loss": 0.0, "step": 175000 }, { "epoch": 2.8016, "grad_norm": 3.4741520771319756e-10, "learning_rate": 1.3310933333333334e-06, "loss": 0.0, "step": 175100 }, { "epoch": 2.8032, "grad_norm": 3.2869723609607604e-10, "learning_rate": 1.3204266666666669e-06, "loss": 0.0, "step": 175200 }, { "epoch": 2.8048, "grad_norm": 2.76132644527749e-10, "learning_rate": 1.30976e-06, "loss": 0.0, "step": 175300 }, { "epoch": 2.8064, "grad_norm": 3.2736943711419997e-10, "learning_rate": 1.2990933333333333e-06, "loss": 0.0, "step": 175400 }, { "epoch": 2.808, "grad_norm": 3.0595809219491343e-10, "learning_rate": 1.2884266666666668e-06, "loss": 0.0, "step": 175500 }, { "epoch": 2.8096, "grad_norm": 3.424497907467128e-10, "learning_rate": 1.27776e-06, "loss": 0.0, "step": 175600 }, { "epoch": 2.8112, "grad_norm": 2.9743957297156953e-10, "learning_rate": 1.2672000000000001e-06, "loss": 0.0, "step": 175700 }, { "epoch": 2.8128, "grad_norm": 2.664946319175243e-10, "learning_rate": 1.2565333333333336e-06, "loss": 0.0, "step": 175800 }, { "epoch": 2.8144, "grad_norm": 3.0223282210251057e-10, "learning_rate": 1.2458666666666668e-06, "loss": 0.0, "step": 175900 }, { "epoch": 2.816, "grad_norm": 2.9249402899722554e-10, "learning_rate": 1.2352e-06, "loss": 0.0, "step": 176000 }, { "epoch": 2.8176, "grad_norm": 2.851926472757782e-10, "learning_rate": 1.2245333333333335e-06, "loss": 0.0, "step": 176100 }, { "epoch": 2.8192, "grad_norm": 2.9747673768731886e-10, "learning_rate": 1.2138666666666667e-06, "loss": 0.0, "step": 176200 }, { "epoch": 2.8208, "grad_norm": 2.775578655800359e-10, "learning_rate": 1.2032e-06, "loss": 0.0, "step": 176300 }, { "epoch": 2.8224, "grad_norm": 3.2689842499600275e-10, "learning_rate": 1.1925333333333334e-06, "loss": 0.0, "step": 176400 }, { "epoch": 2.824, "grad_norm": 3.107768209442696e-10, "learning_rate": 1.1818666666666667e-06, "loss": 0.0, "step": 176500 }, { "epoch": 2.8256, "grad_norm": 2.765416229344453e-10, "learning_rate": 1.1712000000000001e-06, "loss": 0.0, "step": 176600 }, { "epoch": 2.8272, "grad_norm": 2.9883207020020564e-10, "learning_rate": 1.1605333333333333e-06, "loss": 0.0, "step": 176700 }, { "epoch": 2.8288, "grad_norm": 2.687223221720103e-10, "learning_rate": 1.1498666666666668e-06, "loss": 0.0, "step": 176800 }, { "epoch": 2.8304, "grad_norm": 3.4705982532301505e-10, "learning_rate": 1.1392e-06, "loss": 0.0, "step": 176900 }, { "epoch": 2.832, "grad_norm": 3.4595928899427975e-10, "learning_rate": 1.1285333333333335e-06, "loss": 0.0, "step": 177000 }, { "epoch": 2.8336, "grad_norm": 2.6898216987092383e-10, "learning_rate": 1.1178666666666667e-06, "loss": 0.0, "step": 177100 }, { "epoch": 2.8352, "grad_norm": 3.076772725485455e-10, "learning_rate": 1.1072000000000002e-06, "loss": 0.0, "step": 177200 }, { "epoch": 2.8368, "grad_norm": 2.87662615949813e-10, "learning_rate": 1.0965333333333334e-06, "loss": 0.0, "step": 177300 }, { "epoch": 2.8384, "grad_norm": 3.1225497187925555e-10, "learning_rate": 1.0858666666666666e-06, "loss": 0.0, "step": 177400 }, { "epoch": 2.84, "grad_norm": 2.779325103396957e-10, "learning_rate": 1.0752e-06, "loss": 0.0, "step": 177500 }, { "epoch": 2.8416, "grad_norm": 3.217659194643119e-10, "learning_rate": 1.0645333333333333e-06, "loss": 0.0, "step": 177600 }, { "epoch": 2.8432, "grad_norm": 2.779845797995506e-10, "learning_rate": 1.0539733333333334e-06, "loss": 0.0, "step": 177700 }, { "epoch": 2.8448, "grad_norm": 3.087359257136768e-10, "learning_rate": 1.0433066666666667e-06, "loss": 0.0, "step": 177800 }, { "epoch": 2.8464, "grad_norm": 2.981088154108136e-10, "learning_rate": 1.0326400000000001e-06, "loss": 0.0, "step": 177900 }, { "epoch": 2.848, "grad_norm": 3.757291699990617e-10, "learning_rate": 1.0219733333333334e-06, "loss": 0.0, "step": 178000 }, { "epoch": 2.8496, "grad_norm": 2.870534365762012e-10, "learning_rate": 1.0113066666666666e-06, "loss": 0.0, "step": 178100 }, { "epoch": 2.8512, "grad_norm": 3.126409686693421e-10, "learning_rate": 1.00064e-06, "loss": 0.0, "step": 178200 }, { "epoch": 2.8528000000000002, "grad_norm": 3.276486582048932e-10, "learning_rate": 9.899733333333335e-07, "loss": 0.0, "step": 178300 }, { "epoch": 2.8544, "grad_norm": 3.364022949092771e-10, "learning_rate": 9.793066666666667e-07, "loss": 0.0, "step": 178400 }, { "epoch": 2.856, "grad_norm": 3.248622482132646e-10, "learning_rate": 9.686400000000002e-07, "loss": 0.0, "step": 178500 }, { "epoch": 2.8576, "grad_norm": 2.9944829949002383e-10, "learning_rate": 9.579733333333334e-07, "loss": 0.0, "step": 178600 }, { "epoch": 2.8592, "grad_norm": 3.2465563570838185e-10, "learning_rate": 9.473066666666668e-07, "loss": 0.0, "step": 178700 }, { "epoch": 2.8608000000000002, "grad_norm": 3.592756925296925e-10, "learning_rate": 9.3664e-07, "loss": 0.0, "step": 178800 }, { "epoch": 2.8624, "grad_norm": 2.940521437455601e-10, "learning_rate": 9.259733333333335e-07, "loss": 0.0, "step": 178900 }, { "epoch": 2.864, "grad_norm": 2.9644403598538815e-10, "learning_rate": 9.153066666666667e-07, "loss": 0.0, "step": 179000 }, { "epoch": 2.8656, "grad_norm": 3.20295345801469e-10, "learning_rate": 9.046400000000001e-07, "loss": 0.0, "step": 179100 }, { "epoch": 2.8672, "grad_norm": 2.8825888898076357e-10, "learning_rate": 8.939733333333334e-07, "loss": 0.0, "step": 179200 }, { "epoch": 2.8688000000000002, "grad_norm": 3.144571547597508e-10, "learning_rate": 8.833066666666667e-07, "loss": 0.0, "step": 179300 }, { "epoch": 2.8704, "grad_norm": 3.102469947613429e-10, "learning_rate": 8.726400000000001e-07, "loss": 0.0, "step": 179400 }, { "epoch": 2.872, "grad_norm": 3.037401163918929e-10, "learning_rate": 8.619733333333334e-07, "loss": 0.0, "step": 179500 }, { "epoch": 2.8736, "grad_norm": 3.0520783123044737e-10, "learning_rate": 8.513066666666666e-07, "loss": 0.0, "step": 179600 }, { "epoch": 2.8752, "grad_norm": 2.939050669503729e-10, "learning_rate": 8.407466666666668e-07, "loss": 0.0, "step": 179700 }, { "epoch": 2.8768000000000002, "grad_norm": 2.9050467587055095e-10, "learning_rate": 8.300800000000001e-07, "loss": 0.0, "step": 179800 }, { "epoch": 2.8784, "grad_norm": 3.5562225386698287e-10, "learning_rate": 8.194133333333334e-07, "loss": 0.0, "step": 179900 }, { "epoch": 2.88, "grad_norm": 3.6935587921504975e-10, "learning_rate": 8.087466666666667e-07, "loss": 0.0, "step": 180000 }, { "epoch": 2.8816, "grad_norm": 2.9167768200721866e-10, "learning_rate": 7.980800000000001e-07, "loss": 0.0, "step": 180100 }, { "epoch": 2.8832, "grad_norm": 2.7785679312941625e-10, "learning_rate": 7.874133333333334e-07, "loss": 0.0, "step": 180200 }, { "epoch": 2.8848000000000003, "grad_norm": 3.365799305932171e-10, "learning_rate": 7.767466666666668e-07, "loss": 0.0, "step": 180300 }, { "epoch": 2.8864, "grad_norm": 2.958106259942639e-10, "learning_rate": 7.6608e-07, "loss": 0.0, "step": 180400 }, { "epoch": 2.888, "grad_norm": 3.182503427456851e-10, "learning_rate": 7.554133333333334e-07, "loss": 0.0, "step": 180500 }, { "epoch": 2.8895999999999997, "grad_norm": 2.977778024160216e-10, "learning_rate": 7.447466666666666e-07, "loss": 0.0, "step": 180600 }, { "epoch": 2.8912, "grad_norm": 2.9371657883636715e-10, "learning_rate": 7.340800000000001e-07, "loss": 0.0, "step": 180700 }, { "epoch": 2.8928000000000003, "grad_norm": 3.1584304616139036e-10, "learning_rate": 7.234133333333333e-07, "loss": 0.0, "step": 180800 }, { "epoch": 2.8944, "grad_norm": 3.3145206024265406e-10, "learning_rate": 7.127466666666668e-07, "loss": 0.0, "step": 180900 }, { "epoch": 2.896, "grad_norm": 4.0209749418984586e-10, "learning_rate": 7.020800000000001e-07, "loss": 0.0, "step": 181000 }, { "epoch": 2.8975999999999997, "grad_norm": 3.7493083637762936e-10, "learning_rate": 6.914133333333333e-07, "loss": 0.0, "step": 181100 }, { "epoch": 2.8992, "grad_norm": 3.5330660619337095e-10, "learning_rate": 6.807466666666668e-07, "loss": 0.0, "step": 181200 }, { "epoch": 2.9008000000000003, "grad_norm": 3.2444374964413214e-10, "learning_rate": 6.7008e-07, "loss": 0.0, "step": 181300 }, { "epoch": 2.9024, "grad_norm": 3.0567312570006777e-10, "learning_rate": 6.594133333333335e-07, "loss": 0.0, "step": 181400 }, { "epoch": 2.904, "grad_norm": 3.1928157340210817e-10, "learning_rate": 6.487466666666667e-07, "loss": 0.0, "step": 181500 }, { "epoch": 2.9055999999999997, "grad_norm": 3.26211974099877e-10, "learning_rate": 6.380800000000001e-07, "loss": 0.0, "step": 181600 }, { "epoch": 2.9072, "grad_norm": 3.2589808629523986e-10, "learning_rate": 6.2752e-07, "loss": 0.0, "step": 181700 }, { "epoch": 2.9088000000000003, "grad_norm": 3.1860600269162376e-10, "learning_rate": 6.168533333333334e-07, "loss": 0.0, "step": 181800 }, { "epoch": 2.9104, "grad_norm": 3.009393012565198e-10, "learning_rate": 6.061866666666667e-07, "loss": 0.0, "step": 181900 }, { "epoch": 2.912, "grad_norm": 3.2634150937127515e-10, "learning_rate": 5.955200000000001e-07, "loss": 0.0, "step": 182000 }, { "epoch": 2.9135999999999997, "grad_norm": 3.224905342769091e-10, "learning_rate": 5.848533333333334e-07, "loss": 0.0, "step": 182100 }, { "epoch": 2.9152, "grad_norm": 2.895942097236315e-10, "learning_rate": 5.741866666666667e-07, "loss": 0.0, "step": 182200 }, { "epoch": 2.9168, "grad_norm": 2.7783936262792963e-10, "learning_rate": 5.6352e-07, "loss": 0.0, "step": 182300 }, { "epoch": 2.9184, "grad_norm": 3.2582775366662986e-10, "learning_rate": 5.528533333333333e-07, "loss": 0.0, "step": 182400 }, { "epoch": 2.92, "grad_norm": 3.0822577823386155e-10, "learning_rate": 5.421866666666667e-07, "loss": 0.0, "step": 182500 }, { "epoch": 2.9215999999999998, "grad_norm": 3.2398525529053757e-10, "learning_rate": 5.3152e-07, "loss": 0.0, "step": 182600 }, { "epoch": 2.9232, "grad_norm": 3.0330368772091276e-10, "learning_rate": 5.208533333333334e-07, "loss": 0.0, "step": 182700 }, { "epoch": 2.9248, "grad_norm": 3.256079295077541e-10, "learning_rate": 5.101866666666667e-07, "loss": 0.0, "step": 182800 }, { "epoch": 2.9264, "grad_norm": 2.909952279139816e-10, "learning_rate": 4.995200000000001e-07, "loss": 0.0, "step": 182900 }, { "epoch": 2.928, "grad_norm": 2.7164465121742865e-10, "learning_rate": 4.888533333333334e-07, "loss": 0.0, "step": 183000 }, { "epoch": 2.9295999999999998, "grad_norm": 3.245701207799101e-10, "learning_rate": 4.781866666666668e-07, "loss": 0.0, "step": 183100 }, { "epoch": 2.9312, "grad_norm": 3.332680520440334e-10, "learning_rate": 4.6752000000000005e-07, "loss": 0.0, "step": 183200 }, { "epoch": 2.9328, "grad_norm": 2.8932620188548697e-10, "learning_rate": 4.568533333333334e-07, "loss": 0.0, "step": 183300 }, { "epoch": 2.9344, "grad_norm": 2.787366448764317e-10, "learning_rate": 4.4618666666666673e-07, "loss": 0.0, "step": 183400 }, { "epoch": 2.936, "grad_norm": 3.472513943059141e-10, "learning_rate": 4.3552e-07, "loss": 0.0, "step": 183500 }, { "epoch": 2.9375999999999998, "grad_norm": 3.371311840805191e-10, "learning_rate": 4.2485333333333337e-07, "loss": 0.0, "step": 183600 }, { "epoch": 2.9392, "grad_norm": 3.422269689856705e-10, "learning_rate": 4.1429333333333336e-07, "loss": 0.0, "step": 183700 }, { "epoch": 2.9408, "grad_norm": 3.1237873399092564e-10, "learning_rate": 4.036266666666667e-07, "loss": 0.0, "step": 183800 }, { "epoch": 2.9424, "grad_norm": 3.3619818040619975e-10, "learning_rate": 3.9296e-07, "loss": 0.0, "step": 183900 }, { "epoch": 2.944, "grad_norm": 3.111698398949869e-10, "learning_rate": 3.8229333333333334e-07, "loss": 0.0, "step": 184000 }, { "epoch": 2.9455999999999998, "grad_norm": 3.256781511140616e-10, "learning_rate": 3.716266666666667e-07, "loss": 0.0, "step": 184100 }, { "epoch": 2.9472, "grad_norm": 3.9609435176224395e-10, "learning_rate": 3.609600000000001e-07, "loss": 0.0, "step": 184200 }, { "epoch": 2.9488, "grad_norm": 2.9709257276522294e-10, "learning_rate": 3.5029333333333337e-07, "loss": 0.0, "step": 184300 }, { "epoch": 2.9504, "grad_norm": 2.97150914985167e-10, "learning_rate": 3.396266666666667e-07, "loss": 0.0, "step": 184400 }, { "epoch": 2.952, "grad_norm": 3.056662700728907e-10, "learning_rate": 3.2896000000000006e-07, "loss": 0.0, "step": 184500 }, { "epoch": 2.9536, "grad_norm": 3.337160825456209e-10, "learning_rate": 3.1829333333333335e-07, "loss": 0.0, "step": 184600 }, { "epoch": 2.9552, "grad_norm": 3.3306263302890216e-10, "learning_rate": 3.076266666666667e-07, "loss": 0.0, "step": 184700 }, { "epoch": 2.9568, "grad_norm": 3.291365235913446e-10, "learning_rate": 2.9696000000000003e-07, "loss": 0.0, "step": 184800 }, { "epoch": 2.9584, "grad_norm": 2.6660021412716617e-10, "learning_rate": 2.862933333333334e-07, "loss": 0.0, "step": 184900 }, { "epoch": 2.96, "grad_norm": 2.935547083193768e-10, "learning_rate": 2.7562666666666667e-07, "loss": 0.0, "step": 185000 }, { "epoch": 2.9616, "grad_norm": 3.3383265596320655e-10, "learning_rate": 2.6496e-07, "loss": 0.0, "step": 185100 }, { "epoch": 2.9632, "grad_norm": 3.1544342138367654e-10, "learning_rate": 2.5429333333333336e-07, "loss": 0.0, "step": 185200 }, { "epoch": 2.9648, "grad_norm": 3.275996141027804e-10, "learning_rate": 2.436266666666667e-07, "loss": 0.0, "step": 185300 }, { "epoch": 2.9664, "grad_norm": 2.9899530074040115e-10, "learning_rate": 2.3296000000000002e-07, "loss": 0.0, "step": 185400 }, { "epoch": 2.968, "grad_norm": 2.873679905146531e-10, "learning_rate": 2.2229333333333336e-07, "loss": 0.0, "step": 185500 }, { "epoch": 2.9696, "grad_norm": 3.144275395605689e-10, "learning_rate": 2.1162666666666668e-07, "loss": 0.0, "step": 185600 }, { "epoch": 2.9712, "grad_norm": 3.3020397527394607e-10, "learning_rate": 2.0106666666666667e-07, "loss": 0.0, "step": 185700 }, { "epoch": 2.9728, "grad_norm": 2.937960708049303e-10, "learning_rate": 1.9040000000000004e-07, "loss": 0.0, "step": 185800 }, { "epoch": 2.9744, "grad_norm": 2.8714305932986406e-10, "learning_rate": 1.7973333333333335e-07, "loss": 0.0, "step": 185900 }, { "epoch": 2.976, "grad_norm": 3.4568850559857367e-10, "learning_rate": 1.6906666666666667e-07, "loss": 0.0, "step": 186000 }, { "epoch": 2.9776, "grad_norm": 2.7149829606720743e-10, "learning_rate": 1.5840000000000002e-07, "loss": 0.0, "step": 186100 }, { "epoch": 2.9792, "grad_norm": 3.0772803749634647e-10, "learning_rate": 1.4773333333333333e-07, "loss": 0.0, "step": 186200 }, { "epoch": 2.9808, "grad_norm": 3.5528918695959533e-10, "learning_rate": 1.3706666666666668e-07, "loss": 0.0, "step": 186300 }, { "epoch": 2.9824, "grad_norm": 3.321697916724986e-10, "learning_rate": 1.2640000000000002e-07, "loss": 0.0, "step": 186400 }, { "epoch": 2.984, "grad_norm": 3.187401176329985e-10, "learning_rate": 1.1573333333333334e-07, "loss": 0.0, "step": 186500 }, { "epoch": 2.9856, "grad_norm": 3.20163923150929e-10, "learning_rate": 1.0506666666666667e-07, "loss": 0.0, "step": 186600 }, { "epoch": 2.9872, "grad_norm": 2.883562832955988e-10, "learning_rate": 9.440000000000001e-08, "loss": 0.0, "step": 186700 }, { "epoch": 2.9888, "grad_norm": 3.246740098994394e-10, "learning_rate": 8.373333333333334e-08, "loss": 0.0, "step": 186800 }, { "epoch": 2.9904, "grad_norm": 2.876126559137049e-10, "learning_rate": 7.306666666666667e-08, "loss": 0.0, "step": 186900 }, { "epoch": 2.992, "grad_norm": 3.1197847083497265e-10, "learning_rate": 6.24e-08, "loss": 0.0, "step": 187000 }, { "epoch": 2.9936, "grad_norm": 2.827717504594318e-10, "learning_rate": 5.173333333333334e-08, "loss": 0.0, "step": 187100 }, { "epoch": 2.9952, "grad_norm": 3.21663806701622e-10, "learning_rate": 4.106666666666667e-08, "loss": 0.0, "step": 187200 }, { "epoch": 2.9968, "grad_norm": 3.1668853650579365e-10, "learning_rate": 3.04e-08, "loss": 0.0, "step": 187300 }, { "epoch": 2.9984, "grad_norm": 2.990403202840497e-10, "learning_rate": 1.9733333333333335e-08, "loss": 0.0, "step": 187400 }, { "epoch": 3.0, "grad_norm": 3.1560415392206664e-10, "learning_rate": 9.066666666666667e-09, "loss": 0.0, "step": 187500 }, { "epoch": 3.0, "eval_accuracy": 1.0, "eval_f1": 1.0, "eval_loss": 0.0, "eval_precision": 1.0, "eval_recall": 1.0, "eval_runtime": 8.048, "eval_samples_per_second": 621.276, "eval_steps_per_second": 19.508, "step": 187500 } ], "logging_steps": 100, "max_steps": 187500, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.578579357511762e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null }