diff --git "a/checkpoint-62500/trainer_state.json" "b/checkpoint-62500/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-62500/trainer_state.json" @@ -0,0 +1,4420 @@ +{ + "best_metric": 1.0, + "best_model_checkpoint": "models/pt-ai-detector/checkpoint-62500", + "epoch": 1.0, + "eval_steps": 500, + "global_step": 62500, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0016, + "grad_norm": 0.02673221565783024, + "learning_rate": 1.9989333333333335e-05, + "loss": 0.109, + "step": 100 + }, + { + "epoch": 0.0032, + "grad_norm": 0.017086902633309364, + "learning_rate": 1.997888e-05, + "loss": 0.0036, + "step": 200 + }, + { + "epoch": 0.0048, + "grad_norm": 0.006770299281924963, + "learning_rate": 1.9968213333333335e-05, + "loss": 0.0019, + "step": 300 + }, + { + "epoch": 0.0064, + "grad_norm": 0.00477579515427351, + "learning_rate": 1.995754666666667e-05, + "loss": 0.0022, + "step": 400 + }, + { + "epoch": 0.008, + "grad_norm": 0.0035180049017071724, + "learning_rate": 1.9946880000000002e-05, + "loss": 0.001, + "step": 500 + }, + { + "epoch": 0.0096, + "grad_norm": 0.003077354747802019, + "learning_rate": 1.9936213333333333e-05, + "loss": 0.0003, + "step": 600 + }, + { + "epoch": 0.0112, + "grad_norm": 0.0021210976410657167, + "learning_rate": 1.992554666666667e-05, + "loss": 0.0001, + "step": 700 + }, + { + "epoch": 0.0128, + "grad_norm": 0.001930135884322226, + "learning_rate": 1.991488e-05, + "loss": 0.0001, + "step": 800 + }, + { + "epoch": 0.0144, + "grad_norm": 0.0014129126211628318, + "learning_rate": 1.9904213333333337e-05, + "loss": 0.0001, + "step": 900 + }, + { + "epoch": 0.016, + "grad_norm": 0.0013116322224959731, + "learning_rate": 1.9893546666666667e-05, + "loss": 0.0001, + "step": 1000 + }, + { + "epoch": 0.0176, + "grad_norm": 0.0009962028125301003, + "learning_rate": 1.988288e-05, + "loss": 0.0, + "step": 1100 + }, + { + "epoch": 0.0192, + "grad_norm": 0.0008926771697588265, + "learning_rate": 1.9872213333333335e-05, + "loss": 0.0, + "step": 1200 + }, + { + "epoch": 0.0208, + "grad_norm": 0.0008887408184818923, + "learning_rate": 1.9861546666666668e-05, + "loss": 0.0, + "step": 1300 + }, + { + "epoch": 0.0224, + "grad_norm": 0.000690207933075726, + "learning_rate": 1.9850880000000002e-05, + "loss": 0.0, + "step": 1400 + }, + { + "epoch": 0.024, + "grad_norm": 0.000710649008397013, + "learning_rate": 1.9840213333333336e-05, + "loss": 0.0, + "step": 1500 + }, + { + "epoch": 0.0256, + "grad_norm": 0.0005570728681050241, + "learning_rate": 1.982954666666667e-05, + "loss": 0.0, + "step": 1600 + }, + { + "epoch": 0.0272, + "grad_norm": 0.013599707745015621, + "learning_rate": 1.9818880000000003e-05, + "loss": 0.0032, + "step": 1700 + }, + { + "epoch": 0.0288, + "grad_norm": 0.0010214447975158691, + "learning_rate": 1.9808213333333333e-05, + "loss": 0.0006, + "step": 1800 + }, + { + "epoch": 0.0304, + "grad_norm": 0.0006235586479306221, + "learning_rate": 1.979754666666667e-05, + "loss": 0.0, + "step": 1900 + }, + { + "epoch": 0.032, + "grad_norm": 0.0006887756753712893, + "learning_rate": 1.978688e-05, + "loss": 0.002, + "step": 2000 + }, + { + "epoch": 0.0336, + "grad_norm": 0.5710021257400513, + "learning_rate": 1.9776213333333334e-05, + "loss": 0.0086, + "step": 2100 + }, + { + "epoch": 0.0352, + "grad_norm": 0.0023482097312808037, + "learning_rate": 1.9765546666666668e-05, + "loss": 0.003, + "step": 2200 + }, + { + "epoch": 0.0368, + "grad_norm": 0.0014186076587066054, + "learning_rate": 1.975488e-05, + "loss": 0.0001, + "step": 2300 + }, + { + "epoch": 0.0384, + "grad_norm": 0.0014550117775797844, + "learning_rate": 1.9744213333333335e-05, + "loss": 0.0, + "step": 2400 + }, + { + "epoch": 0.04, + "grad_norm": 0.0006836645770817995, + "learning_rate": 1.973354666666667e-05, + "loss": 0.0, + "step": 2500 + }, + { + "epoch": 0.0416, + "grad_norm": 0.0005004777340218425, + "learning_rate": 1.9722880000000003e-05, + "loss": 0.0, + "step": 2600 + }, + { + "epoch": 0.0432, + "grad_norm": 0.0005360045470297337, + "learning_rate": 1.9712213333333333e-05, + "loss": 0.0005, + "step": 2700 + }, + { + "epoch": 0.0448, + "grad_norm": 0.0010488297557458282, + "learning_rate": 1.970154666666667e-05, + "loss": 0.0031, + "step": 2800 + }, + { + "epoch": 0.0464, + "grad_norm": 0.0006056024576537311, + "learning_rate": 1.969088e-05, + "loss": 0.0018, + "step": 2900 + }, + { + "epoch": 0.048, + "grad_norm": 0.0004962153034284711, + "learning_rate": 1.9680213333333337e-05, + "loss": 0.0, + "step": 3000 + }, + { + "epoch": 0.0496, + "grad_norm": 0.00048244796926155686, + "learning_rate": 1.9669546666666667e-05, + "loss": 0.0, + "step": 3100 + }, + { + "epoch": 0.0512, + "grad_norm": 0.0003251029411330819, + "learning_rate": 1.965888e-05, + "loss": 0.0, + "step": 3200 + }, + { + "epoch": 0.0528, + "grad_norm": 0.0003602537326514721, + "learning_rate": 1.9648213333333335e-05, + "loss": 0.0, + "step": 3300 + }, + { + "epoch": 0.0544, + "grad_norm": 0.00031091648270376027, + "learning_rate": 1.963754666666667e-05, + "loss": 0.0, + "step": 3400 + }, + { + "epoch": 0.056, + "grad_norm": 0.00021150140673853457, + "learning_rate": 1.9626880000000002e-05, + "loss": 0.0, + "step": 3500 + }, + { + "epoch": 0.0576, + "grad_norm": 0.00020159632549621165, + "learning_rate": 1.9616213333333336e-05, + "loss": 0.0, + "step": 3600 + }, + { + "epoch": 0.0592, + "grad_norm": 0.00022669663303531706, + "learning_rate": 1.960554666666667e-05, + "loss": 0.0, + "step": 3700 + }, + { + "epoch": 0.0608, + "grad_norm": 0.00015808363968972117, + "learning_rate": 1.959488e-05, + "loss": 0.0, + "step": 3800 + }, + { + "epoch": 0.0624, + "grad_norm": 0.00016346627671737224, + "learning_rate": 1.9584213333333337e-05, + "loss": 0.0, + "step": 3900 + }, + { + "epoch": 0.064, + "grad_norm": 0.00013883988140150905, + "learning_rate": 1.9573546666666667e-05, + "loss": 0.0, + "step": 4000 + }, + { + "epoch": 0.0656, + "grad_norm": 0.0001542122772661969, + "learning_rate": 1.956288e-05, + "loss": 0.0, + "step": 4100 + }, + { + "epoch": 0.0672, + "grad_norm": 0.00011279522732365876, + "learning_rate": 1.9552213333333334e-05, + "loss": 0.0, + "step": 4200 + }, + { + "epoch": 0.0688, + "grad_norm": 0.00010847948578884825, + "learning_rate": 1.9541546666666668e-05, + "loss": 0.0002, + "step": 4300 + }, + { + "epoch": 0.0704, + "grad_norm": 0.00010385631321696565, + "learning_rate": 1.953088e-05, + "loss": 0.0, + "step": 4400 + }, + { + "epoch": 0.072, + "grad_norm": 0.00011526003072503954, + "learning_rate": 1.9520213333333335e-05, + "loss": 0.0, + "step": 4500 + }, + { + "epoch": 0.0736, + "grad_norm": 9.515963756712154e-05, + "learning_rate": 1.950954666666667e-05, + "loss": 0.0, + "step": 4600 + }, + { + "epoch": 0.0752, + "grad_norm": 9.874672832665965e-05, + "learning_rate": 1.9498880000000003e-05, + "loss": 0.0, + "step": 4700 + }, + { + "epoch": 0.0768, + "grad_norm": 7.66971061239019e-05, + "learning_rate": 1.9488213333333333e-05, + "loss": 0.0, + "step": 4800 + }, + { + "epoch": 0.0784, + "grad_norm": 7.775246922392398e-05, + "learning_rate": 1.947754666666667e-05, + "loss": 0.0, + "step": 4900 + }, + { + "epoch": 0.08, + "grad_norm": 7.147744327085093e-05, + "learning_rate": 1.946688e-05, + "loss": 0.0, + "step": 5000 + }, + { + "epoch": 0.0816, + "grad_norm": 7.22740005585365e-05, + "learning_rate": 1.9456213333333337e-05, + "loss": 0.0, + "step": 5100 + }, + { + "epoch": 0.0832, + "grad_norm": 7.028302206890658e-05, + "learning_rate": 1.9445546666666668e-05, + "loss": 0.0, + "step": 5200 + }, + { + "epoch": 0.0848, + "grad_norm": 5.9161051467526704e-05, + "learning_rate": 1.943488e-05, + "loss": 0.0, + "step": 5300 + }, + { + "epoch": 0.0864, + "grad_norm": 6.208459672052413e-05, + "learning_rate": 1.9424213333333335e-05, + "loss": 0.0, + "step": 5400 + }, + { + "epoch": 0.088, + "grad_norm": 5.193577453610487e-05, + "learning_rate": 1.941354666666667e-05, + "loss": 0.0, + "step": 5500 + }, + { + "epoch": 0.0896, + "grad_norm": 5.222402614890598e-05, + "learning_rate": 1.9402880000000002e-05, + "loss": 0.0, + "step": 5600 + }, + { + "epoch": 0.0912, + "grad_norm": 4.8609777877572924e-05, + "learning_rate": 1.9392213333333332e-05, + "loss": 0.0, + "step": 5700 + }, + { + "epoch": 0.0928, + "grad_norm": 4.5065498852636665e-05, + "learning_rate": 1.938154666666667e-05, + "loss": 0.0, + "step": 5800 + }, + { + "epoch": 0.0944, + "grad_norm": 5.239112942945212e-05, + "learning_rate": 1.937088e-05, + "loss": 0.0, + "step": 5900 + }, + { + "epoch": 0.096, + "grad_norm": 3.7742487620562315e-05, + "learning_rate": 1.9360213333333337e-05, + "loss": 0.0, + "step": 6000 + }, + { + "epoch": 0.0976, + "grad_norm": 3.911816020263359e-05, + "learning_rate": 1.9349546666666667e-05, + "loss": 0.0, + "step": 6100 + }, + { + "epoch": 0.0992, + "grad_norm": 4.1876675823004916e-05, + "learning_rate": 1.933888e-05, + "loss": 0.0, + "step": 6200 + }, + { + "epoch": 0.1008, + "grad_norm": 3.35037948389072e-05, + "learning_rate": 1.9328213333333334e-05, + "loss": 0.0, + "step": 6300 + }, + { + "epoch": 0.1024, + "grad_norm": 3.4527558455010876e-05, + "learning_rate": 1.9317546666666668e-05, + "loss": 0.0, + "step": 6400 + }, + { + "epoch": 0.104, + "grad_norm": 3.605220263125375e-05, + "learning_rate": 1.9306880000000002e-05, + "loss": 0.0, + "step": 6500 + }, + { + "epoch": 0.1056, + "grad_norm": 2.969952765852213e-05, + "learning_rate": 1.9296213333333335e-05, + "loss": 0.0, + "step": 6600 + }, + { + "epoch": 0.1072, + "grad_norm": 3.127843956463039e-05, + "learning_rate": 1.928554666666667e-05, + "loss": 0.0, + "step": 6700 + }, + { + "epoch": 0.1088, + "grad_norm": 2.8357508199405856e-05, + "learning_rate": 1.9274880000000003e-05, + "loss": 0.0, + "step": 6800 + }, + { + "epoch": 0.1104, + "grad_norm": 2.9021906811976805e-05, + "learning_rate": 1.9264213333333336e-05, + "loss": 0.0, + "step": 6900 + }, + { + "epoch": 0.112, + "grad_norm": 2.56488910963526e-05, + "learning_rate": 1.925354666666667e-05, + "loss": 0.0, + "step": 7000 + }, + { + "epoch": 0.1136, + "grad_norm": 2.425051025056746e-05, + "learning_rate": 1.924288e-05, + "loss": 0.0, + "step": 7100 + }, + { + "epoch": 0.1152, + "grad_norm": 2.3250922822626308e-05, + "learning_rate": 1.9232213333333334e-05, + "loss": 0.0, + "step": 7200 + }, + { + "epoch": 0.1168, + "grad_norm": 2.17950018850388e-05, + "learning_rate": 1.9221546666666668e-05, + "loss": 0.0, + "step": 7300 + }, + { + "epoch": 0.1184, + "grad_norm": 1.6155694538610987e-05, + "learning_rate": 1.921088e-05, + "loss": 0.0, + "step": 7400 + }, + { + "epoch": 0.12, + "grad_norm": 1.7884429325931706e-05, + "learning_rate": 1.9200213333333335e-05, + "loss": 0.0, + "step": 7500 + }, + { + "epoch": 0.1216, + "grad_norm": 1.5228806660161354e-05, + "learning_rate": 1.918954666666667e-05, + "loss": 0.0, + "step": 7600 + }, + { + "epoch": 0.1232, + "grad_norm": 0.0004236107924953103, + "learning_rate": 1.9178880000000002e-05, + "loss": 0.0082, + "step": 7700 + }, + { + "epoch": 0.1248, + "grad_norm": 0.001014222507365048, + "learning_rate": 1.9168213333333333e-05, + "loss": 0.0057, + "step": 7800 + }, + { + "epoch": 0.1264, + "grad_norm": 0.0008165242616087198, + "learning_rate": 1.9157653333333336e-05, + "loss": 0.0029, + "step": 7900 + }, + { + "epoch": 0.128, + "grad_norm": 0.0005670466343872249, + "learning_rate": 1.914698666666667e-05, + "loss": 0.0, + "step": 8000 + }, + { + "epoch": 0.1296, + "grad_norm": 0.00030610596877522767, + "learning_rate": 1.9136320000000003e-05, + "loss": 0.0, + "step": 8100 + }, + { + "epoch": 0.1312, + "grad_norm": 0.00035054876934736967, + "learning_rate": 1.9125653333333333e-05, + "loss": 0.0, + "step": 8200 + }, + { + "epoch": 0.1328, + "grad_norm": 0.00023674893600400537, + "learning_rate": 1.9114986666666667e-05, + "loss": 0.0, + "step": 8300 + }, + { + "epoch": 0.1344, + "grad_norm": 0.00020271481480449438, + "learning_rate": 1.910432e-05, + "loss": 0.0, + "step": 8400 + }, + { + "epoch": 0.136, + "grad_norm": 0.00012801923730876297, + "learning_rate": 1.9093653333333334e-05, + "loss": 0.0, + "step": 8500 + }, + { + "epoch": 0.1376, + "grad_norm": 0.00013235829828772694, + "learning_rate": 1.9082986666666668e-05, + "loss": 0.0, + "step": 8600 + }, + { + "epoch": 0.1392, + "grad_norm": 0.0001435764424968511, + "learning_rate": 1.9072320000000002e-05, + "loss": 0.0, + "step": 8700 + }, + { + "epoch": 0.1408, + "grad_norm": 0.00011448346049292013, + "learning_rate": 1.9061653333333335e-05, + "loss": 0.0, + "step": 8800 + }, + { + "epoch": 0.1424, + "grad_norm": 0.000109691551188007, + "learning_rate": 1.905098666666667e-05, + "loss": 0.0, + "step": 8900 + }, + { + "epoch": 0.144, + "grad_norm": 0.00011090271436842158, + "learning_rate": 1.904032e-05, + "loss": 0.0, + "step": 9000 + }, + { + "epoch": 0.1456, + "grad_norm": 9.558543388266116e-05, + "learning_rate": 1.9029653333333336e-05, + "loss": 0.0, + "step": 9100 + }, + { + "epoch": 0.1472, + "grad_norm": 8.690696267876774e-05, + "learning_rate": 1.9018986666666667e-05, + "loss": 0.0, + "step": 9200 + }, + { + "epoch": 0.1488, + "grad_norm": 6.725907587679103e-05, + "learning_rate": 1.9008320000000004e-05, + "loss": 0.0, + "step": 9300 + }, + { + "epoch": 0.1504, + "grad_norm": 6.74678958603181e-05, + "learning_rate": 1.8997653333333334e-05, + "loss": 0.0, + "step": 9400 + }, + { + "epoch": 0.152, + "grad_norm": 6.147296517156065e-05, + "learning_rate": 1.8986986666666668e-05, + "loss": 0.0, + "step": 9500 + }, + { + "epoch": 0.1536, + "grad_norm": 5.8914873079629615e-05, + "learning_rate": 1.897632e-05, + "loss": 0.0, + "step": 9600 + }, + { + "epoch": 0.1552, + "grad_norm": 5.48441348655615e-05, + "learning_rate": 1.8965653333333335e-05, + "loss": 0.0, + "step": 9700 + }, + { + "epoch": 0.1568, + "grad_norm": 6.385787128238007e-05, + "learning_rate": 1.895498666666667e-05, + "loss": 0.0, + "step": 9800 + }, + { + "epoch": 0.1584, + "grad_norm": 5.257723751128651e-05, + "learning_rate": 1.894432e-05, + "loss": 0.0, + "step": 9900 + }, + { + "epoch": 0.16, + "grad_norm": 5.524126754608005e-05, + "learning_rate": 1.8933653333333336e-05, + "loss": 0.0, + "step": 10000 + }, + { + "epoch": 0.1616, + "grad_norm": 4.3862233724212274e-05, + "learning_rate": 1.8922986666666666e-05, + "loss": 0.0, + "step": 10100 + }, + { + "epoch": 0.1632, + "grad_norm": 4.757397255161777e-05, + "learning_rate": 1.8912320000000003e-05, + "loss": 0.0, + "step": 10200 + }, + { + "epoch": 0.1648, + "grad_norm": 0.0006927695358172059, + "learning_rate": 1.8901653333333334e-05, + "loss": 0.004, + "step": 10300 + }, + { + "epoch": 0.1664, + "grad_norm": 0.0002426155551802367, + "learning_rate": 1.8890986666666667e-05, + "loss": 0.0, + "step": 10400 + }, + { + "epoch": 0.168, + "grad_norm": 0.0002200150629505515, + "learning_rate": 1.888032e-05, + "loss": 0.0, + "step": 10500 + }, + { + "epoch": 0.1696, + "grad_norm": 0.00017707289953250438, + "learning_rate": 1.8869653333333335e-05, + "loss": 0.0, + "step": 10600 + }, + { + "epoch": 0.1712, + "grad_norm": 0.000118190873763524, + "learning_rate": 1.8858986666666668e-05, + "loss": 0.0, + "step": 10700 + }, + { + "epoch": 0.1728, + "grad_norm": 0.0001291615335503593, + "learning_rate": 1.8848320000000002e-05, + "loss": 0.0, + "step": 10800 + }, + { + "epoch": 0.1744, + "grad_norm": 0.00015779025852680206, + "learning_rate": 1.883808e-05, + "loss": 0.0415, + "step": 10900 + }, + { + "epoch": 0.176, + "grad_norm": 0.0010131917661055923, + "learning_rate": 1.8827413333333334e-05, + "loss": 0.0044, + "step": 11000 + }, + { + "epoch": 0.1776, + "grad_norm": 0.00028366921469569206, + "learning_rate": 1.8816746666666668e-05, + "loss": 0.0, + "step": 11100 + }, + { + "epoch": 0.1792, + "grad_norm": 0.00023540180700365454, + "learning_rate": 1.880608e-05, + "loss": 0.0, + "step": 11200 + }, + { + "epoch": 0.1808, + "grad_norm": 0.00020333370775915682, + "learning_rate": 1.8795413333333335e-05, + "loss": 0.0, + "step": 11300 + }, + { + "epoch": 0.1824, + "grad_norm": 0.0010605982970446348, + "learning_rate": 1.878474666666667e-05, + "loss": 0.0, + "step": 11400 + }, + { + "epoch": 0.184, + "grad_norm": 0.0002904959546867758, + "learning_rate": 1.8774080000000002e-05, + "loss": 0.0004, + "step": 11500 + }, + { + "epoch": 0.1856, + "grad_norm": 0.00024336307251360267, + "learning_rate": 1.8763413333333336e-05, + "loss": 0.0, + "step": 11600 + }, + { + "epoch": 0.1872, + "grad_norm": 0.0001343002077192068, + "learning_rate": 1.8752746666666666e-05, + "loss": 0.0, + "step": 11700 + }, + { + "epoch": 0.1888, + "grad_norm": 9.551690163789317e-05, + "learning_rate": 1.8742080000000003e-05, + "loss": 0.0, + "step": 11800 + }, + { + "epoch": 0.1904, + "grad_norm": 7.702928996877745e-05, + "learning_rate": 1.8731413333333334e-05, + "loss": 0.0, + "step": 11900 + }, + { + "epoch": 0.192, + "grad_norm": 8.958076796261594e-05, + "learning_rate": 1.872074666666667e-05, + "loss": 0.0, + "step": 12000 + }, + { + "epoch": 0.1936, + "grad_norm": 7.529326830990613e-05, + "learning_rate": 1.871008e-05, + "loss": 0.0, + "step": 12100 + }, + { + "epoch": 0.1952, + "grad_norm": 5.7092009228654206e-05, + "learning_rate": 1.8699413333333335e-05, + "loss": 0.0, + "step": 12200 + }, + { + "epoch": 0.1968, + "grad_norm": 5.631962267216295e-05, + "learning_rate": 1.8688746666666668e-05, + "loss": 0.0, + "step": 12300 + }, + { + "epoch": 0.1984, + "grad_norm": 5.422734466264956e-05, + "learning_rate": 1.8678080000000002e-05, + "loss": 0.0, + "step": 12400 + }, + { + "epoch": 0.2, + "grad_norm": 9.995359869208187e-05, + "learning_rate": 1.8667413333333336e-05, + "loss": 0.0, + "step": 12500 + }, + { + "epoch": 0.2016, + "grad_norm": 4.6004188334336504e-05, + "learning_rate": 1.8656746666666666e-05, + "loss": 0.0, + "step": 12600 + }, + { + "epoch": 0.2032, + "grad_norm": 4.585070564644411e-05, + "learning_rate": 1.8646080000000003e-05, + "loss": 0.0, + "step": 12700 + }, + { + "epoch": 0.2048, + "grad_norm": 4.063411324750632e-05, + "learning_rate": 1.8635413333333333e-05, + "loss": 0.0, + "step": 12800 + }, + { + "epoch": 0.2064, + "grad_norm": 4.030313721159473e-05, + "learning_rate": 1.862474666666667e-05, + "loss": 0.0, + "step": 12900 + }, + { + "epoch": 0.208, + "grad_norm": 3.6798068322241306e-05, + "learning_rate": 1.861408e-05, + "loss": 0.0, + "step": 13000 + }, + { + "epoch": 0.2096, + "grad_norm": 3.58178440365009e-05, + "learning_rate": 1.8603413333333334e-05, + "loss": 0.0, + "step": 13100 + }, + { + "epoch": 0.2112, + "grad_norm": 3.633175219874829e-05, + "learning_rate": 1.8592746666666668e-05, + "loss": 0.0, + "step": 13200 + }, + { + "epoch": 0.2128, + "grad_norm": 2.833498001564294e-05, + "learning_rate": 1.858208e-05, + "loss": 0.0, + "step": 13300 + }, + { + "epoch": 0.2144, + "grad_norm": 3.0395483918255195e-05, + "learning_rate": 1.8571413333333335e-05, + "loss": 0.0, + "step": 13400 + }, + { + "epoch": 0.216, + "grad_norm": 2.7293002858641557e-05, + "learning_rate": 1.856074666666667e-05, + "loss": 0.0, + "step": 13500 + }, + { + "epoch": 0.2176, + "grad_norm": 2.7100266379420646e-05, + "learning_rate": 1.8550080000000002e-05, + "loss": 0.0, + "step": 13600 + }, + { + "epoch": 0.2192, + "grad_norm": 2.9992290365044028e-05, + "learning_rate": 1.8539413333333336e-05, + "loss": 0.0, + "step": 13700 + }, + { + "epoch": 0.2208, + "grad_norm": 2.895161924243439e-05, + "learning_rate": 1.852874666666667e-05, + "loss": 0.0, + "step": 13800 + }, + { + "epoch": 0.2224, + "grad_norm": 2.4209704861277714e-05, + "learning_rate": 1.851808e-05, + "loss": 0.0, + "step": 13900 + }, + { + "epoch": 0.224, + "grad_norm": 2.0423936803126708e-05, + "learning_rate": 1.8507413333333334e-05, + "loss": 0.0, + "step": 14000 + }, + { + "epoch": 0.2256, + "grad_norm": 1.81021387106739e-05, + "learning_rate": 1.8496746666666667e-05, + "loss": 0.0, + "step": 14100 + }, + { + "epoch": 0.2272, + "grad_norm": 1.9862713088514283e-05, + "learning_rate": 1.848608e-05, + "loss": 0.0, + "step": 14200 + }, + { + "epoch": 0.2288, + "grad_norm": 1.785710992407985e-05, + "learning_rate": 1.8475413333333335e-05, + "loss": 0.0, + "step": 14300 + }, + { + "epoch": 0.2304, + "grad_norm": 1.59865176101448e-05, + "learning_rate": 1.846474666666667e-05, + "loss": 0.0, + "step": 14400 + }, + { + "epoch": 0.232, + "grad_norm": 1.3941355064162053e-05, + "learning_rate": 1.8454080000000002e-05, + "loss": 0.0, + "step": 14500 + }, + { + "epoch": 0.2336, + "grad_norm": 1.572091605339665e-05, + "learning_rate": 1.8443413333333336e-05, + "loss": 0.0, + "step": 14600 + }, + { + "epoch": 0.2352, + "grad_norm": 1.866888123913668e-05, + "learning_rate": 1.843274666666667e-05, + "loss": 0.0, + "step": 14700 + }, + { + "epoch": 0.2368, + "grad_norm": 1.7219248547917232e-05, + "learning_rate": 1.8422080000000003e-05, + "loss": 0.0, + "step": 14800 + }, + { + "epoch": 0.2384, + "grad_norm": 1.6731108189560473e-05, + "learning_rate": 1.8411413333333333e-05, + "loss": 0.0, + "step": 14900 + }, + { + "epoch": 0.24, + "grad_norm": 1.463459284423152e-05, + "learning_rate": 1.840074666666667e-05, + "loss": 0.0, + "step": 15000 + }, + { + "epoch": 0.2416, + "grad_norm": 1.5301053281291388e-05, + "learning_rate": 1.839008e-05, + "loss": 0.0, + "step": 15100 + }, + { + "epoch": 0.2432, + "grad_norm": 1.1437626199040096e-05, + "learning_rate": 1.8379413333333334e-05, + "loss": 0.0, + "step": 15200 + }, + { + "epoch": 0.2448, + "grad_norm": 1.2994928511034232e-05, + "learning_rate": 1.8368746666666668e-05, + "loss": 0.0, + "step": 15300 + }, + { + "epoch": 0.2464, + "grad_norm": 1.1984897355432622e-05, + "learning_rate": 1.835808e-05, + "loss": 0.0, + "step": 15400 + }, + { + "epoch": 0.248, + "grad_norm": 1.0545180884946603e-05, + "learning_rate": 1.8347413333333335e-05, + "loss": 0.0, + "step": 15500 + }, + { + "epoch": 0.2496, + "grad_norm": 1.0379474588262383e-05, + "learning_rate": 1.8336746666666666e-05, + "loss": 0.0, + "step": 15600 + }, + { + "epoch": 0.2512, + "grad_norm": 9.962018339138012e-06, + "learning_rate": 1.8326080000000003e-05, + "loss": 0.0, + "step": 15700 + }, + { + "epoch": 0.2528, + "grad_norm": 1.2507619430834893e-05, + "learning_rate": 1.8315413333333333e-05, + "loss": 0.0, + "step": 15800 + }, + { + "epoch": 0.2544, + "grad_norm": 1.1630279914243147e-05, + "learning_rate": 1.830474666666667e-05, + "loss": 0.0, + "step": 15900 + }, + { + "epoch": 0.256, + "grad_norm": 8.16356077848468e-06, + "learning_rate": 1.829408e-05, + "loss": 0.0, + "step": 16000 + }, + { + "epoch": 0.2576, + "grad_norm": 9.179115295410156e-06, + "learning_rate": 1.8283413333333334e-05, + "loss": 0.0, + "step": 16100 + }, + { + "epoch": 0.2592, + "grad_norm": 7.899307092884555e-06, + "learning_rate": 1.8272746666666668e-05, + "loss": 0.0, + "step": 16200 + }, + { + "epoch": 0.2608, + "grad_norm": 8.934203833632637e-06, + "learning_rate": 1.826208e-05, + "loss": 0.0, + "step": 16300 + }, + { + "epoch": 0.2624, + "grad_norm": 6.883318292238982e-06, + "learning_rate": 1.8251413333333335e-05, + "loss": 0.0, + "step": 16400 + }, + { + "epoch": 0.264, + "grad_norm": 6.63133641864988e-06, + "learning_rate": 1.824074666666667e-05, + "loss": 0.0, + "step": 16500 + }, + { + "epoch": 0.2656, + "grad_norm": 7.2985894803423434e-06, + "learning_rate": 1.8230080000000002e-05, + "loss": 0.0, + "step": 16600 + }, + { + "epoch": 0.2672, + "grad_norm": 6.7308114921615925e-06, + "learning_rate": 1.8219413333333336e-05, + "loss": 0.0, + "step": 16700 + }, + { + "epoch": 0.2688, + "grad_norm": 7.756932973279618e-06, + "learning_rate": 1.820874666666667e-05, + "loss": 0.0, + "step": 16800 + }, + { + "epoch": 0.2704, + "grad_norm": 6.190203748701606e-06, + "learning_rate": 1.8198080000000003e-05, + "loss": 0.0, + "step": 16900 + }, + { + "epoch": 0.272, + "grad_norm": 6.483978722826578e-06, + "learning_rate": 1.8187413333333333e-05, + "loss": 0.0, + "step": 17000 + }, + { + "epoch": 0.2736, + "grad_norm": 5.759993655374274e-06, + "learning_rate": 1.817674666666667e-05, + "loss": 0.0, + "step": 17100 + }, + { + "epoch": 0.2752, + "grad_norm": 5.414194674813189e-06, + "learning_rate": 1.816608e-05, + "loss": 0.0, + "step": 17200 + }, + { + "epoch": 0.2768, + "grad_norm": 6.183955520100426e-06, + "learning_rate": 1.8155413333333334e-05, + "loss": 0.0, + "step": 17300 + }, + { + "epoch": 0.2784, + "grad_norm": 5.614017936750315e-06, + "learning_rate": 1.8144746666666668e-05, + "loss": 0.0, + "step": 17400 + }, + { + "epoch": 0.28, + "grad_norm": 4.546806849248242e-06, + "learning_rate": 1.8134080000000002e-05, + "loss": 0.0, + "step": 17500 + }, + { + "epoch": 0.2816, + "grad_norm": 5.248873549135169e-06, + "learning_rate": 1.8123413333333335e-05, + "loss": 0.0, + "step": 17600 + }, + { + "epoch": 0.2832, + "grad_norm": 5.707049695047317e-06, + "learning_rate": 1.811274666666667e-05, + "loss": 0.0, + "step": 17700 + }, + { + "epoch": 0.2848, + "grad_norm": 4.1388898353034165e-06, + "learning_rate": 1.8102080000000003e-05, + "loss": 0.0, + "step": 17800 + }, + { + "epoch": 0.2864, + "grad_norm": 4.138165422773454e-06, + "learning_rate": 1.8091413333333333e-05, + "loss": 0.0, + "step": 17900 + }, + { + "epoch": 0.288, + "grad_norm": 4.807816367247142e-06, + "learning_rate": 1.808074666666667e-05, + "loss": 0.0, + "step": 18000 + }, + { + "epoch": 0.2896, + "grad_norm": 3.953806299250573e-06, + "learning_rate": 1.807008e-05, + "loss": 0.0, + "step": 18100 + }, + { + "epoch": 0.2912, + "grad_norm": 4.514291049417807e-06, + "learning_rate": 1.8059413333333334e-05, + "loss": 0.0, + "step": 18200 + }, + { + "epoch": 0.2928, + "grad_norm": 3.86543206332135e-06, + "learning_rate": 1.8048746666666668e-05, + "loss": 0.0, + "step": 18300 + }, + { + "epoch": 0.2944, + "grad_norm": 4.020656433567638e-06, + "learning_rate": 1.803808e-05, + "loss": 0.0, + "step": 18400 + }, + { + "epoch": 0.296, + "grad_norm": 3.020624490090995e-06, + "learning_rate": 1.8027413333333335e-05, + "loss": 0.0, + "step": 18500 + }, + { + "epoch": 0.2976, + "grad_norm": 3.109249746557907e-06, + "learning_rate": 1.801674666666667e-05, + "loss": 0.0, + "step": 18600 + }, + { + "epoch": 0.2992, + "grad_norm": 3.1550080166198313e-06, + "learning_rate": 1.8006080000000002e-05, + "loss": 0.0, + "step": 18700 + }, + { + "epoch": 0.3008, + "grad_norm": 2.926373326772591e-06, + "learning_rate": 1.7995413333333336e-05, + "loss": 0.0, + "step": 18800 + }, + { + "epoch": 0.3024, + "grad_norm": 2.828928245435236e-06, + "learning_rate": 1.798474666666667e-05, + "loss": 0.0, + "step": 18900 + }, + { + "epoch": 0.304, + "grad_norm": 2.5713843569974415e-06, + "learning_rate": 1.797408e-05, + "loss": 0.0, + "step": 19000 + }, + { + "epoch": 0.3056, + "grad_norm": 2.677134943951387e-06, + "learning_rate": 1.7963413333333334e-05, + "loss": 0.0, + "step": 19100 + }, + { + "epoch": 0.3072, + "grad_norm": 2.3387976852973225e-06, + "learning_rate": 1.7952746666666667e-05, + "loss": 0.0, + "step": 19200 + }, + { + "epoch": 0.3088, + "grad_norm": 2.2587300918530673e-06, + "learning_rate": 1.794208e-05, + "loss": 0.0, + "step": 19300 + }, + { + "epoch": 0.3104, + "grad_norm": 2.2797592009737855e-06, + "learning_rate": 1.7931413333333335e-05, + "loss": 0.0, + "step": 19400 + }, + { + "epoch": 0.312, + "grad_norm": 2.516329004720319e-06, + "learning_rate": 1.7920746666666668e-05, + "loss": 0.0, + "step": 19500 + }, + { + "epoch": 0.3136, + "grad_norm": 2.1884568468522048e-06, + "learning_rate": 1.7910080000000002e-05, + "loss": 0.0, + "step": 19600 + }, + { + "epoch": 0.3152, + "grad_norm": 1.7737016833052621e-06, + "learning_rate": 1.7899413333333335e-05, + "loss": 0.0, + "step": 19700 + }, + { + "epoch": 0.3168, + "grad_norm": 1.8436692243994912e-06, + "learning_rate": 1.788874666666667e-05, + "loss": 0.0, + "step": 19800 + }, + { + "epoch": 0.3184, + "grad_norm": 2.1666396605724003e-06, + "learning_rate": 1.7878080000000003e-05, + "loss": 0.0, + "step": 19900 + }, + { + "epoch": 0.32, + "grad_norm": 1.988582653211779e-06, + "learning_rate": 1.7867413333333333e-05, + "loss": 0.0, + "step": 20000 + }, + { + "epoch": 0.3216, + "grad_norm": 1.9917110876122024e-06, + "learning_rate": 1.785674666666667e-05, + "loss": 0.0, + "step": 20100 + }, + { + "epoch": 0.3232, + "grad_norm": 1.605521674719057e-06, + "learning_rate": 1.7846186666666667e-05, + "loss": 0.0013, + "step": 20200 + }, + { + "epoch": 0.3248, + "grad_norm": 2.1161680706427433e-05, + "learning_rate": 1.7835733333333333e-05, + "loss": 0.0223, + "step": 20300 + }, + { + "epoch": 0.3264, + "grad_norm": 0.0008167960331775248, + "learning_rate": 1.782506666666667e-05, + "loss": 0.0106, + "step": 20400 + }, + { + "epoch": 0.328, + "grad_norm": 0.00030075563699938357, + "learning_rate": 1.78144e-05, + "loss": 0.0004, + "step": 20500 + }, + { + "epoch": 0.3296, + "grad_norm": 0.00021357230434659868, + "learning_rate": 1.7803733333333334e-05, + "loss": 0.0, + "step": 20600 + }, + { + "epoch": 0.3312, + "grad_norm": 0.0021272392477840185, + "learning_rate": 1.7793066666666667e-05, + "loss": 0.005, + "step": 20700 + }, + { + "epoch": 0.3328, + "grad_norm": 0.00031995793688111007, + "learning_rate": 1.77824e-05, + "loss": 0.0, + "step": 20800 + }, + { + "epoch": 0.3344, + "grad_norm": 0.00017301621846854687, + "learning_rate": 1.7771733333333335e-05, + "loss": 0.0001, + "step": 20900 + }, + { + "epoch": 0.336, + "grad_norm": 0.00015349338355008513, + "learning_rate": 1.776106666666667e-05, + "loss": 0.0, + "step": 21000 + }, + { + "epoch": 0.3376, + "grad_norm": 0.00011431697930675, + "learning_rate": 1.7750400000000002e-05, + "loss": 0.0, + "step": 21100 + }, + { + "epoch": 0.3392, + "grad_norm": 0.00010969273716909811, + "learning_rate": 1.7739733333333336e-05, + "loss": 0.0, + "step": 21200 + }, + { + "epoch": 0.3408, + "grad_norm": 9.16854478418827e-05, + "learning_rate": 1.772906666666667e-05, + "loss": 0.0, + "step": 21300 + }, + { + "epoch": 0.3424, + "grad_norm": 7.963561074575409e-05, + "learning_rate": 1.7718400000000003e-05, + "loss": 0.0, + "step": 21400 + }, + { + "epoch": 0.344, + "grad_norm": 7.331543747568503e-05, + "learning_rate": 1.7707733333333333e-05, + "loss": 0.0, + "step": 21500 + }, + { + "epoch": 0.3456, + "grad_norm": 6.28735069767572e-05, + "learning_rate": 1.769706666666667e-05, + "loss": 0.0, + "step": 21600 + }, + { + "epoch": 0.3472, + "grad_norm": 5.47724193893373e-05, + "learning_rate": 1.76864e-05, + "loss": 0.0, + "step": 21700 + }, + { + "epoch": 0.3488, + "grad_norm": 5.209392838878557e-05, + "learning_rate": 1.7675733333333334e-05, + "loss": 0.0, + "step": 21800 + }, + { + "epoch": 0.3504, + "grad_norm": 5.173907629796304e-05, + "learning_rate": 1.7665066666666668e-05, + "loss": 0.0, + "step": 21900 + }, + { + "epoch": 0.352, + "grad_norm": 5.027300721849315e-05, + "learning_rate": 1.76544e-05, + "loss": 0.0, + "step": 22000 + }, + { + "epoch": 0.3536, + "grad_norm": 4.8056979721877724e-05, + "learning_rate": 1.7643733333333335e-05, + "loss": 0.0, + "step": 22100 + }, + { + "epoch": 0.3552, + "grad_norm": 4.373279443825595e-05, + "learning_rate": 1.7633066666666666e-05, + "loss": 0.0, + "step": 22200 + }, + { + "epoch": 0.3568, + "grad_norm": 4.0998969780048355e-05, + "learning_rate": 1.7622400000000003e-05, + "loss": 0.0, + "step": 22300 + }, + { + "epoch": 0.3584, + "grad_norm": 3.9302074583247304e-05, + "learning_rate": 1.7611733333333333e-05, + "loss": 0.0, + "step": 22400 + }, + { + "epoch": 0.36, + "grad_norm": 3.604054290917702e-05, + "learning_rate": 1.760106666666667e-05, + "loss": 0.0, + "step": 22500 + }, + { + "epoch": 0.3616, + "grad_norm": 3.515103890094906e-05, + "learning_rate": 1.75904e-05, + "loss": 0.0, + "step": 22600 + }, + { + "epoch": 0.3632, + "grad_norm": 3.248384018661454e-05, + "learning_rate": 1.7579733333333334e-05, + "loss": 0.0, + "step": 22700 + }, + { + "epoch": 0.3648, + "grad_norm": 3.285553611931391e-05, + "learning_rate": 1.7569066666666667e-05, + "loss": 0.0, + "step": 22800 + }, + { + "epoch": 0.3664, + "grad_norm": 2.9991715564392507e-05, + "learning_rate": 1.75584e-05, + "loss": 0.0, + "step": 22900 + }, + { + "epoch": 0.368, + "grad_norm": 2.546398900449276e-05, + "learning_rate": 1.7547733333333335e-05, + "loss": 0.0, + "step": 23000 + }, + { + "epoch": 0.3696, + "grad_norm": 2.696343290153891e-05, + "learning_rate": 1.753706666666667e-05, + "loss": 0.0, + "step": 23100 + }, + { + "epoch": 0.3712, + "grad_norm": 2.5436993382754736e-05, + "learning_rate": 1.7526400000000002e-05, + "loss": 0.0, + "step": 23200 + }, + { + "epoch": 0.3728, + "grad_norm": 2.3871341909398325e-05, + "learning_rate": 1.7515733333333336e-05, + "loss": 0.0, + "step": 23300 + }, + { + "epoch": 0.3744, + "grad_norm": 2.4206261514336802e-05, + "learning_rate": 1.750506666666667e-05, + "loss": 0.0, + "step": 23400 + }, + { + "epoch": 0.376, + "grad_norm": 2.1603356799460016e-05, + "learning_rate": 1.7494400000000003e-05, + "loss": 0.0, + "step": 23500 + }, + { + "epoch": 0.3776, + "grad_norm": 2.217761539213825e-05, + "learning_rate": 1.7483733333333333e-05, + "loss": 0.0, + "step": 23600 + }, + { + "epoch": 0.3792, + "grad_norm": 2.0118233805987984e-05, + "learning_rate": 1.7473066666666667e-05, + "loss": 0.0, + "step": 23700 + }, + { + "epoch": 0.3808, + "grad_norm": 1.8580089090391994e-05, + "learning_rate": 1.74624e-05, + "loss": 0.0, + "step": 23800 + }, + { + "epoch": 0.3824, + "grad_norm": 2.0107261661905795e-05, + "learning_rate": 1.7451733333333334e-05, + "loss": 0.0, + "step": 23900 + }, + { + "epoch": 0.384, + "grad_norm": 1.8376658772467636e-05, + "learning_rate": 1.7441066666666668e-05, + "loss": 0.0, + "step": 24000 + }, + { + "epoch": 0.3856, + "grad_norm": 1.9588029317674227e-05, + "learning_rate": 1.7430400000000002e-05, + "loss": 0.0, + "step": 24100 + }, + { + "epoch": 0.3872, + "grad_norm": 1.579835770826321e-05, + "learning_rate": 1.7419733333333335e-05, + "loss": 0.0, + "step": 24200 + }, + { + "epoch": 0.3888, + "grad_norm": 1.5347810403909534e-05, + "learning_rate": 1.740906666666667e-05, + "loss": 0.0, + "step": 24300 + }, + { + "epoch": 0.3904, + "grad_norm": 1.552935464133043e-05, + "learning_rate": 1.7398400000000003e-05, + "loss": 0.0, + "step": 24400 + }, + { + "epoch": 0.392, + "grad_norm": 1.485102347942302e-05, + "learning_rate": 1.7387733333333333e-05, + "loss": 0.0, + "step": 24500 + }, + { + "epoch": 0.3936, + "grad_norm": 1.4200339137460105e-05, + "learning_rate": 1.737706666666667e-05, + "loss": 0.0, + "step": 24600 + }, + { + "epoch": 0.3952, + "grad_norm": 1.186304052680498e-05, + "learning_rate": 1.73664e-05, + "loss": 0.0, + "step": 24700 + }, + { + "epoch": 0.3968, + "grad_norm": 1.2428082300175447e-05, + "learning_rate": 1.7355733333333334e-05, + "loss": 0.0, + "step": 24800 + }, + { + "epoch": 0.3984, + "grad_norm": 1.168328890344128e-05, + "learning_rate": 1.7345066666666668e-05, + "loss": 0.0, + "step": 24900 + }, + { + "epoch": 0.4, + "grad_norm": 1.1338147487549577e-05, + "learning_rate": 1.73344e-05, + "loss": 0.0, + "step": 25000 + }, + { + "epoch": 0.4016, + "grad_norm": 1.0833624401129782e-05, + "learning_rate": 1.7323733333333335e-05, + "loss": 0.0, + "step": 25100 + }, + { + "epoch": 0.4032, + "grad_norm": 1.1126129720651079e-05, + "learning_rate": 1.731306666666667e-05, + "loss": 0.0, + "step": 25200 + }, + { + "epoch": 0.4048, + "grad_norm": 1.071280894393567e-05, + "learning_rate": 1.730250666666667e-05, + "loss": 0.0004, + "step": 25300 + }, + { + "epoch": 0.4064, + "grad_norm": 8.747599167691078e-06, + "learning_rate": 1.7291840000000002e-05, + "loss": 0.0, + "step": 25400 + }, + { + "epoch": 0.408, + "grad_norm": 9.405779564986005e-06, + "learning_rate": 1.7281173333333336e-05, + "loss": 0.0, + "step": 25500 + }, + { + "epoch": 0.4096, + "grad_norm": 9.353114364785142e-06, + "learning_rate": 1.727050666666667e-05, + "loss": 0.0, + "step": 25600 + }, + { + "epoch": 0.4112, + "grad_norm": 8.207565770135261e-06, + "learning_rate": 1.725984e-05, + "loss": 0.0, + "step": 25700 + }, + { + "epoch": 0.4128, + "grad_norm": 8.460830940748565e-06, + "learning_rate": 1.7249173333333337e-05, + "loss": 0.0, + "step": 25800 + }, + { + "epoch": 0.4144, + "grad_norm": 7.834319148969371e-06, + "learning_rate": 1.7238506666666667e-05, + "loss": 0.0, + "step": 25900 + }, + { + "epoch": 0.416, + "grad_norm": 7.789364644850139e-06, + "learning_rate": 1.722784e-05, + "loss": 0.0, + "step": 26000 + }, + { + "epoch": 0.4176, + "grad_norm": 7.643193384865299e-06, + "learning_rate": 1.7217173333333334e-05, + "loss": 0.0, + "step": 26100 + }, + { + "epoch": 0.4192, + "grad_norm": 6.989634584897431e-06, + "learning_rate": 1.7206506666666668e-05, + "loss": 0.0, + "step": 26200 + }, + { + "epoch": 0.4208, + "grad_norm": 6.504462362499908e-06, + "learning_rate": 1.7195840000000002e-05, + "loss": 0.0, + "step": 26300 + }, + { + "epoch": 0.4224, + "grad_norm": 6.5619133238215e-06, + "learning_rate": 1.7185173333333335e-05, + "loss": 0.0, + "step": 26400 + }, + { + "epoch": 0.424, + "grad_norm": 6.538786692544818e-06, + "learning_rate": 1.717450666666667e-05, + "loss": 0.0, + "step": 26500 + }, + { + "epoch": 0.4256, + "grad_norm": 5.952290393906878e-06, + "learning_rate": 1.716384e-05, + "loss": 0.0, + "step": 26600 + }, + { + "epoch": 0.4272, + "grad_norm": 5.890806733077625e-06, + "learning_rate": 1.7153173333333336e-05, + "loss": 0.0, + "step": 26700 + }, + { + "epoch": 0.4288, + "grad_norm": 5.5425175560230855e-06, + "learning_rate": 1.7142506666666667e-05, + "loss": 0.0, + "step": 26800 + }, + { + "epoch": 0.4304, + "grad_norm": 5.190961019252427e-06, + "learning_rate": 1.713184e-05, + "loss": 0.0, + "step": 26900 + }, + { + "epoch": 0.432, + "grad_norm": 5.312633220455609e-06, + "learning_rate": 1.7121173333333334e-05, + "loss": 0.0, + "step": 27000 + }, + { + "epoch": 0.4336, + "grad_norm": 4.84698239233694e-06, + "learning_rate": 1.7110506666666668e-05, + "loss": 0.0, + "step": 27100 + }, + { + "epoch": 0.4352, + "grad_norm": 4.822264145332156e-06, + "learning_rate": 1.709984e-05, + "loss": 0.0, + "step": 27200 + }, + { + "epoch": 0.4368, + "grad_norm": 5.0093335630663205e-06, + "learning_rate": 1.7089173333333335e-05, + "loss": 0.0, + "step": 27300 + }, + { + "epoch": 0.4384, + "grad_norm": 4.560034540190827e-06, + "learning_rate": 1.707850666666667e-05, + "loss": 0.0, + "step": 27400 + }, + { + "epoch": 0.44, + "grad_norm": 4.285787326807622e-06, + "learning_rate": 1.7067840000000002e-05, + "loss": 0.0, + "step": 27500 + }, + { + "epoch": 0.4416, + "grad_norm": 4.18266017732094e-06, + "learning_rate": 1.7057173333333336e-05, + "loss": 0.0, + "step": 27600 + }, + { + "epoch": 0.4432, + "grad_norm": 3.8072735151217785e-06, + "learning_rate": 1.704650666666667e-05, + "loss": 0.0, + "step": 27700 + }, + { + "epoch": 0.4448, + "grad_norm": 3.73259058505937e-06, + "learning_rate": 1.703584e-05, + "loss": 0.0, + "step": 27800 + }, + { + "epoch": 0.4464, + "grad_norm": 3.7710021842940478e-06, + "learning_rate": 1.7025173333333337e-05, + "loss": 0.0, + "step": 27900 + }, + { + "epoch": 0.448, + "grad_norm": 3.7697877814935055e-06, + "learning_rate": 1.7014506666666667e-05, + "loss": 0.0, + "step": 28000 + }, + { + "epoch": 0.4496, + "grad_norm": 3.442883553361753e-06, + "learning_rate": 1.700384e-05, + "loss": 0.0, + "step": 28100 + }, + { + "epoch": 0.4512, + "grad_norm": 3.407572421565419e-06, + "learning_rate": 1.6993173333333334e-05, + "loss": 0.0, + "step": 28200 + }, + { + "epoch": 0.4528, + "grad_norm": 3.369181740708882e-06, + "learning_rate": 1.6982506666666668e-05, + "loss": 0.0, + "step": 28300 + }, + { + "epoch": 0.4544, + "grad_norm": 3.2553843993810005e-06, + "learning_rate": 1.6971840000000002e-05, + "loss": 0.0, + "step": 28400 + }, + { + "epoch": 0.456, + "grad_norm": 2.9325344712560764e-06, + "learning_rate": 1.6961173333333335e-05, + "loss": 0.0, + "step": 28500 + }, + { + "epoch": 0.4576, + "grad_norm": 2.814329036482377e-06, + "learning_rate": 1.695050666666667e-05, + "loss": 0.0, + "step": 28600 + }, + { + "epoch": 0.4592, + "grad_norm": 2.932674760813825e-06, + "learning_rate": 1.693984e-05, + "loss": 0.0, + "step": 28700 + }, + { + "epoch": 0.4608, + "grad_norm": 2.8238118829904124e-06, + "learning_rate": 1.6929173333333336e-05, + "loss": 0.0, + "step": 28800 + }, + { + "epoch": 0.4624, + "grad_norm": 2.491308805474546e-06, + "learning_rate": 1.6918506666666667e-05, + "loss": 0.0, + "step": 28900 + }, + { + "epoch": 0.464, + "grad_norm": 2.2496963083540322e-06, + "learning_rate": 1.690784e-05, + "loss": 0.0, + "step": 29000 + }, + { + "epoch": 0.4656, + "grad_norm": 2.2353810891218018e-06, + "learning_rate": 1.6897173333333334e-05, + "loss": 0.0, + "step": 29100 + }, + { + "epoch": 0.4672, + "grad_norm": 2.2871329292684095e-06, + "learning_rate": 1.6886506666666668e-05, + "loss": 0.0, + "step": 29200 + }, + { + "epoch": 0.4688, + "grad_norm": 2.0240684079908533e-06, + "learning_rate": 1.687584e-05, + "loss": 0.0, + "step": 29300 + }, + { + "epoch": 0.4704, + "grad_norm": 2.1123094029462663e-06, + "learning_rate": 1.6865173333333335e-05, + "loss": 0.0, + "step": 29400 + }, + { + "epoch": 0.472, + "grad_norm": 1.2771483852702659e-06, + "learning_rate": 1.685450666666667e-05, + "loss": 0.0, + "step": 29500 + }, + { + "epoch": 0.4736, + "grad_norm": 1.6413683852078975e-06, + "learning_rate": 1.6843840000000002e-05, + "loss": 0.0, + "step": 29600 + }, + { + "epoch": 0.4752, + "grad_norm": 1.272170607080625e-06, + "learning_rate": 1.6833173333333336e-05, + "loss": 0.0, + "step": 29700 + }, + { + "epoch": 0.4768, + "grad_norm": 1.5857983726164093e-06, + "learning_rate": 1.6822506666666666e-05, + "loss": 0.0, + "step": 29800 + }, + { + "epoch": 0.4784, + "grad_norm": 9.906548257276881e-07, + "learning_rate": 1.681184e-05, + "loss": 0.0, + "step": 29900 + }, + { + "epoch": 0.48, + "grad_norm": 1.2207430017951992e-06, + "learning_rate": 1.6801173333333334e-05, + "loss": 0.0, + "step": 30000 + }, + { + "epoch": 0.4816, + "grad_norm": 1.0915376833509072e-06, + "learning_rate": 1.6790506666666667e-05, + "loss": 0.0, + "step": 30100 + }, + { + "epoch": 0.4832, + "grad_norm": 9.879134950097068e-07, + "learning_rate": 1.677984e-05, + "loss": 0.0, + "step": 30200 + }, + { + "epoch": 0.4848, + "grad_norm": 9.498847930444754e-07, + "learning_rate": 1.6769173333333335e-05, + "loss": 0.0, + "step": 30300 + }, + { + "epoch": 0.4864, + "grad_norm": 1.0251242201775312e-06, + "learning_rate": 1.6758506666666668e-05, + "loss": 0.0, + "step": 30400 + }, + { + "epoch": 0.488, + "grad_norm": 1.0169778761337511e-06, + "learning_rate": 1.6747840000000002e-05, + "loss": 0.0, + "step": 30500 + }, + { + "epoch": 0.4896, + "grad_norm": 8.809812470644829e-07, + "learning_rate": 1.6737173333333336e-05, + "loss": 0.0, + "step": 30600 + }, + { + "epoch": 0.4912, + "grad_norm": 5.986374276290007e-07, + "learning_rate": 1.672650666666667e-05, + "loss": 0.0, + "step": 30700 + }, + { + "epoch": 0.4928, + "grad_norm": 7.004752546890813e-07, + "learning_rate": 1.671584e-05, + "loss": 0.0, + "step": 30800 + }, + { + "epoch": 0.4944, + "grad_norm": 6.413148412320879e-07, + "learning_rate": 1.6705173333333337e-05, + "loss": 0.0, + "step": 30900 + }, + { + "epoch": 0.496, + "grad_norm": 5.724415927943483e-07, + "learning_rate": 1.6694506666666667e-05, + "loss": 0.0, + "step": 31000 + }, + { + "epoch": 0.4976, + "grad_norm": 6.884836238896241e-07, + "learning_rate": 1.6683840000000004e-05, + "loss": 0.0, + "step": 31100 + }, + { + "epoch": 0.4992, + "grad_norm": 6.260689247028495e-07, + "learning_rate": 1.6673173333333334e-05, + "loss": 0.0, + "step": 31200 + }, + { + "epoch": 0.5008, + "grad_norm": 5.333803301255102e-07, + "learning_rate": 1.6662506666666668e-05, + "loss": 0.0, + "step": 31300 + }, + { + "epoch": 0.5024, + "grad_norm": 7.12101609678939e-07, + "learning_rate": 1.665184e-05, + "loss": 0.0, + "step": 31400 + }, + { + "epoch": 0.504, + "grad_norm": 5.5784983032936e-07, + "learning_rate": 1.6641173333333335e-05, + "loss": 0.0, + "step": 31500 + }, + { + "epoch": 0.5056, + "grad_norm": 5.744473696722707e-07, + "learning_rate": 1.663050666666667e-05, + "loss": 0.0, + "step": 31600 + }, + { + "epoch": 0.5072, + "grad_norm": 5.516257601811958e-07, + "learning_rate": 1.661984e-05, + "loss": 0.0, + "step": 31700 + }, + { + "epoch": 0.5088, + "grad_norm": 5.83314033519855e-07, + "learning_rate": 1.6609173333333336e-05, + "loss": 0.0, + "step": 31800 + }, + { + "epoch": 0.5104, + "grad_norm": 4.716930277481879e-07, + "learning_rate": 1.6598506666666666e-05, + "loss": 0.0, + "step": 31900 + }, + { + "epoch": 0.512, + "grad_norm": 4.2959382540175284e-07, + "learning_rate": 1.658784e-05, + "loss": 0.0, + "step": 32000 + }, + { + "epoch": 0.5136, + "grad_norm": 4.2993829652004933e-07, + "learning_rate": 1.6577173333333334e-05, + "loss": 0.0, + "step": 32100 + }, + { + "epoch": 0.5152, + "grad_norm": 4.2280382217541046e-07, + "learning_rate": 1.6566506666666667e-05, + "loss": 0.0, + "step": 32200 + }, + { + "epoch": 0.5168, + "grad_norm": 3.871925855492009e-07, + "learning_rate": 1.655584e-05, + "loss": 0.0, + "step": 32300 + }, + { + "epoch": 0.5184, + "grad_norm": 4.4411478938855e-07, + "learning_rate": 1.6545173333333335e-05, + "loss": 0.0, + "step": 32400 + }, + { + "epoch": 0.52, + "grad_norm": 3.928717831058748e-07, + "learning_rate": 1.653450666666667e-05, + "loss": 0.0, + "step": 32500 + }, + { + "epoch": 0.5216, + "grad_norm": 4.015236640952935e-07, + "learning_rate": 1.6523840000000002e-05, + "loss": 0.0, + "step": 32600 + }, + { + "epoch": 0.5232, + "grad_norm": 4.0636822973283415e-07, + "learning_rate": 1.6513173333333336e-05, + "loss": 0.0, + "step": 32700 + }, + { + "epoch": 0.5248, + "grad_norm": 3.822638632300368e-07, + "learning_rate": 1.650250666666667e-05, + "loss": 0.0, + "step": 32800 + }, + { + "epoch": 0.5264, + "grad_norm": 3.445758522957476e-07, + "learning_rate": 1.649184e-05, + "loss": 0.0, + "step": 32900 + }, + { + "epoch": 0.528, + "grad_norm": 3.2311257314177055e-07, + "learning_rate": 1.6481173333333337e-05, + "loss": 0.0, + "step": 33000 + }, + { + "epoch": 0.5296, + "grad_norm": 3.157684318466636e-07, + "learning_rate": 1.6470506666666667e-05, + "loss": 0.0, + "step": 33100 + }, + { + "epoch": 0.5312, + "grad_norm": 2.9879865337534284e-07, + "learning_rate": 1.645984e-05, + "loss": 0.0, + "step": 33200 + }, + { + "epoch": 0.5328, + "grad_norm": 3.35712599053295e-07, + "learning_rate": 1.6449173333333334e-05, + "loss": 0.0, + "step": 33300 + }, + { + "epoch": 0.5344, + "grad_norm": 2.768248918982863e-07, + "learning_rate": 1.6438506666666668e-05, + "loss": 0.0, + "step": 33400 + }, + { + "epoch": 0.536, + "grad_norm": 2.875537177260412e-07, + "learning_rate": 1.642784e-05, + "loss": 0.0, + "step": 33500 + }, + { + "epoch": 0.5376, + "grad_norm": 2.9602924200844427e-07, + "learning_rate": 1.6417173333333335e-05, + "loss": 0.0, + "step": 33600 + }, + { + "epoch": 0.5392, + "grad_norm": 3.1393423682857247e-07, + "learning_rate": 1.640650666666667e-05, + "loss": 0.0, + "step": 33700 + }, + { + "epoch": 0.5408, + "grad_norm": 2.491387078862317e-07, + "learning_rate": 1.639584e-05, + "loss": 0.0, + "step": 33800 + }, + { + "epoch": 0.5424, + "grad_norm": 2.3757078793096298e-07, + "learning_rate": 1.6385173333333336e-05, + "loss": 0.0, + "step": 33900 + }, + { + "epoch": 0.544, + "grad_norm": 2.5188003860421304e-07, + "learning_rate": 1.6374506666666667e-05, + "loss": 0.0, + "step": 34000 + }, + { + "epoch": 0.5456, + "grad_norm": 2.4522555008843483e-07, + "learning_rate": 1.6363840000000004e-05, + "loss": 0.0, + "step": 34100 + }, + { + "epoch": 0.5472, + "grad_norm": 2.2814373323853943e-07, + "learning_rate": 1.6353173333333334e-05, + "loss": 0.0, + "step": 34200 + }, + { + "epoch": 0.5488, + "grad_norm": 2.2816611533471587e-07, + "learning_rate": 1.6342506666666668e-05, + "loss": 0.0, + "step": 34300 + }, + { + "epoch": 0.5504, + "grad_norm": 2.4142485699485405e-07, + "learning_rate": 1.633184e-05, + "loss": 0.0, + "step": 34400 + }, + { + "epoch": 0.552, + "grad_norm": 2.420672728931095e-07, + "learning_rate": 1.6321173333333335e-05, + "loss": 0.0, + "step": 34500 + }, + { + "epoch": 0.5536, + "grad_norm": 1.964133815590685e-07, + "learning_rate": 1.631050666666667e-05, + "loss": 0.0, + "step": 34600 + }, + { + "epoch": 0.5552, + "grad_norm": 1.8994630579527438e-07, + "learning_rate": 1.6299840000000002e-05, + "loss": 0.0, + "step": 34700 + }, + { + "epoch": 0.5568, + "grad_norm": 1.916166212367898e-07, + "learning_rate": 1.6289173333333336e-05, + "loss": 0.0, + "step": 34800 + }, + { + "epoch": 0.5584, + "grad_norm": 1.9209957713428594e-07, + "learning_rate": 1.6278506666666666e-05, + "loss": 0.0, + "step": 34900 + }, + { + "epoch": 0.56, + "grad_norm": 1.820495896254215e-07, + "learning_rate": 1.626784e-05, + "loss": 0.0, + "step": 35000 + }, + { + "epoch": 0.5616, + "grad_norm": 1.488028118501461e-07, + "learning_rate": 1.6257173333333333e-05, + "loss": 0.0, + "step": 35100 + }, + { + "epoch": 0.5632, + "grad_norm": 1.6596105467669986e-07, + "learning_rate": 1.6246506666666667e-05, + "loss": 0.0, + "step": 35200 + }, + { + "epoch": 0.5648, + "grad_norm": 1.5144816245538095e-07, + "learning_rate": 1.623584e-05, + "loss": 0.0, + "step": 35300 + }, + { + "epoch": 0.5664, + "grad_norm": 1.71941024973421e-07, + "learning_rate": 1.6225173333333334e-05, + "loss": 0.0, + "step": 35400 + }, + { + "epoch": 0.568, + "grad_norm": 1.6939323188580602e-07, + "learning_rate": 1.6214506666666668e-05, + "loss": 0.0, + "step": 35500 + }, + { + "epoch": 0.5696, + "grad_norm": 1.3844817203789717e-07, + "learning_rate": 1.6203840000000002e-05, + "loss": 0.0, + "step": 35600 + }, + { + "epoch": 0.5712, + "grad_norm": 1.4256781355470594e-07, + "learning_rate": 1.6193173333333335e-05, + "loss": 0.0, + "step": 35700 + }, + { + "epoch": 0.5728, + "grad_norm": 1.3021079325881146e-07, + "learning_rate": 1.618250666666667e-05, + "loss": 0.0, + "step": 35800 + }, + { + "epoch": 0.5744, + "grad_norm": 1.2057364529027836e-07, + "learning_rate": 1.617184e-05, + "loss": 0.0, + "step": 35900 + }, + { + "epoch": 0.576, + "grad_norm": 1.2874994581579813e-07, + "learning_rate": 1.6161173333333336e-05, + "loss": 0.0, + "step": 36000 + }, + { + "epoch": 0.5776, + "grad_norm": 1.333337138476054e-07, + "learning_rate": 1.6150506666666667e-05, + "loss": 0.0, + "step": 36100 + }, + { + "epoch": 0.5792, + "grad_norm": 1.192641150282725e-07, + "learning_rate": 1.6139840000000004e-05, + "loss": 0.0, + "step": 36200 + }, + { + "epoch": 0.5808, + "grad_norm": 9.963146396785305e-08, + "learning_rate": 1.6129173333333334e-05, + "loss": 0.0, + "step": 36300 + }, + { + "epoch": 0.5824, + "grad_norm": 1.1367530561301464e-07, + "learning_rate": 1.6118506666666668e-05, + "loss": 0.0, + "step": 36400 + }, + { + "epoch": 0.584, + "grad_norm": 9.971628145422073e-08, + "learning_rate": 1.610784e-05, + "loss": 0.0, + "step": 36500 + }, + { + "epoch": 0.5856, + "grad_norm": 9.849477322632083e-08, + "learning_rate": 1.6097173333333335e-05, + "loss": 0.0, + "step": 36600 + }, + { + "epoch": 0.5872, + "grad_norm": 8.821568542316527e-08, + "learning_rate": 1.608650666666667e-05, + "loss": 0.0, + "step": 36700 + }, + { + "epoch": 0.5888, + "grad_norm": 8.860416045308739e-08, + "learning_rate": 1.607584e-05, + "loss": 0.0, + "step": 36800 + }, + { + "epoch": 0.5904, + "grad_norm": 8.838700438218439e-08, + "learning_rate": 1.6065173333333336e-05, + "loss": 0.0, + "step": 36900 + }, + { + "epoch": 0.592, + "grad_norm": 9.879371987153718e-08, + "learning_rate": 1.6054506666666666e-05, + "loss": 0.0, + "step": 37000 + }, + { + "epoch": 0.5936, + "grad_norm": 8.26242469997851e-08, + "learning_rate": 1.6043840000000003e-05, + "loss": 0.0, + "step": 37100 + }, + { + "epoch": 0.5952, + "grad_norm": 7.888654351972946e-08, + "learning_rate": 1.6033173333333334e-05, + "loss": 0.0, + "step": 37200 + }, + { + "epoch": 0.5968, + "grad_norm": 7.877645202825079e-08, + "learning_rate": 1.6022613333333333e-05, + "loss": 0.0, + "step": 37300 + }, + { + "epoch": 0.5984, + "grad_norm": 7.30638873847056e-08, + "learning_rate": 1.601194666666667e-05, + "loss": 0.0, + "step": 37400 + }, + { + "epoch": 0.6, + "grad_norm": 7.81067299726601e-08, + "learning_rate": 1.600128e-05, + "loss": 0.0, + "step": 37500 + }, + { + "epoch": 0.6016, + "grad_norm": 6.583578482377561e-08, + "learning_rate": 1.5990613333333334e-05, + "loss": 0.0, + "step": 37600 + }, + { + "epoch": 0.6032, + "grad_norm": 6.778850547561888e-08, + "learning_rate": 1.5979946666666668e-05, + "loss": 0.0, + "step": 37700 + }, + { + "epoch": 0.6048, + "grad_norm": 6.064895785584667e-08, + "learning_rate": 1.5969280000000002e-05, + "loss": 0.0, + "step": 37800 + }, + { + "epoch": 0.6064, + "grad_norm": 6.343422143118005e-08, + "learning_rate": 1.5958613333333335e-05, + "loss": 0.0, + "step": 37900 + }, + { + "epoch": 0.608, + "grad_norm": 5.385956569625705e-08, + "learning_rate": 1.5947946666666666e-05, + "loss": 0.0, + "step": 38000 + }, + { + "epoch": 0.6096, + "grad_norm": 5.910140643550221e-08, + "learning_rate": 1.5937280000000003e-05, + "loss": 0.0, + "step": 38100 + }, + { + "epoch": 0.6112, + "grad_norm": 5.531205360398417e-08, + "learning_rate": 1.5926613333333333e-05, + "loss": 0.0, + "step": 38200 + }, + { + "epoch": 0.6128, + "grad_norm": 4.7664677538250544e-08, + "learning_rate": 1.591594666666667e-05, + "loss": 0.0, + "step": 38300 + }, + { + "epoch": 0.6144, + "grad_norm": 5.105589906406749e-08, + "learning_rate": 1.590528e-05, + "loss": 0.0, + "step": 38400 + }, + { + "epoch": 0.616, + "grad_norm": 4.647805340596278e-08, + "learning_rate": 1.5894613333333334e-05, + "loss": 0.0, + "step": 38500 + }, + { + "epoch": 0.6176, + "grad_norm": 4.669184150429828e-08, + "learning_rate": 1.5883946666666668e-05, + "loss": 0.0, + "step": 38600 + }, + { + "epoch": 0.6192, + "grad_norm": 4.602827630151296e-08, + "learning_rate": 1.587328e-05, + "loss": 0.0, + "step": 38700 + }, + { + "epoch": 0.6208, + "grad_norm": 4.170912504264379e-08, + "learning_rate": 1.5862613333333335e-05, + "loss": 0.0, + "step": 38800 + }, + { + "epoch": 0.6224, + "grad_norm": 3.930464487211793e-08, + "learning_rate": 1.585194666666667e-05, + "loss": 0.0, + "step": 38900 + }, + { + "epoch": 0.624, + "grad_norm": 5.003272818271398e-08, + "learning_rate": 1.5841280000000002e-05, + "loss": 0.0, + "step": 39000 + }, + { + "epoch": 0.6256, + "grad_norm": 3.810775339729844e-08, + "learning_rate": 1.5830613333333336e-05, + "loss": 0.0, + "step": 39100 + }, + { + "epoch": 0.6272, + "grad_norm": 3.707847540113107e-08, + "learning_rate": 1.581994666666667e-05, + "loss": 0.0, + "step": 39200 + }, + { + "epoch": 0.6288, + "grad_norm": 3.4199096887732594e-08, + "learning_rate": 1.580938666666667e-05, + "loss": 0.0, + "step": 39300 + }, + { + "epoch": 0.6304, + "grad_norm": 3.327440367684176e-08, + "learning_rate": 1.579872e-05, + "loss": 0.0, + "step": 39400 + }, + { + "epoch": 0.632, + "grad_norm": 3.221984101742237e-08, + "learning_rate": 1.5788053333333337e-05, + "loss": 0.0, + "step": 39500 + }, + { + "epoch": 0.6336, + "grad_norm": 3.06969596408635e-08, + "learning_rate": 1.5777386666666667e-05, + "loss": 0.0, + "step": 39600 + }, + { + "epoch": 0.6352, + "grad_norm": 2.9305402549084647e-08, + "learning_rate": 1.576672e-05, + "loss": 0.0, + "step": 39700 + }, + { + "epoch": 0.6368, + "grad_norm": 3.1664541211284813e-08, + "learning_rate": 1.5756053333333334e-05, + "loss": 0.0, + "step": 39800 + }, + { + "epoch": 0.6384, + "grad_norm": 3.058496389485299e-08, + "learning_rate": 1.5745386666666668e-05, + "loss": 0.0, + "step": 39900 + }, + { + "epoch": 0.64, + "grad_norm": 2.8967381382472013e-08, + "learning_rate": 1.5734720000000002e-05, + "loss": 0.0, + "step": 40000 + }, + { + "epoch": 0.6416, + "grad_norm": 2.6066624414511352e-08, + "learning_rate": 1.5724053333333335e-05, + "loss": 0.0, + "step": 40100 + }, + { + "epoch": 0.6432, + "grad_norm": 2.3177223695824978e-08, + "learning_rate": 1.571338666666667e-05, + "loss": 0.0, + "step": 40200 + }, + { + "epoch": 0.6448, + "grad_norm": 2.419685785071124e-08, + "learning_rate": 1.570272e-05, + "loss": 0.0, + "step": 40300 + }, + { + "epoch": 0.6464, + "grad_norm": 2.4422618594144296e-08, + "learning_rate": 1.5692053333333336e-05, + "loss": 0.0, + "step": 40400 + }, + { + "epoch": 0.648, + "grad_norm": 2.526655507040232e-08, + "learning_rate": 1.5681386666666667e-05, + "loss": 0.0, + "step": 40500 + }, + { + "epoch": 0.6496, + "grad_norm": 2.320962089186196e-08, + "learning_rate": 1.567072e-05, + "loss": 0.0, + "step": 40600 + }, + { + "epoch": 0.6512, + "grad_norm": 2.0410428902550848e-08, + "learning_rate": 1.5660053333333334e-05, + "loss": 0.0, + "step": 40700 + }, + { + "epoch": 0.6528, + "grad_norm": 2.2334850413585627e-08, + "learning_rate": 1.5649386666666668e-05, + "loss": 0.0, + "step": 40800 + }, + { + "epoch": 0.6544, + "grad_norm": 2.4193813175088508e-08, + "learning_rate": 1.563872e-05, + "loss": 0.0, + "step": 40900 + }, + { + "epoch": 0.656, + "grad_norm": 1.9213212354429743e-08, + "learning_rate": 1.5628053333333335e-05, + "loss": 0.0, + "step": 41000 + }, + { + "epoch": 0.6576, + "grad_norm": 1.9847044896437183e-08, + "learning_rate": 1.561738666666667e-05, + "loss": 0.0, + "step": 41100 + }, + { + "epoch": 0.6592, + "grad_norm": 1.8384987754416215e-08, + "learning_rate": 1.5606720000000002e-05, + "loss": 0.0, + "step": 41200 + }, + { + "epoch": 0.6608, + "grad_norm": 1.830431983762537e-08, + "learning_rate": 1.559616e-05, + "loss": 0.0, + "step": 41300 + }, + { + "epoch": 0.6624, + "grad_norm": 1.6151531667674135e-08, + "learning_rate": 1.5585493333333336e-05, + "loss": 0.0, + "step": 41400 + }, + { + "epoch": 0.664, + "grad_norm": 1.520500525487023e-08, + "learning_rate": 1.5574826666666666e-05, + "loss": 0.0, + "step": 41500 + }, + { + "epoch": 0.6656, + "grad_norm": 1.400090354763961e-08, + "learning_rate": 1.5564160000000003e-05, + "loss": 0.0, + "step": 41600 + }, + { + "epoch": 0.6672, + "grad_norm": 1.5792524621360826e-08, + "learning_rate": 1.5553493333333333e-05, + "loss": 0.0, + "step": 41700 + }, + { + "epoch": 0.6688, + "grad_norm": 1.325526088891138e-08, + "learning_rate": 1.5542826666666667e-05, + "loss": 0.0, + "step": 41800 + }, + { + "epoch": 0.6704, + "grad_norm": 1.4574178308635055e-08, + "learning_rate": 1.553216e-05, + "loss": 0.0, + "step": 41900 + }, + { + "epoch": 0.672, + "grad_norm": 1.443759423125357e-08, + "learning_rate": 1.5521493333333334e-05, + "loss": 0.0, + "step": 42000 + }, + { + "epoch": 0.6736, + "grad_norm": 1.2646203195743055e-08, + "learning_rate": 1.5510826666666668e-05, + "loss": 0.0, + "step": 42100 + }, + { + "epoch": 0.6752, + "grad_norm": 1.357729839668309e-08, + "learning_rate": 1.5500160000000002e-05, + "loss": 0.0, + "step": 42200 + }, + { + "epoch": 0.6768, + "grad_norm": 1.2999631593402228e-08, + "learning_rate": 1.5489493333333335e-05, + "loss": 0.0, + "step": 42300 + }, + { + "epoch": 0.6784, + "grad_norm": 1.2067292942674612e-08, + "learning_rate": 1.547882666666667e-05, + "loss": 0.0, + "step": 42400 + }, + { + "epoch": 0.68, + "grad_norm": 1.2314631980814283e-08, + "learning_rate": 1.546816e-05, + "loss": 0.0, + "step": 42500 + }, + { + "epoch": 0.6816, + "grad_norm": 1.0934391170280833e-08, + "learning_rate": 1.5457493333333336e-05, + "loss": 0.0, + "step": 42600 + }, + { + "epoch": 0.6832, + "grad_norm": 1.2301041074636032e-08, + "learning_rate": 1.5446826666666667e-05, + "loss": 0.0, + "step": 42700 + }, + { + "epoch": 0.6848, + "grad_norm": 1.130779558877748e-08, + "learning_rate": 1.5436160000000004e-05, + "loss": 0.0, + "step": 42800 + }, + { + "epoch": 0.6864, + "grad_norm": 9.362263853063268e-09, + "learning_rate": 1.5425493333333334e-05, + "loss": 0.0, + "step": 42900 + }, + { + "epoch": 0.688, + "grad_norm": 9.903635245223086e-09, + "learning_rate": 1.5414826666666668e-05, + "loss": 0.0, + "step": 43000 + }, + { + "epoch": 0.6896, + "grad_norm": 1.0525496918489807e-08, + "learning_rate": 1.540416e-05, + "loss": 0.0, + "step": 43100 + }, + { + "epoch": 0.6912, + "grad_norm": 9.31617361032977e-09, + "learning_rate": 1.5393493333333335e-05, + "loss": 0.0, + "step": 43200 + }, + { + "epoch": 0.6928, + "grad_norm": 9.237457909705427e-09, + "learning_rate": 1.5382933333333335e-05, + "loss": 0.0, + "step": 43300 + }, + { + "epoch": 0.6944, + "grad_norm": 8.73692673764026e-09, + "learning_rate": 1.537226666666667e-05, + "loss": 0.0, + "step": 43400 + }, + { + "epoch": 0.696, + "grad_norm": 7.849454419783797e-09, + "learning_rate": 1.5361600000000002e-05, + "loss": 0.0, + "step": 43500 + }, + { + "epoch": 0.6976, + "grad_norm": 9.30858945480395e-09, + "learning_rate": 1.5350933333333336e-05, + "loss": 0.0, + "step": 43600 + }, + { + "epoch": 0.6992, + "grad_norm": 7.977851268492486e-09, + "learning_rate": 1.5340266666666666e-05, + "loss": 0.0, + "step": 43700 + }, + { + "epoch": 0.7008, + "grad_norm": 7.884906061406127e-09, + "learning_rate": 1.5329600000000003e-05, + "loss": 0.0, + "step": 43800 + }, + { + "epoch": 0.7024, + "grad_norm": 7.931284073947609e-09, + "learning_rate": 1.5318933333333333e-05, + "loss": 0.0, + "step": 43900 + }, + { + "epoch": 0.704, + "grad_norm": 8.136783691270466e-09, + "learning_rate": 1.5308266666666667e-05, + "loss": 0.0, + "step": 44000 + }, + { + "epoch": 0.7056, + "grad_norm": 7.810712077116477e-09, + "learning_rate": 1.52976e-05, + "loss": 0.0, + "step": 44100 + }, + { + "epoch": 0.7072, + "grad_norm": 7.457011008682457e-09, + "learning_rate": 1.5286933333333334e-05, + "loss": 0.0, + "step": 44200 + }, + { + "epoch": 0.7088, + "grad_norm": 5.947691228413987e-09, + "learning_rate": 1.5276266666666668e-05, + "loss": 0.0, + "step": 44300 + }, + { + "epoch": 0.7104, + "grad_norm": 5.5936832943359605e-09, + "learning_rate": 1.5265600000000002e-05, + "loss": 0.0, + "step": 44400 + }, + { + "epoch": 0.712, + "grad_norm": 6.387094853010922e-09, + "learning_rate": 1.5254933333333335e-05, + "loss": 0.0, + "step": 44500 + }, + { + "epoch": 0.7136, + "grad_norm": 6.434018207102099e-09, + "learning_rate": 1.5244266666666667e-05, + "loss": 0.0, + "step": 44600 + }, + { + "epoch": 0.7152, + "grad_norm": 7.640887922377715e-09, + "learning_rate": 1.5233600000000001e-05, + "loss": 0.0, + "step": 44700 + }, + { + "epoch": 0.7168, + "grad_norm": 6.9532259949767194e-09, + "learning_rate": 1.5222933333333335e-05, + "loss": 0.0, + "step": 44800 + }, + { + "epoch": 0.7184, + "grad_norm": 5.967400351636343e-09, + "learning_rate": 1.5212266666666668e-05, + "loss": 0.0, + "step": 44900 + }, + { + "epoch": 0.72, + "grad_norm": 6.471727154178097e-09, + "learning_rate": 1.52016e-05, + "loss": 0.0, + "step": 45000 + }, + { + "epoch": 0.7216, + "grad_norm": 6.3445786402382964e-09, + "learning_rate": 1.5190933333333336e-05, + "loss": 0.0, + "step": 45100 + }, + { + "epoch": 0.7232, + "grad_norm": 5.881137354890598e-09, + "learning_rate": 1.5180266666666668e-05, + "loss": 0.0, + "step": 45200 + }, + { + "epoch": 0.7248, + "grad_norm": 6.409100361537412e-09, + "learning_rate": 1.5169706666666667e-05, + "loss": 0.0, + "step": 45300 + }, + { + "epoch": 0.7264, + "grad_norm": 5.837366146010936e-09, + "learning_rate": 1.5159040000000001e-05, + "loss": 0.0, + "step": 45400 + }, + { + "epoch": 0.728, + "grad_norm": 5.142333669994059e-09, + "learning_rate": 1.5148373333333335e-05, + "loss": 0.0, + "step": 45500 + }, + { + "epoch": 0.7296, + "grad_norm": 5.3732072125001196e-09, + "learning_rate": 1.5137706666666667e-05, + "loss": 0.0, + "step": 45600 + }, + { + "epoch": 0.7312, + "grad_norm": 5.1184545490912114e-09, + "learning_rate": 1.5127040000000002e-05, + "loss": 0.0, + "step": 45700 + }, + { + "epoch": 0.7328, + "grad_norm": 4.9866528684106015e-09, + "learning_rate": 1.5116373333333334e-05, + "loss": 0.0, + "step": 45800 + }, + { + "epoch": 0.7344, + "grad_norm": 5.368807620698135e-09, + "learning_rate": 1.5105706666666668e-05, + "loss": 0.0, + "step": 45900 + }, + { + "epoch": 0.736, + "grad_norm": 4.762381600187382e-09, + "learning_rate": 1.5095040000000001e-05, + "loss": 0.0, + "step": 46000 + }, + { + "epoch": 0.7376, + "grad_norm": 4.221057281483809e-09, + "learning_rate": 1.5084373333333335e-05, + "loss": 0.0, + "step": 46100 + }, + { + "epoch": 0.7392, + "grad_norm": 5.685349524497951e-09, + "learning_rate": 1.5073706666666667e-05, + "loss": 0.0, + "step": 46200 + }, + { + "epoch": 0.7408, + "grad_norm": 4.665808184256548e-09, + "learning_rate": 1.5063040000000002e-05, + "loss": 0.0, + "step": 46300 + }, + { + "epoch": 0.7424, + "grad_norm": 4.947431353485854e-09, + "learning_rate": 1.5052373333333334e-05, + "loss": 0.0, + "step": 46400 + }, + { + "epoch": 0.744, + "grad_norm": 4.350499516192485e-09, + "learning_rate": 1.504170666666667e-05, + "loss": 0.0, + "step": 46500 + }, + { + "epoch": 0.7456, + "grad_norm": 4.42672432043878e-09, + "learning_rate": 1.5031040000000002e-05, + "loss": 0.0, + "step": 46600 + }, + { + "epoch": 0.7472, + "grad_norm": 4.635956507570427e-09, + "learning_rate": 1.5020373333333334e-05, + "loss": 0.0, + "step": 46700 + }, + { + "epoch": 0.7488, + "grad_norm": 4.093439365249196e-09, + "learning_rate": 1.5009706666666667e-05, + "loss": 0.0, + "step": 46800 + }, + { + "epoch": 0.7504, + "grad_norm": 4.4049284220193385e-09, + "learning_rate": 1.4999040000000001e-05, + "loss": 0.0, + "step": 46900 + }, + { + "epoch": 0.752, + "grad_norm": 4.6566723810315125e-09, + "learning_rate": 1.4988373333333335e-05, + "loss": 0.0, + "step": 47000 + }, + { + "epoch": 0.7536, + "grad_norm": 3.575250540066577e-09, + "learning_rate": 1.4977706666666667e-05, + "loss": 0.0, + "step": 47100 + }, + { + "epoch": 0.7552, + "grad_norm": 4.647517037881244e-09, + "learning_rate": 1.4967040000000002e-05, + "loss": 0.0, + "step": 47200 + }, + { + "epoch": 0.7568, + "grad_norm": 3.6755953836120625e-09, + "learning_rate": 1.4956480000000002e-05, + "loss": 0.0, + "step": 47300 + }, + { + "epoch": 0.7584, + "grad_norm": 3.9804803897425245e-09, + "learning_rate": 1.4945813333333334e-05, + "loss": 0.0, + "step": 47400 + }, + { + "epoch": 0.76, + "grad_norm": 3.5315350643827514e-09, + "learning_rate": 1.493514666666667e-05, + "loss": 0.0, + "step": 47500 + }, + { + "epoch": 0.7616, + "grad_norm": 3.650338031846445e-09, + "learning_rate": 1.4924480000000001e-05, + "loss": 0.0, + "step": 47600 + }, + { + "epoch": 0.7632, + "grad_norm": 3.916106550150289e-09, + "learning_rate": 1.4913813333333333e-05, + "loss": 0.0, + "step": 47700 + }, + { + "epoch": 0.7648, + "grad_norm": 3.62517726948397e-09, + "learning_rate": 1.4903146666666668e-05, + "loss": 0.0, + "step": 47800 + }, + { + "epoch": 0.7664, + "grad_norm": 3.878641408050498e-09, + "learning_rate": 1.489248e-05, + "loss": 0.0, + "step": 47900 + }, + { + "epoch": 0.768, + "grad_norm": 4.047121304751045e-09, + "learning_rate": 1.4881813333333334e-05, + "loss": 0.0, + "step": 48000 + }, + { + "epoch": 0.7696, + "grad_norm": 3.005124149524363e-09, + "learning_rate": 1.4871146666666668e-05, + "loss": 0.0, + "step": 48100 + }, + { + "epoch": 0.7712, + "grad_norm": 3.664456960095208e-09, + "learning_rate": 1.4860480000000001e-05, + "loss": 0.0, + "step": 48200 + }, + { + "epoch": 0.7728, + "grad_norm": 3.27337112970838e-09, + "learning_rate": 1.4849813333333333e-05, + "loss": 0.0, + "step": 48300 + }, + { + "epoch": 0.7744, + "grad_norm": 3.1061264671450317e-09, + "learning_rate": 1.4839146666666669e-05, + "loss": 0.0, + "step": 48400 + }, + { + "epoch": 0.776, + "grad_norm": 2.910289342850092e-09, + "learning_rate": 1.482848e-05, + "loss": 0.0, + "step": 48500 + }, + { + "epoch": 0.7776, + "grad_norm": 3.726303710038792e-09, + "learning_rate": 1.4817813333333334e-05, + "loss": 0.0, + "step": 48600 + }, + { + "epoch": 0.7792, + "grad_norm": 3.082652577646172e-09, + "learning_rate": 1.4807146666666668e-05, + "loss": 0.0, + "step": 48700 + }, + { + "epoch": 0.7808, + "grad_norm": 2.9859092975925705e-09, + "learning_rate": 1.4796480000000002e-05, + "loss": 0.0, + "step": 48800 + }, + { + "epoch": 0.7824, + "grad_norm": 3.238060486410177e-09, + "learning_rate": 1.4785813333333334e-05, + "loss": 0.0, + "step": 48900 + }, + { + "epoch": 0.784, + "grad_norm": 2.965995005155264e-09, + "learning_rate": 1.4775146666666669e-05, + "loss": 0.0, + "step": 49000 + }, + { + "epoch": 0.7856, + "grad_norm": 2.5330839648063375e-09, + "learning_rate": 1.4764480000000001e-05, + "loss": 0.0, + "step": 49100 + }, + { + "epoch": 0.7872, + "grad_norm": 2.8175941579888786e-09, + "learning_rate": 1.4753813333333336e-05, + "loss": 0.0, + "step": 49200 + }, + { + "epoch": 0.7888, + "grad_norm": 2.6512554374136243e-09, + "learning_rate": 1.4743253333333335e-05, + "loss": 0.0, + "step": 49300 + }, + { + "epoch": 0.7904, + "grad_norm": 3.005082183094032e-09, + "learning_rate": 1.4732586666666668e-05, + "loss": 0.0, + "step": 49400 + }, + { + "epoch": 0.792, + "grad_norm": 2.7331856777834673e-09, + "learning_rate": 1.472192e-05, + "loss": 0.0, + "step": 49500 + }, + { + "epoch": 0.7936, + "grad_norm": 2.535325061003846e-09, + "learning_rate": 1.4711253333333336e-05, + "loss": 0.0, + "step": 49600 + }, + { + "epoch": 0.7952, + "grad_norm": 2.5567281625171745e-09, + "learning_rate": 1.4700586666666667e-05, + "loss": 0.0, + "step": 49700 + }, + { + "epoch": 0.7968, + "grad_norm": 2.561580725313206e-09, + "learning_rate": 1.4689920000000001e-05, + "loss": 0.0, + "step": 49800 + }, + { + "epoch": 0.7984, + "grad_norm": 2.534361831507681e-09, + "learning_rate": 1.4679253333333335e-05, + "loss": 0.0, + "step": 49900 + }, + { + "epoch": 0.8, + "grad_norm": 2.616443062208873e-09, + "learning_rate": 1.4668586666666668e-05, + "loss": 0.0, + "step": 50000 + }, + { + "epoch": 0.8016, + "grad_norm": 3.016526806121078e-09, + "learning_rate": 1.465792e-05, + "loss": 0.0, + "step": 50100 + }, + { + "epoch": 0.8032, + "grad_norm": 2.5457300711906328e-09, + "learning_rate": 1.4647253333333336e-05, + "loss": 0.0, + "step": 50200 + }, + { + "epoch": 0.8048, + "grad_norm": 2.6220687843192536e-09, + "learning_rate": 1.4636586666666668e-05, + "loss": 0.0, + "step": 50300 + }, + { + "epoch": 0.8064, + "grad_norm": 2.8558380105181413e-09, + "learning_rate": 1.462592e-05, + "loss": 0.0, + "step": 50400 + }, + { + "epoch": 0.808, + "grad_norm": 2.5608188902737083e-09, + "learning_rate": 1.4615253333333335e-05, + "loss": 0.0, + "step": 50500 + }, + { + "epoch": 0.8096, + "grad_norm": 2.820969235983739e-09, + "learning_rate": 1.4604586666666667e-05, + "loss": 0.0, + "step": 50600 + }, + { + "epoch": 0.8112, + "grad_norm": 2.7018629555897178e-09, + "learning_rate": 1.459392e-05, + "loss": 0.0, + "step": 50700 + }, + { + "epoch": 0.8128, + "grad_norm": 2.4657107466907746e-09, + "learning_rate": 1.4583253333333334e-05, + "loss": 0.0, + "step": 50800 + }, + { + "epoch": 0.8144, + "grad_norm": 2.240560625921262e-09, + "learning_rate": 1.4572586666666668e-05, + "loss": 0.0, + "step": 50900 + }, + { + "epoch": 0.816, + "grad_norm": 2.1840855790600244e-09, + "learning_rate": 1.456192e-05, + "loss": 0.0, + "step": 51000 + }, + { + "epoch": 0.8176, + "grad_norm": 2.396337350774047e-09, + "learning_rate": 1.4551253333333335e-05, + "loss": 0.0, + "step": 51100 + }, + { + "epoch": 0.8192, + "grad_norm": 2.2762063345282968e-09, + "learning_rate": 1.4540586666666667e-05, + "loss": 0.0, + "step": 51200 + }, + { + "epoch": 0.8208, + "grad_norm": 2.1621027190832365e-09, + "learning_rate": 1.4530026666666667e-05, + "loss": 0.0, + "step": 51300 + }, + { + "epoch": 0.8224, + "grad_norm": 2.2733732674140583e-09, + "learning_rate": 1.4519360000000001e-05, + "loss": 0.0, + "step": 51400 + }, + { + "epoch": 0.824, + "grad_norm": 2.062521931023298e-09, + "learning_rate": 1.4508693333333335e-05, + "loss": 0.0, + "step": 51500 + }, + { + "epoch": 0.8256, + "grad_norm": 2.5127442349059947e-09, + "learning_rate": 1.4498026666666666e-05, + "loss": 0.0, + "step": 51600 + }, + { + "epoch": 0.8272, + "grad_norm": 2.24668172954523e-09, + "learning_rate": 1.4487360000000002e-05, + "loss": 0.0, + "step": 51700 + }, + { + "epoch": 0.8288, + "grad_norm": 2.0432591174568415e-09, + "learning_rate": 1.4476693333333334e-05, + "loss": 0.0, + "step": 51800 + }, + { + "epoch": 0.8304, + "grad_norm": 2.4273549836806296e-09, + "learning_rate": 1.4466026666666667e-05, + "loss": 0.0, + "step": 51900 + }, + { + "epoch": 0.832, + "grad_norm": 2.0034554015779804e-09, + "learning_rate": 1.4455360000000001e-05, + "loss": 0.0, + "step": 52000 + }, + { + "epoch": 0.8336, + "grad_norm": 1.9104446913331685e-09, + "learning_rate": 1.4444693333333335e-05, + "loss": 0.0, + "step": 52100 + }, + { + "epoch": 0.8352, + "grad_norm": 1.9703714215779655e-09, + "learning_rate": 1.4434026666666667e-05, + "loss": 0.0, + "step": 52200 + }, + { + "epoch": 0.8368, + "grad_norm": 1.8734007678489206e-09, + "learning_rate": 1.4423360000000002e-05, + "loss": 0.0, + "step": 52300 + }, + { + "epoch": 0.8384, + "grad_norm": 2.433496959497461e-09, + "learning_rate": 1.4412693333333334e-05, + "loss": 0.0, + "step": 52400 + }, + { + "epoch": 0.84, + "grad_norm": 1.915407166208638e-09, + "learning_rate": 1.440202666666667e-05, + "loss": 0.0, + "step": 52500 + }, + { + "epoch": 0.8416, + "grad_norm": 2.026956380518641e-09, + "learning_rate": 1.4391360000000001e-05, + "loss": 0.0, + "step": 52600 + }, + { + "epoch": 0.8432, + "grad_norm": 1.8809005464248685e-09, + "learning_rate": 1.4380693333333335e-05, + "loss": 0.0, + "step": 52700 + }, + { + "epoch": 0.8448, + "grad_norm": 1.7579672162426618e-09, + "learning_rate": 1.4370026666666667e-05, + "loss": 0.0, + "step": 52800 + }, + { + "epoch": 0.8464, + "grad_norm": 1.972140895034613e-09, + "learning_rate": 1.4359360000000002e-05, + "loss": 0.0, + "step": 52900 + }, + { + "epoch": 0.848, + "grad_norm": 2.309159086166801e-09, + "learning_rate": 1.4348693333333334e-05, + "loss": 0.0, + "step": 53000 + }, + { + "epoch": 0.8496, + "grad_norm": 2.2458994664020793e-09, + "learning_rate": 1.4338026666666666e-05, + "loss": 0.0, + "step": 53100 + }, + { + "epoch": 0.8512, + "grad_norm": 2.3398747384106855e-09, + "learning_rate": 1.4327360000000002e-05, + "loss": 0.0, + "step": 53200 + }, + { + "epoch": 0.8528, + "grad_norm": 1.8828840708806638e-09, + "learning_rate": 1.4316800000000002e-05, + "loss": 0.0, + "step": 53300 + }, + { + "epoch": 0.8544, + "grad_norm": 1.7677028729679023e-09, + "learning_rate": 1.4306133333333334e-05, + "loss": 0.0, + "step": 53400 + }, + { + "epoch": 0.856, + "grad_norm": 1.8229453502272008e-09, + "learning_rate": 1.4295466666666669e-05, + "loss": 0.0, + "step": 53500 + }, + { + "epoch": 0.8576, + "grad_norm": 1.7983363687079645e-09, + "learning_rate": 1.4284800000000001e-05, + "loss": 0.0, + "step": 53600 + }, + { + "epoch": 0.8592, + "grad_norm": 1.6915907563586075e-09, + "learning_rate": 1.4274133333333336e-05, + "loss": 0.0, + "step": 53700 + }, + { + "epoch": 0.8608, + "grad_norm": 2.047505054392218e-09, + "learning_rate": 1.4263466666666668e-05, + "loss": 0.0, + "step": 53800 + }, + { + "epoch": 0.8624, + "grad_norm": 1.645070635269974e-09, + "learning_rate": 1.4252800000000002e-05, + "loss": 0.0, + "step": 53900 + }, + { + "epoch": 0.864, + "grad_norm": 1.6591610307870042e-09, + "learning_rate": 1.4242133333333334e-05, + "loss": 0.0, + "step": 54000 + }, + { + "epoch": 0.8656, + "grad_norm": 1.6760498544599045e-09, + "learning_rate": 1.4231466666666667e-05, + "loss": 0.0, + "step": 54100 + }, + { + "epoch": 0.8672, + "grad_norm": 1.8105128507528434e-09, + "learning_rate": 1.4220800000000001e-05, + "loss": 0.0, + "step": 54200 + }, + { + "epoch": 0.8688, + "grad_norm": 1.724317466589298e-09, + "learning_rate": 1.4210133333333333e-05, + "loss": 0.0, + "step": 54300 + }, + { + "epoch": 0.8704, + "grad_norm": 1.5064500757944188e-09, + "learning_rate": 1.4199466666666668e-05, + "loss": 0.0, + "step": 54400 + }, + { + "epoch": 0.872, + "grad_norm": 2.0849286741508877e-09, + "learning_rate": 1.41888e-05, + "loss": 0.0, + "step": 54500 + }, + { + "epoch": 0.8736, + "grad_norm": 1.595770737772284e-09, + "learning_rate": 1.4178133333333334e-05, + "loss": 0.0, + "step": 54600 + }, + { + "epoch": 0.8752, + "grad_norm": 1.4647668633571698e-09, + "learning_rate": 1.4167466666666668e-05, + "loss": 0.0, + "step": 54700 + }, + { + "epoch": 0.8768, + "grad_norm": 1.5293233346369561e-09, + "learning_rate": 1.4156800000000001e-05, + "loss": 0.0, + "step": 54800 + }, + { + "epoch": 0.8784, + "grad_norm": 1.5121590646316463e-09, + "learning_rate": 1.4146133333333333e-05, + "loss": 0.0, + "step": 54900 + }, + { + "epoch": 0.88, + "grad_norm": 1.7063028767694277e-09, + "learning_rate": 1.4135466666666669e-05, + "loss": 0.0, + "step": 55000 + }, + { + "epoch": 0.8816, + "grad_norm": 1.6600216756756936e-09, + "learning_rate": 1.41248e-05, + "loss": 0.0, + "step": 55100 + }, + { + "epoch": 0.8832, + "grad_norm": 1.6948151770890263e-09, + "learning_rate": 1.4114133333333336e-05, + "loss": 0.0, + "step": 55200 + }, + { + "epoch": 0.8848, + "grad_norm": 1.6159773519319742e-09, + "learning_rate": 1.4103573333333334e-05, + "loss": 0.0, + "step": 55300 + }, + { + "epoch": 0.8864, + "grad_norm": 1.5366856676024554e-09, + "learning_rate": 1.4092906666666668e-05, + "loss": 0.0, + "step": 55400 + }, + { + "epoch": 0.888, + "grad_norm": 1.4232574008232746e-09, + "learning_rate": 1.408224e-05, + "loss": 0.0, + "step": 55500 + }, + { + "epoch": 0.8896, + "grad_norm": 1.7679161468109328e-09, + "learning_rate": 1.4071573333333335e-05, + "loss": 0.0, + "step": 55600 + }, + { + "epoch": 0.8912, + "grad_norm": 1.4493197753040477e-09, + "learning_rate": 1.4060906666666667e-05, + "loss": 0.0, + "step": 55700 + }, + { + "epoch": 0.8928, + "grad_norm": 1.4467651521243852e-09, + "learning_rate": 1.4050240000000001e-05, + "loss": 0.0, + "step": 55800 + }, + { + "epoch": 0.8944, + "grad_norm": 1.46508472020912e-09, + "learning_rate": 1.4039573333333335e-05, + "loss": 0.0, + "step": 55900 + }, + { + "epoch": 0.896, + "grad_norm": 1.4291234862184865e-09, + "learning_rate": 1.4028906666666668e-05, + "loss": 0.0, + "step": 56000 + }, + { + "epoch": 0.8976, + "grad_norm": 1.8533777845775035e-09, + "learning_rate": 1.401824e-05, + "loss": 0.0, + "step": 56100 + }, + { + "epoch": 0.8992, + "grad_norm": 1.6173311578882021e-09, + "learning_rate": 1.4007573333333335e-05, + "loss": 0.0, + "step": 56200 + }, + { + "epoch": 0.9008, + "grad_norm": 1.6096453059333271e-09, + "learning_rate": 1.3996906666666667e-05, + "loss": 0.0, + "step": 56300 + }, + { + "epoch": 0.9024, + "grad_norm": 1.5629680882867092e-09, + "learning_rate": 1.3986240000000003e-05, + "loss": 0.0, + "step": 56400 + }, + { + "epoch": 0.904, + "grad_norm": 1.6487086140770657e-09, + "learning_rate": 1.3975573333333335e-05, + "loss": 0.0, + "step": 56500 + }, + { + "epoch": 0.9056, + "grad_norm": 1.561828555374234e-09, + "learning_rate": 1.3964906666666668e-05, + "loss": 0.0, + "step": 56600 + }, + { + "epoch": 0.9072, + "grad_norm": 1.6236398892033321e-09, + "learning_rate": 1.395424e-05, + "loss": 0.0, + "step": 56700 + }, + { + "epoch": 0.9088, + "grad_norm": 1.3952866639854733e-09, + "learning_rate": 1.3943573333333334e-05, + "loss": 0.0, + "step": 56800 + }, + { + "epoch": 0.9104, + "grad_norm": 1.4216349208950874e-09, + "learning_rate": 1.3932906666666668e-05, + "loss": 0.0, + "step": 56900 + }, + { + "epoch": 0.912, + "grad_norm": 1.4121263047783827e-09, + "learning_rate": 1.392224e-05, + "loss": 0.0, + "step": 57000 + }, + { + "epoch": 0.9136, + "grad_norm": 1.7500071392007044e-09, + "learning_rate": 1.3911573333333335e-05, + "loss": 0.0, + "step": 57100 + }, + { + "epoch": 0.9152, + "grad_norm": 1.6262031721225867e-09, + "learning_rate": 1.3900906666666667e-05, + "loss": 0.0, + "step": 57200 + }, + { + "epoch": 0.9168, + "grad_norm": 1.3557924782858777e-09, + "learning_rate": 1.3890346666666667e-05, + "loss": 0.0, + "step": 57300 + }, + { + "epoch": 0.9184, + "grad_norm": 1.4752008503648995e-09, + "learning_rate": 1.3879680000000002e-05, + "loss": 0.0, + "step": 57400 + }, + { + "epoch": 0.92, + "grad_norm": 1.3589706027161697e-09, + "learning_rate": 1.3869013333333334e-05, + "loss": 0.0, + "step": 57500 + }, + { + "epoch": 0.9216, + "grad_norm": 1.4188084040966942e-09, + "learning_rate": 1.385834666666667e-05, + "loss": 0.0, + "step": 57600 + }, + { + "epoch": 0.9232, + "grad_norm": 1.5505075001698287e-09, + "learning_rate": 1.3847680000000002e-05, + "loss": 0.0, + "step": 57700 + }, + { + "epoch": 0.9248, + "grad_norm": 1.5491343763329724e-09, + "learning_rate": 1.3837013333333334e-05, + "loss": 0.0, + "step": 57800 + }, + { + "epoch": 0.9264, + "grad_norm": 1.2985361674822116e-09, + "learning_rate": 1.3826346666666667e-05, + "loss": 0.0, + "step": 57900 + }, + { + "epoch": 0.928, + "grad_norm": 1.167143826030781e-09, + "learning_rate": 1.3815680000000001e-05, + "loss": 0.0, + "step": 58000 + }, + { + "epoch": 0.9296, + "grad_norm": 1.291968310113134e-09, + "learning_rate": 1.3805013333333335e-05, + "loss": 0.0, + "step": 58100 + }, + { + "epoch": 0.9312, + "grad_norm": 1.3477001736816874e-09, + "learning_rate": 1.3794346666666666e-05, + "loss": 0.0, + "step": 58200 + }, + { + "epoch": 0.9328, + "grad_norm": 1.2875156496505724e-09, + "learning_rate": 1.3783680000000002e-05, + "loss": 0.0, + "step": 58300 + }, + { + "epoch": 0.9344, + "grad_norm": 1.3489318551052065e-09, + "learning_rate": 1.3773013333333334e-05, + "loss": 0.0, + "step": 58400 + }, + { + "epoch": 0.936, + "grad_norm": 1.3920068431261257e-09, + "learning_rate": 1.3762346666666667e-05, + "loss": 0.0, + "step": 58500 + }, + { + "epoch": 0.9376, + "grad_norm": 1.8122923162167126e-09, + "learning_rate": 1.3751680000000001e-05, + "loss": 0.0, + "step": 58600 + }, + { + "epoch": 0.9392, + "grad_norm": 1.2962692030882295e-09, + "learning_rate": 1.3741013333333335e-05, + "loss": 0.0, + "step": 58700 + }, + { + "epoch": 0.9408, + "grad_norm": 1.5180040557893903e-09, + "learning_rate": 1.3730346666666667e-05, + "loss": 0.0, + "step": 58800 + }, + { + "epoch": 0.9424, + "grad_norm": 1.237118185670738e-09, + "learning_rate": 1.3719680000000002e-05, + "loss": 0.0, + "step": 58900 + }, + { + "epoch": 0.944, + "grad_norm": 1.2209625532833002e-09, + "learning_rate": 1.3709013333333334e-05, + "loss": 0.0, + "step": 59000 + }, + { + "epoch": 0.9456, + "grad_norm": 1.1343942452057831e-09, + "learning_rate": 1.369834666666667e-05, + "loss": 0.0, + "step": 59100 + }, + { + "epoch": 0.9472, + "grad_norm": 1.5663039754088004e-09, + "learning_rate": 1.3687680000000001e-05, + "loss": 0.0, + "step": 59200 + }, + { + "epoch": 0.9488, + "grad_norm": 1.328584242621389e-09, + "learning_rate": 1.3677120000000001e-05, + "loss": 0.0, + "step": 59300 + }, + { + "epoch": 0.9504, + "grad_norm": 1.2603350585393969e-09, + "learning_rate": 1.3666453333333333e-05, + "loss": 0.0, + "step": 59400 + }, + { + "epoch": 0.952, + "grad_norm": 1.3242087426590388e-09, + "learning_rate": 1.3655786666666669e-05, + "loss": 0.0, + "step": 59500 + }, + { + "epoch": 0.9536, + "grad_norm": 1.200673116485973e-09, + "learning_rate": 1.364512e-05, + "loss": 0.0, + "step": 59600 + }, + { + "epoch": 0.9552, + "grad_norm": 1.431109231120331e-09, + "learning_rate": 1.3634453333333336e-05, + "loss": 0.0, + "step": 59700 + }, + { + "epoch": 0.9568, + "grad_norm": 1.4143181070735977e-09, + "learning_rate": 1.3623786666666668e-05, + "loss": 0.0, + "step": 59800 + }, + { + "epoch": 0.9584, + "grad_norm": 1.1156711110515971e-09, + "learning_rate": 1.3613120000000002e-05, + "loss": 0.0, + "step": 59900 + }, + { + "epoch": 0.96, + "grad_norm": 1.215820111255539e-09, + "learning_rate": 1.3602453333333334e-05, + "loss": 0.0, + "step": 60000 + }, + { + "epoch": 0.9616, + "grad_norm": 1.0717124965253788e-09, + "learning_rate": 1.3591786666666669e-05, + "loss": 0.0, + "step": 60100 + }, + { + "epoch": 0.9632, + "grad_norm": 1.3140745158679579e-09, + "learning_rate": 1.358112e-05, + "loss": 0.0, + "step": 60200 + }, + { + "epoch": 0.9648, + "grad_norm": 1.3158559797332714e-09, + "learning_rate": 1.3570453333333336e-05, + "loss": 0.0, + "step": 60300 + }, + { + "epoch": 0.9664, + "grad_norm": 1.1407147448849742e-09, + "learning_rate": 1.3559786666666668e-05, + "loss": 0.0, + "step": 60400 + }, + { + "epoch": 0.968, + "grad_norm": 1.2518017733498255e-09, + "learning_rate": 1.354912e-05, + "loss": 0.0, + "step": 60500 + }, + { + "epoch": 0.9696, + "grad_norm": 1.0706601161203366e-09, + "learning_rate": 1.3538453333333334e-05, + "loss": 0.0, + "step": 60600 + }, + { + "epoch": 0.9712, + "grad_norm": 1.2506353730401543e-09, + "learning_rate": 1.3527786666666667e-05, + "loss": 0.0, + "step": 60700 + }, + { + "epoch": 0.9728, + "grad_norm": 1.1973613212035161e-09, + "learning_rate": 1.3517120000000001e-05, + "loss": 0.0, + "step": 60800 + }, + { + "epoch": 0.9744, + "grad_norm": 1.105602609463574e-09, + "learning_rate": 1.3506453333333333e-05, + "loss": 0.0, + "step": 60900 + }, + { + "epoch": 0.976, + "grad_norm": 1.1296757973511262e-09, + "learning_rate": 1.3495786666666668e-05, + "loss": 0.0, + "step": 61000 + }, + { + "epoch": 0.9776, + "grad_norm": 1.1829981438893356e-09, + "learning_rate": 1.348512e-05, + "loss": 0.0, + "step": 61100 + }, + { + "epoch": 0.9792, + "grad_norm": 1.1169806191091425e-09, + "learning_rate": 1.3474453333333336e-05, + "loss": 0.0, + "step": 61200 + }, + { + "epoch": 0.9808, + "grad_norm": 1.0116082416189442e-09, + "learning_rate": 1.3463893333333336e-05, + "loss": 0.0, + "step": 61300 + }, + { + "epoch": 0.9824, + "grad_norm": 1.1309302383466502e-09, + "learning_rate": 1.3453226666666668e-05, + "loss": 0.0, + "step": 61400 + }, + { + "epoch": 0.984, + "grad_norm": 1.0152529927864862e-09, + "learning_rate": 1.344256e-05, + "loss": 0.0, + "step": 61500 + }, + { + "epoch": 0.9856, + "grad_norm": 1.1926426513042543e-09, + "learning_rate": 1.3431893333333335e-05, + "loss": 0.0, + "step": 61600 + }, + { + "epoch": 0.9872, + "grad_norm": 1.0562004604253161e-09, + "learning_rate": 1.3421226666666667e-05, + "loss": 0.0, + "step": 61700 + }, + { + "epoch": 0.9888, + "grad_norm": 1.2290218842636591e-09, + "learning_rate": 1.341056e-05, + "loss": 0.0, + "step": 61800 + }, + { + "epoch": 0.9904, + "grad_norm": 1.3118912622900325e-09, + "learning_rate": 1.3399893333333334e-05, + "loss": 0.0, + "step": 61900 + }, + { + "epoch": 0.992, + "grad_norm": 1.089616175065089e-09, + "learning_rate": 1.3389226666666668e-05, + "loss": 0.0, + "step": 62000 + }, + { + "epoch": 0.9936, + "grad_norm": 1.0423790719471526e-09, + "learning_rate": 1.337856e-05, + "loss": 0.0, + "step": 62100 + }, + { + "epoch": 0.9952, + "grad_norm": 1.2500789292602121e-09, + "learning_rate": 1.3367893333333335e-05, + "loss": 0.0, + "step": 62200 + }, + { + "epoch": 0.9968, + "grad_norm": 1.1556530177259106e-09, + "learning_rate": 1.3357226666666667e-05, + "loss": 0.0, + "step": 62300 + }, + { + "epoch": 0.9984, + "grad_norm": 9.741868423063238e-10, + "learning_rate": 1.3346560000000003e-05, + "loss": 0.0, + "step": 62400 + }, + { + "epoch": 1.0, + "grad_norm": 1.197379306816515e-09, + "learning_rate": 1.3335893333333335e-05, + "loss": 0.0, + "step": 62500 + }, + { + "epoch": 1.0, + "eval_accuracy": 1.0, + "eval_f1": 1.0, + "eval_loss": 0.0, + "eval_precision": 1.0, + "eval_recall": 1.0, + "eval_runtime": 8.1185, + "eval_samples_per_second": 615.878, + "eval_steps_per_second": 19.339, + "step": 62500 + } + ], + "logging_steps": 100, + "max_steps": 187500, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 5.2619537205899904e+17, + "train_batch_size": 32, + "trial_name": null, + "trial_params": null +}