{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.011999980800030719,
  "eval_steps": 200000,
  "global_step": 7500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001599997440004096,
      "grad_norm": 84.32501983642578,
      "learning_rate": 3.103950336794611e-08,
      "loss": 10.8792,
      "step": 100
    },
    {
      "epoch": 0.0003199994880008192,
      "grad_norm": 60.63747024536133,
      "learning_rate": 6.303899137613798e-08,
      "loss": 10.9284,
      "step": 200
    },
    {
      "epoch": 0.00047999923200122877,
      "grad_norm": 55.71075439453125,
      "learning_rate": 9.503847938432986e-08,
      "loss": 10.6466,
      "step": 300
    },
    {
      "epoch": 0.0006399989760016384,
      "grad_norm": 57.63307189941406,
      "learning_rate": 1.2703796739252173e-07,
      "loss": 10.841,
      "step": 400
    },
    {
      "epoch": 0.000799998720002048,
      "grad_norm": 89.1032485961914,
      "learning_rate": 1.590374554007136e-07,
      "loss": 10.8094,
      "step": 500
    },
    {
      "epoch": 0.0009599984640024575,
      "grad_norm": 57.2479362487793,
      "learning_rate": 1.9103694340890547e-07,
      "loss": 10.4323,
      "step": 600
    },
    {
      "epoch": 0.0011199982080028672,
      "grad_norm": 51.17530059814453,
      "learning_rate": 2.2303643141709733e-07,
      "loss": 10.3032,
      "step": 700
    },
    {
      "epoch": 0.0012799979520032767,
      "grad_norm": 60.76409912109375,
      "learning_rate": 2.550359194252892e-07,
      "loss": 10.4006,
      "step": 800
    },
    {
      "epoch": 0.0014399976960036865,
      "grad_norm": 67.00859069824219,
      "learning_rate": 2.870354074334811e-07,
      "loss": 10.4743,
      "step": 900
    },
    {
      "epoch": 0.001599997440004096,
      "grad_norm": 68.4343032836914,
      "learning_rate": 3.19034895441673e-07,
      "loss": 10.2334,
      "step": 1000
    },
    {
      "epoch": 0.0017599971840045055,
      "grad_norm": 48.704105377197266,
      "learning_rate": 3.510343834498648e-07,
      "loss": 10.0135,
      "step": 1100
    },
    {
      "epoch": 0.001919996928004915,
      "grad_norm": 45.30134963989258,
      "learning_rate": 3.830338714580567e-07,
      "loss": 9.7874,
      "step": 1200
    },
    {
      "epoch": 0.002079996672005325,
      "grad_norm": 84.56024169921875,
      "learning_rate": 4.150333594662486e-07,
      "loss": 9.7419,
      "step": 1300
    },
    {
      "epoch": 0.0022399964160057344,
      "grad_norm": 45.73213195800781,
      "learning_rate": 4.470328474744404e-07,
      "loss": 9.7412,
      "step": 1400
    },
    {
      "epoch": 0.002399996160006144,
      "grad_norm": 50.21996307373047,
      "learning_rate": 4.790323354826324e-07,
      "loss": 9.4585,
      "step": 1500
    },
    {
      "epoch": 0.0025599959040065534,
      "grad_norm": 59.475799560546875,
      "learning_rate": 5.110318234908241e-07,
      "loss": 9.5339,
      "step": 1600
    },
    {
      "epoch": 0.002719995648006963,
      "grad_norm": 82.53620910644531,
      "learning_rate": 5.43031311499016e-07,
      "loss": 9.4345,
      "step": 1700
    },
    {
      "epoch": 0.002879995392007373,
      "grad_norm": 39.44235610961914,
      "learning_rate": 5.750307995072079e-07,
      "loss": 9.1733,
      "step": 1800
    },
    {
      "epoch": 0.0030399951360077825,
      "grad_norm": 37.58698654174805,
      "learning_rate": 6.070302875153998e-07,
      "loss": 8.9952,
      "step": 1900
    },
    {
      "epoch": 0.003199994880008192,
      "grad_norm": 40.35204315185547,
      "learning_rate": 6.390297755235917e-07,
      "loss": 8.9669,
      "step": 2000
    },
    {
      "epoch": 0.0033599946240086016,
      "grad_norm": 57.84451675415039,
      "learning_rate": 6.707092686517017e-07,
      "loss": 8.8152,
      "step": 2100
    },
    {
      "epoch": 0.003519994368009011,
      "grad_norm": 40.126953125,
      "learning_rate": 7.027087566598935e-07,
      "loss": 8.7936,
      "step": 2200
    },
    {
      "epoch": 0.0036799941120094206,
      "grad_norm": 35.435707092285156,
      "learning_rate": 7.347082446680854e-07,
      "loss": 8.6771,
      "step": 2300
    },
    {
      "epoch": 0.00383999385600983,
      "grad_norm": 42.3509635925293,
      "learning_rate": 7.667077326762773e-07,
      "loss": 8.4648,
      "step": 2400
    },
    {
      "epoch": 0.00399999360001024,
      "grad_norm": 33.58556365966797,
      "learning_rate": 7.987072206844691e-07,
      "loss": 8.5764,
      "step": 2500
    },
    {
      "epoch": 0.00415999334401065,
      "grad_norm": 34.014678955078125,
      "learning_rate": 8.30706708692661e-07,
      "loss": 8.4587,
      "step": 2600
    },
    {
      "epoch": 0.004319993088011059,
      "grad_norm": 36.43831253051758,
      "learning_rate": 8.627061967008528e-07,
      "loss": 8.2966,
      "step": 2700
    },
    {
      "epoch": 0.004479992832011469,
      "grad_norm": 31.411684036254883,
      "learning_rate": 8.947056847090448e-07,
      "loss": 8.2329,
      "step": 2800
    },
    {
      "epoch": 0.004639992576011879,
      "grad_norm": 47.570125579833984,
      "learning_rate": 9.267051727172366e-07,
      "loss": 8.1415,
      "step": 2900
    },
    {
      "epoch": 0.004799992320012288,
      "grad_norm": 30.771928787231445,
      "learning_rate": 9.587046607254284e-07,
      "loss": 8.0404,
      "step": 3000
    },
    {
      "epoch": 0.004959992064012698,
      "grad_norm": 26.92803955078125,
      "learning_rate": 9.907041487336204e-07,
      "loss": 7.9698,
      "step": 3100
    },
    {
      "epoch": 0.005119991808013107,
      "grad_norm": 31.121917724609375,
      "learning_rate": 1.0227036367418122e-06,
      "loss": 7.9205,
      "step": 3200
    },
    {
      "epoch": 0.005279991552013517,
      "grad_norm": 33.991416931152344,
      "learning_rate": 1.054703124750004e-06,
      "loss": 7.8314,
      "step": 3300
    },
    {
      "epoch": 0.005439991296013926,
      "grad_norm": 31.278030395507812,
      "learning_rate": 1.086702612758196e-06,
      "loss": 7.8369,
      "step": 3400
    },
    {
      "epoch": 0.005599991040014336,
      "grad_norm": 28.116140365600586,
      "learning_rate": 1.1187021007663878e-06,
      "loss": 7.6403,
      "step": 3500
    },
    {
      "epoch": 0.005759990784014746,
      "grad_norm": 30.954113006591797,
      "learning_rate": 1.1507015887745798e-06,
      "loss": 7.5842,
      "step": 3600
    },
    {
      "epoch": 0.005919990528015155,
      "grad_norm": 36.53567886352539,
      "learning_rate": 1.1827010767827715e-06,
      "loss": 7.5812,
      "step": 3700
    },
    {
      "epoch": 0.006079990272015565,
      "grad_norm": 36.81153106689453,
      "learning_rate": 1.2147005647909635e-06,
      "loss": 7.4335,
      "step": 3800
    },
    {
      "epoch": 0.006239990016015974,
      "grad_norm": 22.556833267211914,
      "learning_rate": 1.2467000527991553e-06,
      "loss": 7.4917,
      "step": 3900
    },
    {
      "epoch": 0.006399989760016384,
      "grad_norm": 40.195579528808594,
      "learning_rate": 1.278699540807347e-06,
      "loss": 7.3204,
      "step": 4000
    },
    {
      "epoch": 0.006559989504016793,
      "grad_norm": 21.862642288208008,
      "learning_rate": 1.310699028815539e-06,
      "loss": 7.2971,
      "step": 4100
    },
    {
      "epoch": 0.006719989248017203,
      "grad_norm": 29.61161231994629,
      "learning_rate": 1.3426985168237308e-06,
      "loss": 7.2233,
      "step": 4200
    },
    {
      "epoch": 0.006879988992017613,
      "grad_norm": 22.342451095581055,
      "learning_rate": 1.3746980048319228e-06,
      "loss": 7.2081,
      "step": 4300
    },
    {
      "epoch": 0.007039988736018022,
      "grad_norm": 36.36684799194336,
      "learning_rate": 1.4066974928401148e-06,
      "loss": 7.1364,
      "step": 4400
    },
    {
      "epoch": 0.007199988480018432,
      "grad_norm": 25.563953399658203,
      "learning_rate": 1.4386969808483064e-06,
      "loss": 7.0663,
      "step": 4500
    },
    {
      "epoch": 0.007359988224018841,
      "grad_norm": 22.50385856628418,
      "learning_rate": 1.4706964688564984e-06,
      "loss": 6.9601,
      "step": 4600
    },
    {
      "epoch": 0.007519987968019251,
      "grad_norm": 31.61231231689453,
      "learning_rate": 1.5026959568646904e-06,
      "loss": 6.9546,
      "step": 4700
    },
    {
      "epoch": 0.00767998771201966,
      "grad_norm": 18.862520217895508,
      "learning_rate": 1.5346954448728822e-06,
      "loss": 6.9019,
      "step": 4800
    },
    {
      "epoch": 0.00783998745602007,
      "grad_norm": 32.594539642333984,
      "learning_rate": 1.5666949328810741e-06,
      "loss": 6.8801,
      "step": 4900
    },
    {
      "epoch": 0.00799998720002048,
      "grad_norm": 21.06804084777832,
      "learning_rate": 1.598694420889266e-06,
      "loss": 6.7734,
      "step": 5000
    },
    {
      "epoch": 0.00815998694402089,
      "grad_norm": 31.783803939819336,
      "learning_rate": 1.6303739140173757e-06,
      "loss": 6.7648,
      "step": 5100
    },
    {
      "epoch": 0.0083199866880213,
      "grad_norm": 49.79084777832031,
      "learning_rate": 1.6623734020255677e-06,
      "loss": 6.7498,
      "step": 5200
    },
    {
      "epoch": 0.008479986432021708,
      "grad_norm": 26.1977481842041,
      "learning_rate": 1.6943728900337597e-06,
      "loss": 6.6872,
      "step": 5300
    },
    {
      "epoch": 0.008639986176022118,
      "grad_norm": 21.942001342773438,
      "learning_rate": 1.7263723780419515e-06,
      "loss": 6.6264,
      "step": 5400
    },
    {
      "epoch": 0.008799985920022528,
      "grad_norm": 32.572959899902344,
      "learning_rate": 1.7583718660501433e-06,
      "loss": 6.579,
      "step": 5500
    },
    {
      "epoch": 0.008959985664022938,
      "grad_norm": 20.728240966796875,
      "learning_rate": 1.7903713540583353e-06,
      "loss": 6.6001,
      "step": 5600
    },
    {
      "epoch": 0.009119985408023347,
      "grad_norm": 24.334205627441406,
      "learning_rate": 1.822370842066527e-06,
      "loss": 6.5971,
      "step": 5700
    },
    {
      "epoch": 0.009279985152023757,
      "grad_norm": 27.025753021240234,
      "learning_rate": 1.854370330074719e-06,
      "loss": 6.4694,
      "step": 5800
    },
    {
      "epoch": 0.009439984896024167,
      "grad_norm": 23.506013870239258,
      "learning_rate": 1.8863698180829106e-06,
      "loss": 6.3983,
      "step": 5900
    },
    {
      "epoch": 0.009599984640024576,
      "grad_norm": 35.65713882446289,
      "learning_rate": 1.9183693060911026e-06,
      "loss": 6.4477,
      "step": 6000
    },
    {
      "epoch": 0.009759984384024985,
      "grad_norm": 22.977373123168945,
      "learning_rate": 1.950368794099295e-06,
      "loss": 6.4308,
      "step": 6100
    },
    {
      "epoch": 0.009919984128025396,
      "grad_norm": 22.127635955810547,
      "learning_rate": 1.982368282107486e-06,
      "loss": 6.4248,
      "step": 6200
    },
    {
      "epoch": 0.010079983872025805,
      "grad_norm": 33.53960418701172,
      "learning_rate": 2.0143677701156784e-06,
      "loss": 6.2642,
      "step": 6300
    },
    {
      "epoch": 0.010239983616026214,
      "grad_norm": 24.39597511291504,
      "learning_rate": 2.04636725812387e-06,
      "loss": 6.2763,
      "step": 6400
    },
    {
      "epoch": 0.010399983360026625,
      "grad_norm": 24.471288681030273,
      "learning_rate": 2.078366746132062e-06,
      "loss": 6.3878,
      "step": 6500
    },
    {
      "epoch": 0.010559983104027034,
      "grad_norm": 34.05498123168945,
      "learning_rate": 2.110366234140254e-06,
      "loss": 6.2601,
      "step": 6600
    },
    {
      "epoch": 0.010719982848027443,
      "grad_norm": 30.60455322265625,
      "learning_rate": 2.142365722148446e-06,
      "loss": 6.1789,
      "step": 6700
    },
    {
      "epoch": 0.010879982592027852,
      "grad_norm": 27.737686157226562,
      "learning_rate": 2.1743652101566377e-06,
      "loss": 6.1773,
      "step": 6800
    },
    {
      "epoch": 0.011039982336028263,
      "grad_norm": 24.246810913085938,
      "learning_rate": 2.2063646981648294e-06,
      "loss": 6.1439,
      "step": 6900
    },
    {
      "epoch": 0.011199982080028672,
      "grad_norm": 27.53533363342285,
      "learning_rate": 2.2383641861730217e-06,
      "loss": 6.1863,
      "step": 7000
    },
    {
      "epoch": 0.011359981824029081,
      "grad_norm": 27.81687355041504,
      "learning_rate": 2.2703636741812134e-06,
      "loss": 6.0513,
      "step": 7100
    },
    {
      "epoch": 0.011519981568029492,
      "grad_norm": 28.00519371032715,
      "learning_rate": 2.3020431673093234e-06,
      "loss": 6.0671,
      "step": 7200
    },
    {
      "epoch": 0.011679981312029901,
      "grad_norm": 29.347061157226562,
      "learning_rate": 2.3340426553175152e-06,
      "loss": 6.0212,
      "step": 7300
    },
    {
      "epoch": 0.01183998105603031,
      "grad_norm": 29.621200561523438,
      "learning_rate": 2.365722148445625e-06,
      "loss": 6.0043,
      "step": 7400
    },
    {
      "epoch": 0.011999980800030719,
      "grad_norm": 31.689117431640625,
      "learning_rate": 2.397721636453817e-06,
      "loss": 6.0166,
      "step": 7500
    }
  ],
  "logging_steps": 100,
  "max_steps": 625001,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 128,
  "trial_name": null,
  "trial_params": null
}