Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72b069175149869f318a48bd011ed6c0026b2c123ef90c0d91ce6c0713bbf92d
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:25829a343b7e06cb4e4167e9b46a367935f8229a77e72a1421998542e27d1c90
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff22e875e6a914c0bc7bfb1c7e787c769c8414739be0f07bf5f2faaae0c3727f
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d82f068e68971eb9728724c53cc1a345fe8d815fa606c2f3450b9b39b939104
 size 1072594443

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a9f217e852f439efa6bd32fde98d6867f11aa6ea13ddc021ba10af6a0b0934
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96a89b82d40a4e75a0ac37545280e3be68c54204263336c42598e8db051948b3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2aa24cd194618e57510eb16be4a4510b1af7e8497163286c5cb19c98f052ca0
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9141648196655248,
   "eval_steps": 500,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8558,6 +8558,456 @@
       "mean_token_accuracy": 0.8004867613315583,
       "num_tokens": 10520466.0,
       "step": 9500
     }
   ],
   "logging_steps": 10,
@@ -8577,7 +9027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2727359994976256e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.014910336490026,
   "eval_steps": 500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8004867613315583,
       "num_tokens": 10520466.0,
       "step": 9500
+    },
+    {
+      "epoch": 1.916179730002015,
+      "grad_norm": 13.8125,
+      "learning_rate": 7.226811740210895e-06,
+      "loss": 0.8085,
+      "mean_token_accuracy": 0.8049318194389343,
+      "num_tokens": 10532072.0,
+      "step": 9510
+    },
+    {
+      "epoch": 1.918194640338505,
+      "grad_norm": 11.5,
+      "learning_rate": 7.213379004634295e-06,
+      "loss": 0.8021,
+      "mean_token_accuracy": 0.802433705329895,
+      "num_tokens": 10542914.0,
+      "step": 9520
+    },
+    {
+      "epoch": 1.920209550674995,
+      "grad_norm": 10.6875,
+      "learning_rate": 7.1999462690576934e-06,
+      "loss": 0.8222,
+      "mean_token_accuracy": 0.7974632799625396,
+      "num_tokens": 10552708.0,
+      "step": 9530
+    },
+    {
+      "epoch": 1.922224461011485,
+      "grad_norm": 11.9375,
+      "learning_rate": 7.186513533481094e-06,
+      "loss": 0.9031,
+      "mean_token_accuracy": 0.7883083343505859,
+      "num_tokens": 10563446.0,
+      "step": 9540
+    },
+    {
+      "epoch": 1.924239371347975,
+      "grad_norm": 9.875,
+      "learning_rate": 7.173080797904494e-06,
+      "loss": 0.7346,
+      "mean_token_accuracy": 0.8066632449626923,
+      "num_tokens": 10575598.0,
+      "step": 9550
+    },
+    {
+      "epoch": 1.926254281684465,
+      "grad_norm": 12.125,
+      "learning_rate": 7.159648062327894e-06,
+      "loss": 0.8905,
+      "mean_token_accuracy": 0.7765018343925476,
+      "num_tokens": 10586523.0,
+      "step": 9560
+    },
+    {
+      "epoch": 1.928269192020955,
+      "grad_norm": 11.375,
+      "learning_rate": 7.146215326751294e-06,
+      "loss": 0.8584,
+      "mean_token_accuracy": 0.7868084013462067,
+      "num_tokens": 10597941.0,
+      "step": 9570
+    },
+    {
+      "epoch": 1.930284102357445,
+      "grad_norm": 12.8125,
+      "learning_rate": 7.132782591174693e-06,
+      "loss": 0.8567,
+      "mean_token_accuracy": 0.7957649648189544,
+      "num_tokens": 10609135.0,
+      "step": 9580
+    },
+    {
+      "epoch": 1.9322990126939352,
+      "grad_norm": 13.25,
+      "learning_rate": 7.119349855598093e-06,
+      "loss": 0.7257,
+      "mean_token_accuracy": 0.8163708746433258,
+      "num_tokens": 10620680.0,
+      "step": 9590
+    },
+    {
+      "epoch": 1.9343139230304252,
+      "grad_norm": 13.5,
+      "learning_rate": 7.105917120021493e-06,
+      "loss": 0.832,
+      "mean_token_accuracy": 0.7922478914260864,
+      "num_tokens": 10630244.0,
+      "step": 9600
+    },
+    {
+      "epoch": 1.936328833366915,
+      "grad_norm": 13.0,
+      "learning_rate": 7.0924843844448934e-06,
+      "loss": 0.8223,
+      "mean_token_accuracy": 0.7944608926773071,
+      "num_tokens": 10642124.0,
+      "step": 9610
+    },
+    {
+      "epoch": 1.9383437437034052,
+      "grad_norm": 10.8125,
+      "learning_rate": 7.079051648868292e-06,
+      "loss": 0.8406,
+      "mean_token_accuracy": 0.7907250881195068,
+      "num_tokens": 10652833.0,
+      "step": 9620
+    },
+    {
+      "epoch": 1.9403586540398954,
+      "grad_norm": 8.9375,
+      "learning_rate": 7.065618913291692e-06,
+      "loss": 0.7735,
+      "mean_token_accuracy": 0.8065800249576569,
+      "num_tokens": 10665301.0,
+      "step": 9630
+    },
+    {
+      "epoch": 1.942373564376385,
+      "grad_norm": 11.0625,
+      "learning_rate": 7.0521861777150925e-06,
+      "loss": 0.8182,
+      "mean_token_accuracy": 0.7966114640235901,
+      "num_tokens": 10676994.0,
+      "step": 9640
+    },
+    {
+      "epoch": 1.9443884747128752,
+      "grad_norm": 11.0,
+      "learning_rate": 7.038753442138492e-06,
+      "loss": 0.8937,
+      "mean_token_accuracy": 0.7835995197296143,
+      "num_tokens": 10688577.0,
+      "step": 9650
+    },
+    {
+      "epoch": 1.9464033850493654,
+      "grad_norm": 11.0,
+      "learning_rate": 7.025320706561892e-06,
+      "loss": 0.8766,
+      "mean_token_accuracy": 0.7863976120948791,
+      "num_tokens": 10699498.0,
+      "step": 9660
+    },
+    {
+      "epoch": 1.9484182953858553,
+      "grad_norm": 13.0625,
+      "learning_rate": 7.0118879709852915e-06,
+      "loss": 0.8543,
+      "mean_token_accuracy": 0.7946681499481201,
+      "num_tokens": 10711155.0,
+      "step": 9670
+    },
+    {
+      "epoch": 1.9504332057223452,
+      "grad_norm": 15.5,
+      "learning_rate": 6.998455235408692e-06,
+      "loss": 0.905,
+      "mean_token_accuracy": 0.7806779563426971,
+      "num_tokens": 10722357.0,
+      "step": 9680
+    },
+    {
+      "epoch": 1.9524481160588354,
+      "grad_norm": 12.25,
+      "learning_rate": 6.985022499832092e-06,
+      "loss": 0.8497,
+      "mean_token_accuracy": 0.78778578042984,
+      "num_tokens": 10734398.0,
+      "step": 9690
+    },
+    {
+      "epoch": 1.9544630263953255,
+      "grad_norm": 11.9375,
+      "learning_rate": 6.9715897642554906e-06,
+      "loss": 0.8426,
+      "mean_token_accuracy": 0.7919103622436523,
+      "num_tokens": 10745256.0,
+      "step": 9700
+    },
+    {
+      "epoch": 1.9564779367318155,
+      "grad_norm": 11.0,
+      "learning_rate": 6.958157028678891e-06,
+      "loss": 0.8311,
+      "mean_token_accuracy": 0.7953451931476593,
+      "num_tokens": 10755529.0,
+      "step": 9710
+    },
+    {
+      "epoch": 1.9584928470683054,
+      "grad_norm": 11.6875,
+      "learning_rate": 6.944724293102291e-06,
+      "loss": 0.9166,
+      "mean_token_accuracy": 0.7762543320655823,
+      "num_tokens": 10767833.0,
+      "step": 9720
+    },
+    {
+      "epoch": 1.9605077574047955,
+      "grad_norm": 11.0625,
+      "learning_rate": 6.931291557525691e-06,
+      "loss": 0.8342,
+      "mean_token_accuracy": 0.7902640163898468,
+      "num_tokens": 10778381.0,
+      "step": 9730
+    },
+    {
+      "epoch": 1.9625226677412855,
+      "grad_norm": 11.1875,
+      "learning_rate": 6.91785882194909e-06,
+      "loss": 0.8793,
+      "mean_token_accuracy": 0.7860461592674255,
+      "num_tokens": 10789792.0,
+      "step": 9740
+    },
+    {
+      "epoch": 1.9645375780777754,
+      "grad_norm": 9.625,
+      "learning_rate": 6.90442608637249e-06,
+      "loss": 0.8833,
+      "mean_token_accuracy": 0.7854184091091156,
+      "num_tokens": 10801905.0,
+      "step": 9750
+    },
+    {
+      "epoch": 1.9665524884142656,
+      "grad_norm": 12.75,
+      "learning_rate": 6.89099335079589e-06,
+      "loss": 0.8529,
+      "mean_token_accuracy": 0.7941727995872497,
+      "num_tokens": 10812223.0,
+      "step": 9760
+    },
+    {
+      "epoch": 1.9685673987507557,
+      "grad_norm": 11.125,
+      "learning_rate": 6.87756061521929e-06,
+      "loss": 0.7802,
+      "mean_token_accuracy": 0.8009257316589355,
+      "num_tokens": 10823248.0,
+      "step": 9770
+    },
+    {
+      "epoch": 1.9705823090872456,
+      "grad_norm": 14.125,
+      "learning_rate": 6.8641278796426906e-06,
+      "loss": 0.8616,
+      "mean_token_accuracy": 0.7909869194030762,
+      "num_tokens": 10834683.0,
+      "step": 9780
+    },
+    {
+      "epoch": 1.9725972194237356,
+      "grad_norm": 12.25,
+      "learning_rate": 6.850695144066089e-06,
+      "loss": 0.8485,
+      "mean_token_accuracy": 0.792462158203125,
+      "num_tokens": 10845744.0,
+      "step": 9790
+    },
+    {
+      "epoch": 1.9746121297602257,
+      "grad_norm": 10.1875,
+      "learning_rate": 6.837262408489489e-06,
+      "loss": 0.7906,
+      "mean_token_accuracy": 0.8116903901100159,
+      "num_tokens": 10857457.0,
+      "step": 9800
+    },
+    {
+      "epoch": 1.9766270400967159,
+      "grad_norm": 9.8125,
+      "learning_rate": 6.82382967291289e-06,
+      "loss": 0.7862,
+      "mean_token_accuracy": 0.8046435177326202,
+      "num_tokens": 10868106.0,
+      "step": 9810
+    },
+    {
+      "epoch": 1.9786419504332056,
+      "grad_norm": 11.6875,
+      "learning_rate": 6.8103969373362884e-06,
+      "loss": 0.7895,
+      "mean_token_accuracy": 0.8022366106510163,
+      "num_tokens": 10879315.0,
+      "step": 9820
+    },
+    {
+      "epoch": 1.9806568607696957,
+      "grad_norm": 11.75,
+      "learning_rate": 6.796964201759689e-06,
+      "loss": 0.9483,
+      "mean_token_accuracy": 0.7742224156856536,
+      "num_tokens": 10890523.0,
+      "step": 9830
+    },
+    {
+      "epoch": 1.9826717711061859,
+      "grad_norm": 12.625,
+      "learning_rate": 6.783531466183089e-06,
+      "loss": 0.7439,
+      "mean_token_accuracy": 0.8124743521213531,
+      "num_tokens": 10901250.0,
+      "step": 9840
+    },
+    {
+      "epoch": 1.9846866814426758,
+      "grad_norm": 13.4375,
+      "learning_rate": 6.770098730606488e-06,
+      "loss": 0.7185,
+      "mean_token_accuracy": 0.8186926007270813,
+      "num_tokens": 10912951.0,
+      "step": 9850
+    },
+    {
+      "epoch": 1.9867015917791657,
+      "grad_norm": 11.3125,
+      "learning_rate": 6.756665995029889e-06,
+      "loss": 0.8252,
+      "mean_token_accuracy": 0.7952579975128173,
+      "num_tokens": 10924651.0,
+      "step": 9860
+    },
+    {
+      "epoch": 1.9887165021156559,
+      "grad_norm": 10.1875,
+      "learning_rate": 6.743233259453288e-06,
+      "loss": 0.937,
+      "mean_token_accuracy": 0.7707946419715881,
+      "num_tokens": 10936427.0,
+      "step": 9870
+    },
+    {
+      "epoch": 1.990731412452146,
+      "grad_norm": 15.375,
+      "learning_rate": 6.729800523876688e-06,
+      "loss": 0.7189,
+      "mean_token_accuracy": 0.822449779510498,
+      "num_tokens": 10946645.0,
+      "step": 9880
+    },
+    {
+      "epoch": 1.992746322788636,
+      "grad_norm": 11.625,
+      "learning_rate": 6.716367788300088e-06,
+      "loss": 0.798,
+      "mean_token_accuracy": 0.7974645853042602,
+      "num_tokens": 10959231.0,
+      "step": 9890
+    },
+    {
+      "epoch": 1.9947612331251259,
+      "grad_norm": 15.875,
+      "learning_rate": 6.7029350527234884e-06,
+      "loss": 0.825,
+      "mean_token_accuracy": 0.7955174386501312,
+      "num_tokens": 10970209.0,
+      "step": 9900
+    },
+    {
+      "epoch": 1.996776143461616,
+      "grad_norm": 12.0625,
+      "learning_rate": 6.689502317146887e-06,
+      "loss": 0.8865,
+      "mean_token_accuracy": 0.779301130771637,
+      "num_tokens": 10981095.0,
+      "step": 9910
+    },
+    {
+      "epoch": 1.998791053798106,
+      "grad_norm": 10.3125,
+      "learning_rate": 6.676069581570287e-06,
+      "loss": 0.8739,
+      "mean_token_accuracy": 0.7855922758579255,
+      "num_tokens": 10992314.0,
+      "step": 9920
+    },
+    {
+      "epoch": 2.000805964134596,
+      "grad_norm": 9.75,
+      "learning_rate": 6.6626368459936875e-06,
+      "loss": 0.7853,
+      "mean_token_accuracy": 0.7989992260932922,
+      "num_tokens": 11002971.0,
+      "step": 9930
+    },
+    {
+      "epoch": 2.002820874471086,
+      "grad_norm": 10.5,
+      "learning_rate": 6.649204110417087e-06,
+      "loss": 0.9011,
+      "mean_token_accuracy": 0.7816862404346466,
+      "num_tokens": 11014291.0,
+      "step": 9940
+    },
+    {
+      "epoch": 2.004835784807576,
+      "grad_norm": 10.125,
+      "learning_rate": 6.635771374840488e-06,
+      "loss": 0.8415,
+      "mean_token_accuracy": 0.7934383928775788,
+      "num_tokens": 11024051.0,
+      "step": 9950
+    },
+    {
+      "epoch": 2.006850695144066,
+      "grad_norm": 12.125,
+      "learning_rate": 6.6223386392638865e-06,
+      "loss": 0.8009,
+      "mean_token_accuracy": 0.7968979775905609,
+      "num_tokens": 11033995.0,
+      "step": 9960
+    },
+    {
+      "epoch": 2.008865605480556,
+      "grad_norm": 11.75,
+      "learning_rate": 6.608905903687286e-06,
+      "loss": 0.8248,
+      "mean_token_accuracy": 0.7963380098342896,
+      "num_tokens": 11044468.0,
+      "step": 9970
+    },
+    {
+      "epoch": 2.010880515817046,
+      "grad_norm": 12.625,
+      "learning_rate": 6.595473168110687e-06,
+      "loss": 0.7848,
+      "mean_token_accuracy": 0.8049242258071899,
+      "num_tokens": 11055288.0,
+      "step": 9980
+    },
+    {
+      "epoch": 2.0128954261535363,
+      "grad_norm": 14.6875,
+      "learning_rate": 6.5820404325340856e-06,
+      "loss": 0.7735,
+      "mean_token_accuracy": 0.8060416877269745,
+      "num_tokens": 11066104.0,
+      "step": 9990
+    },
+    {
+      "epoch": 2.014910336490026,
+      "grad_norm": 15.0625,
+      "learning_rate": 6.568607696957486e-06,
+      "loss": 0.7981,
+      "mean_token_accuracy": 0.801843786239624,
+      "num_tokens": 11076275.0,
+      "step": 10000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3397361208068096e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null