Training in progress, step 9500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ab362d2b3f9dedf1f0f43335f7b06eefee0b16e014fc83df80bc46c1b6044cf
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:72b069175149869f318a48bd011ed6c0026b2c123ef90c0d91ce6c0713bbf92d
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b116e5cf316372406a0b75f20675173ce00a1448ad26470e8baba7a28543337c
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff22e875e6a914c0bc7bfb1c7e787c769c8414739be0f07bf5f2faaae0c3727f
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:553711fa7348e1460e8e11ff55c1e2ba08096c9266ea56894e269e1a647bd7f3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:96a89b82d40a4e75a0ac37545280e3be68c54204263336c42598e8db051948b3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8134193028410235,
   "eval_steps": 500,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8108,6 +8108,456 @@
       "mean_token_accuracy": 0.7758583545684814,
       "num_tokens": 9969639.0,
       "step": 9000
     }
   ],
   "logging_steps": 10,
@@ -8127,7 +8577,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2065001216479232e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9141648196655248,
   "eval_steps": 500,
+  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7758583545684814,
       "num_tokens": 9969639.0,
       "step": 9000
+    },
+    {
+      "epoch": 1.8154342131775136,
+      "grad_norm": 10.5625,
+      "learning_rate": 7.898448519040904e-06,
+      "loss": 0.8608,
+      "mean_token_accuracy": 0.7903220117092132,
+      "num_tokens": 9980897.0,
+      "step": 9010
+    },
+    {
+      "epoch": 1.8174491235140038,
+      "grad_norm": 13.75,
+      "learning_rate": 7.885015783464303e-06,
+      "loss": 0.7981,
+      "mean_token_accuracy": 0.7931015849113464,
+      "num_tokens": 9992007.0,
+      "step": 9020
+    },
+    {
+      "epoch": 1.8194640338504935,
+      "grad_norm": 13.375,
+      "learning_rate": 7.871583047887703e-06,
+      "loss": 0.7756,
+      "mean_token_accuracy": 0.8115738570690155,
+      "num_tokens": 10001735.0,
+      "step": 9030
+    },
+    {
+      "epoch": 1.8214789441869836,
+      "grad_norm": 11.25,
+      "learning_rate": 7.858150312311102e-06,
+      "loss": 0.8252,
+      "mean_token_accuracy": 0.7951979100704193,
+      "num_tokens": 10012981.0,
+      "step": 9040
+    },
+    {
+      "epoch": 1.8234938545234738,
+      "grad_norm": 13.25,
+      "learning_rate": 7.844717576734503e-06,
+      "loss": 0.9316,
+      "mean_token_accuracy": 0.7766720294952393,
+      "num_tokens": 10024728.0,
+      "step": 9050
+    },
+    {
+      "epoch": 1.8255087648599637,
+      "grad_norm": 12.1875,
+      "learning_rate": 7.831284841157902e-06,
+      "loss": 0.809,
+      "mean_token_accuracy": 0.7951194763183593,
+      "num_tokens": 10035125.0,
+      "step": 9060
+    },
+    {
+      "epoch": 1.8275236751964536,
+      "grad_norm": 9.125,
+      "learning_rate": 7.817852105581302e-06,
+      "loss": 0.7939,
+      "mean_token_accuracy": 0.8017635881900788,
+      "num_tokens": 10046031.0,
+      "step": 9070
+    },
+    {
+      "epoch": 1.8295385855329438,
+      "grad_norm": 9.375,
+      "learning_rate": 7.804419370004703e-06,
+      "loss": 0.8358,
+      "mean_token_accuracy": 0.7958399653434753,
+      "num_tokens": 10057704.0,
+      "step": 9080
+    },
+    {
+      "epoch": 1.831553495869434,
+      "grad_norm": 11.625,
+      "learning_rate": 7.790986634428102e-06,
+      "loss": 0.739,
+      "mean_token_accuracy": 0.8191445827484131,
+      "num_tokens": 10068849.0,
+      "step": 9090
+    },
+    {
+      "epoch": 1.8335684062059239,
+      "grad_norm": 14.0,
+      "learning_rate": 7.777553898851502e-06,
+      "loss": 0.8177,
+      "mean_token_accuracy": 0.7937594950199127,
+      "num_tokens": 10080412.0,
+      "step": 9100
+    },
+    {
+      "epoch": 1.8355833165424138,
+      "grad_norm": 13.75,
+      "learning_rate": 7.764121163274901e-06,
+      "loss": 0.8874,
+      "mean_token_accuracy": 0.7819468438625335,
+      "num_tokens": 10091110.0,
+      "step": 9110
+    },
+    {
+      "epoch": 1.837598226878904,
+      "grad_norm": 11.9375,
+      "learning_rate": 7.750688427698301e-06,
+      "loss": 0.7289,
+      "mean_token_accuracy": 0.8155353426933288,
+      "num_tokens": 10101270.0,
+      "step": 9120
+    },
+    {
+      "epoch": 1.8396131372153939,
+      "grad_norm": 10.5,
+      "learning_rate": 7.737255692121702e-06,
+      "loss": 0.8756,
+      "mean_token_accuracy": 0.7849370181560517,
+      "num_tokens": 10113436.0,
+      "step": 9130
+    },
+    {
+      "epoch": 1.8416280475518838,
+      "grad_norm": 11.25,
+      "learning_rate": 7.7238229565451e-06,
+      "loss": 0.9212,
+      "mean_token_accuracy": 0.7761917889118195,
+      "num_tokens": 10123689.0,
+      "step": 9140
+    },
+    {
+      "epoch": 1.843642957888374,
+      "grad_norm": 10.6875,
+      "learning_rate": 7.710390220968501e-06,
+      "loss": 0.8504,
+      "mean_token_accuracy": 0.7979696393013,
+      "num_tokens": 10135000.0,
+      "step": 9150
+    },
+    {
+      "epoch": 1.845657868224864,
+      "grad_norm": 10.0625,
+      "learning_rate": 7.6969574853919e-06,
+      "loss": 0.7885,
+      "mean_token_accuracy": 0.8057900547981263,
+      "num_tokens": 10146460.0,
+      "step": 9160
+    },
+    {
+      "epoch": 1.847672778561354,
+      "grad_norm": 12.1875,
+      "learning_rate": 7.6835247498153e-06,
+      "loss": 0.7174,
+      "mean_token_accuracy": 0.8195405840873718,
+      "num_tokens": 10156971.0,
+      "step": 9170
+    },
+    {
+      "epoch": 1.849687688897844,
+      "grad_norm": 9.625,
+      "learning_rate": 7.6700920142387e-06,
+      "loss": 0.8307,
+      "mean_token_accuracy": 0.7955503463745117,
+      "num_tokens": 10168870.0,
+      "step": 9180
+    },
+    {
+      "epoch": 1.8517025992343341,
+      "grad_norm": 10.1875,
+      "learning_rate": 7.6566592786621e-06,
+      "loss": 0.753,
+      "mean_token_accuracy": 0.8073143362998962,
+      "num_tokens": 10180116.0,
+      "step": 9190
+    },
+    {
+      "epoch": 1.8537175095708243,
+      "grad_norm": 12.4375,
+      "learning_rate": 7.6432265430855e-06,
+      "loss": 0.7821,
+      "mean_token_accuracy": 0.8077682852745056,
+      "num_tokens": 10191372.0,
+      "step": 9200
+    },
+    {
+      "epoch": 1.855732419907314,
+      "grad_norm": 10.8125,
+      "learning_rate": 7.6297938075089e-06,
+      "loss": 0.8415,
+      "mean_token_accuracy": 0.7897944033145905,
+      "num_tokens": 10202628.0,
+      "step": 9210
+    },
+    {
+      "epoch": 1.8577473302438041,
+      "grad_norm": 11.1875,
+      "learning_rate": 7.6163610719323e-06,
+      "loss": 0.7986,
+      "mean_token_accuracy": 0.7961230039596557,
+      "num_tokens": 10212786.0,
+      "step": 9220
+    },
+    {
+      "epoch": 1.8597622405802943,
+      "grad_norm": 8.625,
+      "learning_rate": 7.6029283363557e-06,
+      "loss": 0.8377,
+      "mean_token_accuracy": 0.7946724176406861,
+      "num_tokens": 10223326.0,
+      "step": 9230
+    },
+    {
+      "epoch": 1.8617771509167842,
+      "grad_norm": 13.8125,
+      "learning_rate": 7.589495600779098e-06,
+      "loss": 0.7952,
+      "mean_token_accuracy": 0.7984604299068451,
+      "num_tokens": 10234476.0,
+      "step": 9240
+    },
+    {
+      "epoch": 1.8637920612532741,
+      "grad_norm": 11.5625,
+      "learning_rate": 7.576062865202499e-06,
+      "loss": 0.814,
+      "mean_token_accuracy": 0.792439204454422,
+      "num_tokens": 10245659.0,
+      "step": 9250
+    },
+    {
+      "epoch": 1.8658069715897643,
+      "grad_norm": 11.8125,
+      "learning_rate": 7.562630129625899e-06,
+      "loss": 0.8127,
+      "mean_token_accuracy": 0.8034590363502503,
+      "num_tokens": 10256084.0,
+      "step": 9260
+    },
+    {
+      "epoch": 1.8678218819262544,
+      "grad_norm": 11.6875,
+      "learning_rate": 7.549197394049299e-06,
+      "loss": 0.7521,
+      "mean_token_accuracy": 0.8105040609836578,
+      "num_tokens": 10266693.0,
+      "step": 9270
+    },
+    {
+      "epoch": 1.8698367922627444,
+      "grad_norm": 11.625,
+      "learning_rate": 7.535764658472699e-06,
+      "loss": 0.7934,
+      "mean_token_accuracy": 0.8005593240261077,
+      "num_tokens": 10277746.0,
+      "step": 9280
+    },
+    {
+      "epoch": 1.8718517025992343,
+      "grad_norm": 12.5,
+      "learning_rate": 7.5223319228960985e-06,
+      "loss": 0.8947,
+      "mean_token_accuracy": 0.776383513212204,
+      "num_tokens": 10290031.0,
+      "step": 9290
+    },
+    {
+      "epoch": 1.8738666129357244,
+      "grad_norm": 12.125,
+      "learning_rate": 7.508899187319498e-06,
+      "loss": 0.8513,
+      "mean_token_accuracy": 0.7838102102279663,
+      "num_tokens": 10300283.0,
+      "step": 9300
+    },
+    {
+      "epoch": 1.8758815232722144,
+      "grad_norm": 9.5,
+      "learning_rate": 7.495466451742898e-06,
+      "loss": 0.7765,
+      "mean_token_accuracy": 0.8086275160312653,
+      "num_tokens": 10312347.0,
+      "step": 9310
+    },
+    {
+      "epoch": 1.8778964336087043,
+      "grad_norm": 11.1875,
+      "learning_rate": 7.482033716166298e-06,
+      "loss": 0.8356,
+      "mean_token_accuracy": 0.7951161444187165,
+      "num_tokens": 10322835.0,
+      "step": 9320
+    },
+    {
+      "epoch": 1.8799113439451944,
+      "grad_norm": 14.125,
+      "learning_rate": 7.468600980589697e-06,
+      "loss": 0.8884,
+      "mean_token_accuracy": 0.7830281972885131,
+      "num_tokens": 10333529.0,
+      "step": 9330
+    },
+    {
+      "epoch": 1.8819262542816846,
+      "grad_norm": 8.5625,
+      "learning_rate": 7.455168245013098e-06,
+      "loss": 0.7518,
+      "mean_token_accuracy": 0.8141887187957764,
+      "num_tokens": 10345013.0,
+      "step": 9340
+    },
+    {
+      "epoch": 1.8839411646181745,
+      "grad_norm": 14.0,
+      "learning_rate": 7.4417355094364975e-06,
+      "loss": 0.8164,
+      "mean_token_accuracy": 0.7980745792388916,
+      "num_tokens": 10355765.0,
+      "step": 9350
+    },
+    {
+      "epoch": 1.8859560749546644,
+      "grad_norm": 12.25,
+      "learning_rate": 7.428302773859897e-06,
+      "loss": 0.852,
+      "mean_token_accuracy": 0.793835461139679,
+      "num_tokens": 10367992.0,
+      "step": 9360
+    },
+    {
+      "epoch": 1.8879709852911546,
+      "grad_norm": 12.75,
+      "learning_rate": 7.414870038283297e-06,
+      "loss": 0.7216,
+      "mean_token_accuracy": 0.8170075476169586,
+      "num_tokens": 10378311.0,
+      "step": 9370
+    },
+    {
+      "epoch": 1.8899858956276445,
+      "grad_norm": 11.625,
+      "learning_rate": 7.4014373027066965e-06,
+      "loss": 0.8858,
+      "mean_token_accuracy": 0.779736053943634,
+      "num_tokens": 10389989.0,
+      "step": 9380
+    },
+    {
+      "epoch": 1.8920008059641344,
+      "grad_norm": 12.75,
+      "learning_rate": 7.388004567130097e-06,
+      "loss": 0.8378,
+      "mean_token_accuracy": 0.7875830888748169,
+      "num_tokens": 10400859.0,
+      "step": 9390
+    },
+    {
+      "epoch": 1.8940157163006246,
+      "grad_norm": 14.0,
+      "learning_rate": 7.374571831553497e-06,
+      "loss": 0.7966,
+      "mean_token_accuracy": 0.8022767186164856,
+      "num_tokens": 10411388.0,
+      "step": 9400
+    },
+    {
+      "epoch": 1.8960306266371147,
+      "grad_norm": 13.1875,
+      "learning_rate": 7.3611390959768956e-06,
+      "loss": 0.8626,
+      "mean_token_accuracy": 0.7839694082736969,
+      "num_tokens": 10422407.0,
+      "step": 9410
+    },
+    {
+      "epoch": 1.8980455369736047,
+      "grad_norm": 13.6875,
+      "learning_rate": 7.347706360400296e-06,
+      "loss": 0.8651,
+      "mean_token_accuracy": 0.786309540271759,
+      "num_tokens": 10432219.0,
+      "step": 9420
+    },
+    {
+      "epoch": 1.9000604473100946,
+      "grad_norm": 12.25,
+      "learning_rate": 7.334273624823696e-06,
+      "loss": 0.7416,
+      "mean_token_accuracy": 0.809950202703476,
+      "num_tokens": 10442843.0,
+      "step": 9430
+    },
+    {
+      "epoch": 1.9020753576465848,
+      "grad_norm": 9.75,
+      "learning_rate": 7.320840889247096e-06,
+      "loss": 0.8379,
+      "mean_token_accuracy": 0.7921497166156769,
+      "num_tokens": 10454398.0,
+      "step": 9440
+    },
+    {
+      "epoch": 1.904090267983075,
+      "grad_norm": 11.3125,
+      "learning_rate": 7.307408153670495e-06,
+      "loss": 0.7609,
+      "mean_token_accuracy": 0.812008547782898,
+      "num_tokens": 10465437.0,
+      "step": 9450
+    },
+    {
+      "epoch": 1.9061051783195648,
+      "grad_norm": 13.1875,
+      "learning_rate": 7.293975418093895e-06,
+      "loss": 0.7676,
+      "mean_token_accuracy": 0.8095838546752929,
+      "num_tokens": 10475130.0,
+      "step": 9460
+    },
+    {
+      "epoch": 1.9081200886560548,
+      "grad_norm": 10.0625,
+      "learning_rate": 7.280542682517295e-06,
+      "loss": 0.759,
+      "mean_token_accuracy": 0.8101568818092346,
+      "num_tokens": 10486391.0,
+      "step": 9470
+    },
+    {
+      "epoch": 1.910134998992545,
+      "grad_norm": 12.25,
+      "learning_rate": 7.267109946940695e-06,
+      "loss": 0.7881,
+      "mean_token_accuracy": 0.801960825920105,
+      "num_tokens": 10498930.0,
+      "step": 9480
+    },
+    {
+      "epoch": 1.9121499093290348,
+      "grad_norm": 10.625,
+      "learning_rate": 7.2536772113640956e-06,
+      "loss": 0.7299,
+      "mean_token_accuracy": 0.8158387124538422,
+      "num_tokens": 10510083.0,
+      "step": 9490
+    },
+    {
+      "epoch": 1.9141648196655248,
+      "grad_norm": 11.875,
+      "learning_rate": 7.240244475787494e-06,
+      "loss": 0.803,
+      "mean_token_accuracy": 0.8004867613315583,
+      "num_tokens": 10520466.0,
+      "step": 9500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2727359994976256e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null