Training in progress, step 500000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cab54be7cb4d2572a34bddaadf5aa44b09e63a53da564cdebcbf1c0114515cb4
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:312f5dd5dc438695d2286527223deaadb2940917ec445fd49b7790bd92d056b7
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd7e757b48942dd6939c67ce3bb195396690b3f6c6d27ddc20a0b96e1fdb0e9
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed68ea66dfe971e4d7902575f967c4f233e9d86cc487e8877b74428533dfddfb
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e90597af9402f8b4ddc86423edd1595c0f03275adba0e3f54a96b077337ac052
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0972ff1fe1cf7e746b6ab6248586e0a51feac1c3b8fcdc150382062aac5e726
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d798ff13d72fe751bc0ea721c37eb1e98064dde5819b90f3504db53fdceee97
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:53a074c65f43dfe683b5f0e988de79e3365c939ebb4b13c8f9ce84b59bdb64a7
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.487894388093174,
-  "global_step": 490000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9806,11 +9806,211 @@
       "eval_samples_per_second": 738.941,
       "eval_steps_per_second": 11.823,
       "step": 490000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 1.565470805299396e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.74274937560528,
+  "global_step": 500000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 738.941,
       "eval_steps_per_second": 11.823,
       "step": 490000
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 1.0286124377900624e-05,
+      "loss": 0.2668,
+      "step": 490500
+    },
+    {
+      "epoch": 12.51,
+      "learning_rate": 1.0256807270282153e-05,
+      "loss": 0.267,
+      "step": 491000
+    },
+    {
+      "epoch": 12.51,
+      "eval_loss": 0.8052739500999451,
+      "eval_runtime": 1.2792,
+      "eval_samples_per_second": 781.716,
+      "eval_steps_per_second": 12.507,
+      "step": 491000
+    },
+    {
+      "epoch": 12.53,
+      "learning_rate": 1.0229073051029455e-05,
+      "loss": 0.2669,
+      "step": 491500
+    },
+    {
+      "epoch": 12.54,
+      "learning_rate": 1.020292202343952e-05,
+      "loss": 0.2668,
+      "step": 492000
+    },
+    {
+      "epoch": 12.54,
+      "eval_loss": 0.8052670955657959,
+      "eval_runtime": 1.3282,
+      "eval_samples_per_second": 752.92,
+      "eval_steps_per_second": 12.047,
+      "step": 492000
+    },
+    {
+      "epoch": 12.55,
+      "learning_rate": 1.0178354473495813e-05,
+      "loss": 0.2667,
+      "step": 492500
+    },
+    {
+      "epoch": 12.56,
+      "learning_rate": 1.0155370669865077e-05,
+      "loss": 0.2671,
+      "step": 493000
+    },
+    {
+      "epoch": 12.56,
+      "eval_loss": 0.8097056746482849,
+      "eval_runtime": 1.3313,
+      "eval_samples_per_second": 751.148,
+      "eval_steps_per_second": 12.018,
+      "step": 493000
+    },
+    {
+      "epoch": 12.58,
+      "learning_rate": 1.0133970863894557e-05,
+      "loss": 0.267,
+      "step": 493500
+    },
+    {
+      "epoch": 12.59,
+      "learning_rate": 1.0114155289609061e-05,
+      "loss": 0.267,
+      "step": 494000
+    },
+    {
+      "epoch": 12.59,
+      "eval_loss": 0.8087899684906006,
+      "eval_runtime": 1.3408,
+      "eval_samples_per_second": 745.8,
+      "eval_steps_per_second": 11.933,
+      "step": 494000
+    },
+    {
+      "epoch": 12.6,
+      "learning_rate": 1.0095924163708572e-05,
+      "loss": 0.2669,
+      "step": 494500
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 1.0079277685565724e-05,
+      "loss": 0.2669,
+      "step": 495000
+    },
+    {
+      "epoch": 12.62,
+      "eval_loss": 0.8080546855926514,
+      "eval_runtime": 1.3886,
+      "eval_samples_per_second": 720.171,
+      "eval_steps_per_second": 11.523,
+      "step": 495000
+    },
+    {
+      "epoch": 12.63,
+      "learning_rate": 1.0064216037223772e-05,
+      "loss": 0.2665,
+      "step": 495500
+    },
+    {
+      "epoch": 12.64,
+      "learning_rate": 1.0050739383394454e-05,
+      "loss": 0.2667,
+      "step": 496000
+    },
+    {
+      "epoch": 12.64,
+      "eval_loss": 0.8046788573265076,
+      "eval_runtime": 1.367,
+      "eval_samples_per_second": 731.525,
+      "eval_steps_per_second": 11.704,
+      "step": 496000
+    },
+    {
+      "epoch": 12.65,
+      "learning_rate": 1.003884787145633e-05,
+      "loss": 0.2666,
+      "step": 496500
+    },
+    {
+      "epoch": 12.67,
+      "learning_rate": 1.002854163145305e-05,
+      "loss": 0.2667,
+      "step": 497000
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 0.804325520992279,
+      "eval_runtime": 1.334,
+      "eval_samples_per_second": 749.623,
+      "eval_steps_per_second": 11.994,
+      "step": 497000
+    },
+    {
+      "epoch": 12.68,
+      "learning_rate": 1.0019820776091995e-05,
+      "loss": 0.267,
+      "step": 497500
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 1.0012685400743077e-05,
+      "loss": 0.2669,
+      "step": 498000
+    },
+    {
+      "epoch": 12.69,
+      "eval_loss": 0.805090069770813,
+      "eval_runtime": 1.2804,
+      "eval_samples_per_second": 781.031,
+      "eval_steps_per_second": 12.496,
+      "step": 498000
+    },
+    {
+      "epoch": 12.7,
+      "learning_rate": 1.0007135583437572e-05,
+      "loss": 0.2671,
+      "step": 498500
+    },
+    {
+      "epoch": 12.72,
+      "learning_rate": 1.0003171384867436e-05,
+      "loss": 0.2669,
+      "step": 499000
+    },
+    {
+      "epoch": 12.72,
+      "eval_loss": 0.8085483312606812,
+      "eval_runtime": 1.3193,
+      "eval_samples_per_second": 757.977,
+      "eval_steps_per_second": 12.128,
+      "step": 499000
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 1.0000792848384467e-05,
+      "loss": 0.2669,
+      "step": 499500
+    },
+    {
+      "epoch": 12.74,
+      "learning_rate": 1e-05,
+      "loss": 0.2666,
+      "step": 500000
+    },
+    {
+      "epoch": 12.74,
+      "eval_loss": 0.8054067492485046,
+      "eval_runtime": 1.3574,
+      "eval_samples_per_second": 736.683,
+      "eval_steps_per_second": 11.787,
+      "step": 500000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 1.597419519176846e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd7e757b48942dd6939c67ce3bb195396690b3f6c6d27ddc20a0b96e1fdb0e9
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed68ea66dfe971e4d7902575f967c4f233e9d86cc487e8877b74428533dfddfb
 size 102501541