Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.15/checkpoint-11264/ema.safetensors +3 -0
checkpoints-v5.15/checkpoint-11264/eval_state.json +3 -0
checkpoints-v5.15/checkpoint-11264/model.safetensors +3 -0
checkpoints-v5.15/checkpoint-11264/optimizer.pt +3 -0
checkpoints-v5.15/checkpoint-11264/rng_state.pth +3 -0
checkpoints-v5.15/checkpoint-11264/scaler.pt +3 -0
checkpoints-v5.15/checkpoint-11264/scheduler.pt +3 -0
checkpoints-v5.15/checkpoint-11264/trainer_state.json +452 -0
checkpoints-v5.15/checkpoint-11264/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -70,3 +70,4 @@ checkpoints-v5.14/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v4.6++/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6++/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.14-b/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v4.6++/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6++/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.14-b/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.15/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.15/checkpoint-11264/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8aeae678d96b2bc552efb96492aae35461bf9b44c404caa2365069f6b0d1c4d6
+size 54599376

checkpoints-v5.15/checkpoint-11264/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24b2b0179d94205419f3b3deaea6251d75c9eed58ff9bf83f7a0efd3f58c5610
+size 57008049

checkpoints-v5.15/checkpoint-11264/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e091cb48566b9e7967ae291f0dd1032103cff51ab136369c12516ada6f083a23
+size 54599408

checkpoints-v5.15/checkpoint-11264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ca487b195a1d0ad02251c04d8b768b492e5ef6a5270ab45557231dcd171da93
+size 76550347

checkpoints-v5.15/checkpoint-11264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db58e1fa1043771ede7e059026a171217e359b9877ce2b1ad7350e695e5e52ca
+size 14645

checkpoints-v5.15/checkpoint-11264/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6723ae794957af182ae5058283117171219221fff5d286943166a33ff0964826
+size 1383

checkpoints-v5.15/checkpoint-11264/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d4fb09a735654b7310c6b8e8c4da0b9a798d3d75aadadc24eb1116ac42560a1
+size 1465

checkpoints-v5.15/checkpoint-11264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,452 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4854440062921542,
+  "eval_steps": 1024,
+  "global_step": 11264,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 8.887663841247559,
+      "learning_rate": 9.990234375e-05,
+      "loss": 8.19105339050293,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.2371850032485889,
+      "eval_ce_clean_loss": 3.3862914774717807,
+      "eval_ce_pred_loss": 5.394671515361078,
+      "eval_flow_latent_mse_loss": 0.07054425241437548,
+      "eval_flow_velocity_mse_loss": 0.657677960929586,
+      "eval_loss": 4.653980879387113,
+      "flow/cos_sim": 0.6173963620464431,
+      "flow/improvement_ratio": 0.9840314367940939,
+      "flow/mag_ratio_mean": 0.5731897604490902,
+      "flow/mag_ratio_std": 0.14144727260446244,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.2371850032485889,
+      "eval_ce_clean_loss": 3.3862914774717807,
+      "eval_ce_pred_loss": 5.394671515361078,
+      "eval_flow_latent_mse_loss": 0.07054425241437548,
+      "eval_flow_velocity_mse_loss": 0.657677960929586,
+      "eval_loss": 4.653980879387113,
+      "eval_runtime": 211.7869,
+      "eval_samples_per_second": 141.652,
+      "eval_steps_per_second": 2.214,
+      "flow/cos_sim": 0.6173963620464431,
+      "flow/improvement_ratio": 0.9840314367940939,
+      "flow/mag_ratio_mean": 0.5731897604490902,
+      "flow/mag_ratio_std": 0.14144727260446244,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 18.40336799621582,
+      "learning_rate": 9.947705025097448e-05,
+      "loss": 3.3889715671539307,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.24089355021843578,
+      "eval_ce_clean_loss": 1.5524053565983071,
+      "eval_ce_pred_loss": 5.091436030259773,
+      "eval_flow_latent_mse_loss": 0.048218625540068664,
+      "eval_flow_velocity_mse_loss": 0.3526596663984409,
+      "eval_loss": 2.462427265862666,
+      "flow/cos_sim": 0.8220945212886785,
+      "flow/improvement_ratio": 0.9908133576165384,
+      "flow/mag_ratio_mean": 0.7910515288554275,
+      "flow/mag_ratio_std": 0.1580576471078879,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.24089355021843578,
+      "eval_ce_clean_loss": 1.5524053565983071,
+      "eval_ce_pred_loss": 5.091436030259773,
+      "eval_flow_latent_mse_loss": 0.048218625540068664,
+      "eval_flow_velocity_mse_loss": 0.3526596663984409,
+      "eval_loss": 2.462427265862666,
+      "eval_runtime": 207.3942,
+      "eval_samples_per_second": 144.652,
+      "eval_steps_per_second": 2.261,
+      "flow/cos_sim": 0.8220945212886785,
+      "flow/improvement_ratio": 0.9908133576165384,
+      "flow/mag_ratio_mean": 0.7910515288554275,
+      "flow/mag_ratio_std": 0.1580576471078879,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 13.780325889587402,
+      "learning_rate": 9.7915094488941e-05,
+      "loss": 2.019826889038086,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.20682060276074551,
+      "eval_ce_clean_loss": 0.7854123648041601,
+      "eval_ce_pred_loss": 5.334758354910909,
+      "eval_flow_latent_mse_loss": 0.040881452071212375,
+      "eval_flow_velocity_mse_loss": 0.2279702990548189,
+      "eval_loss": 1.5877399614879064,
+      "flow/cos_sim": 0.8912065430744879,
+      "flow/improvement_ratio": 0.9926800377079165,
+      "flow/mag_ratio_mean": 0.8669626872930953,
+      "flow/mag_ratio_std": 0.15283272580614984,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.20682060276074551,
+      "eval_ce_clean_loss": 0.7854123648041601,
+      "eval_ce_pred_loss": 5.334758354910909,
+      "eval_flow_latent_mse_loss": 0.040881452071212375,
+      "eval_flow_velocity_mse_loss": 0.2279702990548189,
+      "eval_loss": 1.5877399614879064,
+      "eval_runtime": 205.7686,
+      "eval_samples_per_second": 145.795,
+      "eval_steps_per_second": 2.279,
+      "flow/cos_sim": 0.8912065430744879,
+      "flow/improvement_ratio": 0.9926800377079165,
+      "flow/mag_ratio_mean": 0.8669626872930953,
+      "flow/mag_ratio_std": 0.15283272580614984,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 11.012340545654297,
+      "learning_rate": 9.534991440649608e-05,
+      "loss": 1.3743938207626343,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.16363188503894788,
+      "eval_ce_clean_loss": 0.3785287282868489,
+      "eval_ce_pred_loss": 5.528324539981671,
+      "eval_flow_latent_mse_loss": 0.03347295840411806,
+      "eval_flow_velocity_mse_loss": 0.16226537120558304,
+      "eval_loss": 1.1270995217599848,
+      "flow/cos_sim": 0.9286127779275369,
+      "flow/improvement_ratio": 0.9932153086418282,
+      "flow/mag_ratio_mean": 0.9108342735497936,
+      "flow/mag_ratio_std": 0.15295166635055785,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.16363188503894788,
+      "eval_ce_clean_loss": 0.3785287282868489,
+      "eval_ce_pred_loss": 5.528324539981671,
+      "eval_flow_latent_mse_loss": 0.03347295840411806,
+      "eval_flow_velocity_mse_loss": 0.16226537120558304,
+      "eval_loss": 1.1270995217599848,
+      "eval_runtime": 204.563,
+      "eval_samples_per_second": 146.654,
+      "eval_steps_per_second": 2.293,
+      "flow/cos_sim": 0.9286127779275369,
+      "flow/improvement_ratio": 0.9932153086418282,
+      "flow/mag_ratio_mean": 0.9108342735497936,
+      "flow/mag_ratio_std": 0.15295166635055785,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 11.745284080505371,
+      "learning_rate": 9.183037205346935e-05,
+      "loss": 1.0636177062988281,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.13738491075539824,
+      "eval_ce_clean_loss": 0.1879858059733153,
+      "eval_ce_pred_loss": 5.7349623474739255,
+      "eval_flow_latent_mse_loss": 0.02759745604654492,
+      "eval_flow_velocity_mse_loss": 0.14143581146688095,
+      "eval_loss": 0.9305153198079514,
+      "flow/cos_sim": 0.941998773038006,
+      "flow/improvement_ratio": 0.9937093091417731,
+      "flow/mag_ratio_mean": 0.9254698810546891,
+      "flow/mag_ratio_std": 0.14320005217531342,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.13738491075539824,
+      "eval_ce_clean_loss": 0.1879858059733153,
+      "eval_ce_pred_loss": 5.7349623474739255,
+      "eval_flow_latent_mse_loss": 0.02759745604654492,
+      "eval_flow_velocity_mse_loss": 0.14143581146688095,
+      "eval_loss": 0.9305153198079514,
+      "eval_runtime": 202.9046,
+      "eval_samples_per_second": 147.853,
+      "eval_steps_per_second": 2.311,
+      "flow/cos_sim": 0.941998773038006,
+      "flow/improvement_ratio": 0.9937093091417731,
+      "flow/mag_ratio_mean": 0.9254698810546891,
+      "flow/mag_ratio_std": 0.14320005217531342,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 9.8949556350708,
+      "learning_rate": 8.74324003722993e-05,
+      "loss": 0.9332119226455688,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.10485989517125303,
+      "eval_ce_clean_loss": 0.10314439222820278,
+      "eval_ce_pred_loss": 6.026585411161248,
+      "eval_flow_latent_mse_loss": 0.02462343667059946,
+      "eval_flow_velocity_mse_loss": 0.12707700184794632,
+      "eval_loss": 0.8575033856861627,
+      "flow/cos_sim": 0.9490489955904133,
+      "flow/improvement_ratio": 0.9939835194839852,
+      "flow/mag_ratio_mean": 0.9330783666832361,
+      "flow/mag_ratio_std": 0.1343777290126408,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.10485989517125303,
+      "eval_ce_clean_loss": 0.10314439222820278,
+      "eval_ce_pred_loss": 6.026585411161248,
+      "eval_flow_latent_mse_loss": 0.02462343667059946,
+      "eval_flow_velocity_mse_loss": 0.12707700184794632,
+      "eval_loss": 0.8575033856861627,
+      "eval_runtime": 201.985,
+      "eval_samples_per_second": 148.526,
+      "eval_steps_per_second": 2.322,
+      "flow/cos_sim": 0.9490489955904133,
+      "flow/improvement_ratio": 0.9939835194839852,
+      "flow/mag_ratio_mean": 0.9330783666832361,
+      "flow/mag_ratio_std": 0.1343777290126408,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 8.900321960449219,
+      "learning_rate": 8.22483558761947e-05,
+      "loss": 0.8709867000579834,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.08651694305130357,
+      "eval_ce_clean_loss": 0.0600688684104221,
+      "eval_ce_pred_loss": 6.218749198832238,
+      "eval_flow_latent_mse_loss": 0.02104399689356052,
+      "eval_flow_velocity_mse_loss": 0.11542461483653929,
+      "eval_loss": 0.8184124124583914,
+      "flow/cos_sim": 0.9532103971885973,
+      "flow/improvement_ratio": 0.9942541531662443,
+      "flow/mag_ratio_mean": 0.9374735507883751,
+      "flow/mag_ratio_std": 0.1255933871306082,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.08651694305130357,
+      "eval_ce_clean_loss": 0.0600688684104221,
+      "eval_ce_pred_loss": 6.218749198832238,
+      "eval_flow_latent_mse_loss": 0.02104399689356052,
+      "eval_flow_velocity_mse_loss": 0.11542461483653929,
+      "eval_loss": 0.8184124124583914,
+      "eval_runtime": 201.994,
+      "eval_samples_per_second": 148.519,
+      "eval_steps_per_second": 2.322,
+      "flow/cos_sim": 0.9532103971885973,
+      "flow/improvement_ratio": 0.9942541531662443,
+      "flow/mag_ratio_mean": 0.9374735507883751,
+      "flow/mag_ratio_std": 0.1255933871306082,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 6.8332929611206055,
+      "learning_rate": 7.639311770076283e-05,
+      "loss": 0.8521633744239807,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.07066854474381863,
+      "eval_ce_clean_loss": 0.03517881183942625,
+      "eval_ce_pred_loss": 6.361157763995595,
+      "eval_flow_latent_mse_loss": 0.017622319229844727,
+      "eval_flow_velocity_mse_loss": 0.10679940540971024,
+      "eval_loss": 0.7957163247218264,
+      "flow/cos_sim": 0.9565253009928315,
+      "flow/improvement_ratio": 0.9950958989830668,
+      "flow/mag_ratio_mean": 0.9426390433362298,
+      "flow/mag_ratio_std": 0.11702151938097309,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.07066854474381863,
+      "eval_ce_clean_loss": 0.03517881183942625,
+      "eval_ce_pred_loss": 6.361157763995595,
+      "eval_flow_latent_mse_loss": 0.017622319229844727,
+      "eval_flow_velocity_mse_loss": 0.10679940540971024,
+      "eval_loss": 0.7957163247218264,
+      "eval_runtime": 201.4435,
+      "eval_samples_per_second": 148.925,
+      "eval_steps_per_second": 2.328,
+      "flow/cos_sim": 0.9565253009928315,
+      "flow/improvement_ratio": 0.9950958989830668,
+      "flow/mag_ratio_mean": 0.9426390433362298,
+      "flow/mag_ratio_std": 0.11702151938097309,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 6.2701029777526855,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 0.8328163623809814,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.059063499314682966,
+      "eval_ce_clean_loss": 0.02335210119102047,
+      "eval_ce_pred_loss": 6.471723645989067,
+      "eval_flow_latent_mse_loss": 0.016289353997174547,
+      "eval_flow_velocity_mse_loss": 0.10239806742683402,
+      "eval_loss": 0.789211899614029,
+      "flow/cos_sim": 0.9578453517163487,
+      "flow/improvement_ratio": 0.9947574119578039,
+      "flow/mag_ratio_mean": 0.9445628934323407,
+      "flow/mag_ratio_std": 0.11213315162323177,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.059063499314682966,
+      "eval_ce_clean_loss": 0.02335210119102047,
+      "eval_ce_pred_loss": 6.471723645989067,
+      "eval_flow_latent_mse_loss": 0.016289353997174547,
+      "eval_flow_velocity_mse_loss": 0.10239806742683402,
+      "eval_loss": 0.789211899614029,
+      "eval_runtime": 200.3456,
+      "eval_samples_per_second": 149.741,
+      "eval_steps_per_second": 2.341,
+      "flow/cos_sim": 0.9578453517163487,
+      "flow/improvement_ratio": 0.9947574119578039,
+      "flow/mag_ratio_mean": 0.9445628934323407,
+      "flow/mag_ratio_std": 0.11213315162323177,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 6.149109363555908,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 0.8299998044967651,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.04646173709857315,
+      "eval_ce_clean_loss": 0.016398947276889897,
+      "eval_ce_pred_loss": 6.611309008811837,
+      "eval_flow_latent_mse_loss": 0.01444387674006,
+      "eval_flow_velocity_mse_loss": 0.09797465415206799,
+      "eval_loss": 0.7899483920160387,
+      "flow/cos_sim": 0.9596936283335249,
+      "flow/improvement_ratio": 0.9951455176257884,
+      "flow/mag_ratio_mean": 0.9418040758002796,
+      "flow/mag_ratio_std": 0.10655801122122482,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.04646173709857315,
+      "eval_ce_clean_loss": 0.016398947276889897,
+      "eval_ce_pred_loss": 6.611309008811837,
+      "eval_flow_latent_mse_loss": 0.01444387674006,
+      "eval_flow_velocity_mse_loss": 0.09797465415206799,
+      "eval_loss": 0.7899483920160387,
+      "eval_runtime": 199.7885,
+      "eval_samples_per_second": 150.159,
+      "eval_steps_per_second": 2.347,
+      "flow/cos_sim": 0.9596936283335249,
+      "flow/improvement_ratio": 0.9951455176257884,
+      "flow/mag_ratio_mean": 0.9418040758002796,
+      "flow/mag_ratio_std": 0.10655801122122482,
+      "step": 10240
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 3.603848695755005,
+      "learning_rate": 5.604035379537632e-05,
+      "loss": 0.8279342651367188,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.042570233416081196,
+      "eval_ce_clean_loss": 0.011810618673147423,
+      "eval_ce_pred_loss": 6.648376730205154,
+      "eval_flow_latent_mse_loss": 0.012516131068565953,
+      "eval_flow_velocity_mse_loss": 0.09491073330645876,
+      "eval_loss": 0.7840751668791781,
+      "flow/cos_sim": 0.9602375737131278,
+      "flow/improvement_ratio": 0.9958161113104587,
+      "flow/mag_ratio_mean": 0.9454934674539546,
+      "flow/mag_ratio_std": 0.10616235840104536,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.042570233416081196,
+      "eval_ce_clean_loss": 0.011810618673147423,
+      "eval_ce_pred_loss": 6.648376730205154,
+      "eval_flow_latent_mse_loss": 0.012516131068565953,
+      "eval_flow_velocity_mse_loss": 0.09491073330645876,
+      "eval_loss": 0.7840751668791781,
+      "eval_runtime": 200.0632,
+      "eval_samples_per_second": 149.953,
+      "eval_steps_per_second": 2.344,
+      "flow/cos_sim": 0.9602375737131278,
+      "flow/improvement_ratio": 0.9958161113104587,
+      "flow/mag_ratio_mean": 0.9454934674539546,
+      "flow/mag_ratio_std": 0.10616235840104536,
+      "step": 11264
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.15/checkpoint-11264/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137