Model save

Files changed (8) hide show

README.md CHANGED Viewed

@@ -1,17 +1,16 @@
 ---
-datasets: Kyleyee/train_data_imdb_for_target_policy_dpo
 library_name: transformers
 model_name: Qwen2.5-7b-dpo-imdb
 tags:
 - generated_from_trainer
-- trl
 - dpo
 licence: license
 ---
 # Model Card for Qwen2.5-7b-dpo-imdb
-This model is a fine-tuned version of [None](https://huggingface.co/None) on the [Kyleyee/train_data_imdb_for_target_policy_dpo](https://huggingface.co/datasets/Kyleyee/train_data_imdb_for_target_policy_dpo) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 library_name: transformers
 model_name: Qwen2.5-7b-dpo-imdb
 tags:
 - generated_from_trainer
 - dpo
+- trl
 licence: license
 ---
 # Model Card for Qwen2.5-7b-dpo-imdb
+This model is a fine-tuned version of [None](https://huggingface.co/None).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -3.1484375,
-    "eval_logits/rejected": -3.20703125,
-    "eval_logps/chosen": -885.0,
-    "eval_logps/rejected": -913.0,
-    "eval_loss": 0.5779687762260437,
-    "eval_rewards/accuracies": 0.5625,
-    "eval_rewards/chosen": -0.176513671875,
-    "eval_rewards/margins": 0.3870849609375,
-    "eval_rewards/rejected": -0.5640869140625,
-    "eval_runtime": 4.7753,
-    "eval_samples_per_second": 20.941,
-    "eval_steps_per_second": 0.838
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -3.22265625,
+    "eval_logits/rejected": -3.2421875,
+    "eval_logps/chosen": -297.0,
+    "eval_logps/rejected": -294.0,
+    "eval_loss": 0.6393749713897705,
+    "eval_rewards/accuracies": 0.671875,
+    "eval_rewards/chosen": -0.0892333984375,
+    "eval_rewards/margins": 0.1739501953125,
+    "eval_rewards/rejected": -0.263427734375,
+    "eval_runtime": 2.6575,
+    "eval_samples_per_second": 37.629,
+    "eval_steps_per_second": 1.505
 }

eval_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -3.1484375,
-    "eval_logits/rejected": -3.20703125,
-    "eval_logps/chosen": -885.0,
-    "eval_logps/rejected": -913.0,
-    "eval_loss": 0.5779687762260437,
-    "eval_rewards/accuracies": 0.5625,
-    "eval_rewards/chosen": -0.176513671875,
-    "eval_rewards/margins": 0.3870849609375,
-    "eval_rewards/rejected": -0.5640869140625,
-    "eval_runtime": 4.7753,
-    "eval_samples_per_second": 20.941,
-    "eval_steps_per_second": 0.838
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -3.22265625,
+    "eval_logits/rejected": -3.2421875,
+    "eval_logps/chosen": -297.0,
+    "eval_logps/rejected": -294.0,
+    "eval_loss": 0.6393749713897705,
+    "eval_rewards/accuracies": 0.671875,
+    "eval_rewards/chosen": -0.0892333984375,
+    "eval_rewards/margins": 0.1739501953125,
+    "eval_rewards/rejected": -0.263427734375,
+    "eval_runtime": 2.6575,
+    "eval_samples_per_second": 37.629,
+    "eval_steps_per_second": 1.505
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06dee3a6d4cddbca6dac50d0668c899e7e55fdb123bfce0aa3f85dc083f7b3af
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:06188e52a894adb2dcad8250508b51e8618986607cd3b93d88fc7a20829ca744
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88460107b4e4231f37c4253e7894cad91b4d95192044462e160d97174ca2ac33
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:62267c9a28d8d1265218d799bc3d3abb99c077b24f594c3b89890c28fc4931bc
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4de4da1fed4e467e289c6e79a7a569bc61f87ce791b9268ff6587b3c7dd1cbf1
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac7f585a281ca8214a5acdf70051a3241932bc9b839356a07936938af62d959d
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fee778416713744bad2b33deabbb4e66241ffc29a145cda981d2cfabe323be0f
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:81e2922e8bd9d52d05057b7c72b9ea56929d53fe8f4830931bd786163fc6cfad
 size 1089994880

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a842771d53f2d9ffcc98f4d185088d570767337beba7bcae98a87d9ce68baaf2
 size 7800

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a4645055338393f6806e6f3eb22c61d6e2e5e7b527a528b0a73e952aa93320c
 size 7800