AmberYifan commited on 22 days ago

Commit

2743353

verified ·

1 Parent(s): 0eba5b1

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step933/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step933/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5815169f0e3cf0c543f62316be933af3f13640d912ff0571783fda6f1985595a
+size 13476836524

last-checkpoint/global_step933/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1115493b60c469097aca333ada95baf40371c31b35a9f5a22b33108e9f4f7aef
+size 13476836524

last-checkpoint/global_step933/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9729d07c6d4f4244f4b1b1e6e9301c41d6c49107085b43be9dbce5b77f146a99
+size 13476836524

last-checkpoint/global_step933/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:342e3ee6370dbf59f509aaa882f587ed3893713eb515bda7b62cc65370f021ac
+size 13476836524

last-checkpoint/global_step933/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f851ae84153b0a0ba8cb69473151066650169e31e1c7cd52a0fdaf9f58d3a02b
+size 150693

last-checkpoint/global_step933/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdce489867a1aea2f4a1200fe36a106b51b37ea4e05bd0fd2c59dc1acc5f6b8d
+size 150693

last-checkpoint/global_step933/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7416b3655f2493abc7b469ffd8ee29ff94c8c87b1a1f977e6f296231e6214ee1
+size 150693

last-checkpoint/global_step933/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35365840626411b77c00efbf49145bf5eed77f546bde8ec571b8ee77434a1fd9
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step622~~


1	+ global_step933

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a22fd725754638c649b953e492acc006837e84e76130601345ae17d435f088a
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:29cc39f4e828e86787e6fd957f1bc91409db2c76bc9063a2e4ca8ebbe3d1b76f
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:647faac3c04be39f614ca6a6c739a7fba333e65e906d329e6769bcb35c2a547e
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:2195f938c079e0240ae017fbdb71798dfea367ef67ddf86a670023d49a3cbffc
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8659d7b003e7865ed8363103beddf604b78744bd9faadd245f99455172a97bd2
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:f31660d0d8e578a7975e87bed84de14138f2282c9508fa0f8c26345bc811b678
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d95ae9d69d49e45409fda9c3053f14bcb1c39bb614d5abd7b45725e880312f6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a24ddee48d56c15a9befc3736ab41dc312e3b1e643b0a12d15cc14b18e9153bf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 622,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 15.168,
       "eval_steps_per_second": 0.531,
       "step": 622
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 933,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.168,
       "eval_steps_per_second": 0.531,
       "step": 622
+    },
+    {
+      "epoch": 2.0257234726688105,
+      "grad_norm": 17.447272647052497,
+      "learning_rate": 1.805721096543504e-07,
+      "logits/chosen": -1.328125,
+      "logits/rejected": -1.265625,
+      "logps/chosen": -231.0,
+      "logps/rejected": -282.0,
+      "loss": 0.0996,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.640625,
+      "rewards/margins": 3.96875,
+      "rewards/rejected": -5.625,
+      "step": 630
+    },
+    {
+      "epoch": 2.057877813504823,
+      "grad_norm": 6.687947493471657,
+      "learning_rate": 1.7461263408820024e-07,
+      "logits/chosen": -1.375,
+      "logits/rejected": -1.2890625,
+      "logps/chosen": -230.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0796,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.34375,
+      "rewards/margins": 4.28125,
+      "rewards/rejected": -5.625,
+      "step": 640
+    },
+    {
+      "epoch": 2.090032154340836,
+      "grad_norm": 7.218763454804789,
+      "learning_rate": 1.6865315852205006e-07,
+      "logits/chosen": -1.3671875,
+      "logits/rejected": -1.2421875,
+      "logps/chosen": -221.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0926,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.94921875,
+      "rewards/margins": 4.28125,
+      "rewards/rejected": -5.21875,
+      "step": 650
+    },
+    {
+      "epoch": 2.122186495176849,
+      "grad_norm": 7.374097342668032,
+      "learning_rate": 1.626936829558999e-07,
+      "logits/chosen": -1.3359375,
+      "logits/rejected": -1.2578125,
+      "logps/chosen": -231.0,
+      "logps/rejected": -284.0,
+      "loss": 0.1181,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.0546875,
+      "rewards/margins": 4.40625,
+      "rewards/rejected": -5.46875,
+      "step": 660
+    },
+    {
+      "epoch": 2.154340836012862,
+      "grad_norm": 4.341286139803693,
+      "learning_rate": 1.5673420738974968e-07,
+      "logits/chosen": -1.2890625,
+      "logits/rejected": -1.2109375,
+      "logps/chosen": -232.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0822,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.4375,
+      "rewards/margins": 4.5,
+      "rewards/rejected": -5.9375,
+      "step": 670
+    },
+    {
+      "epoch": 2.1864951768488745,
+      "grad_norm": 7.206372321957506,
+      "learning_rate": 1.5077473182359952e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.21875,
+      "logps/chosen": -230.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0855,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.1328125,
+      "rewards/margins": 4.71875,
+      "rewards/rejected": -5.875,
+      "step": 680
+    },
+    {
+      "epoch": 2.2186495176848875,
+      "grad_norm": 8.477557654975314,
+      "learning_rate": 1.4481525625744933e-07,
+      "logits/chosen": -1.21875,
+      "logits/rejected": -1.1875,
+      "logps/chosen": -226.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0702,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.1640625,
+      "rewards/margins": 5.28125,
+      "rewards/rejected": -6.46875,
+      "step": 690
+    },
+    {
+      "epoch": 2.2508038585209005,
+      "grad_norm": 13.009501084613339,
+      "learning_rate": 1.3885578069129917e-07,
+      "logits/chosen": -1.3515625,
+      "logits/rejected": -1.2421875,
+      "logps/chosen": -223.0,
+      "logps/rejected": -290.0,
+      "loss": 0.0737,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.546875,
+      "rewards/margins": 5.125,
+      "rewards/rejected": -5.65625,
+      "step": 700
+    },
+    {
+      "epoch": 2.282958199356913,
+      "grad_norm": 7.401785467318329,
+      "learning_rate": 1.3289630512514898e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.203125,
+      "logps/chosen": -237.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0575,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3515625,
+      "rewards/margins": 4.84375,
+      "rewards/rejected": -6.1875,
+      "step": 710
+    },
+    {
+      "epoch": 2.315112540192926,
+      "grad_norm": 7.055774707472605,
+      "learning_rate": 1.2693682955899882e-07,
+      "logits/chosen": -1.3125,
+      "logits/rejected": -1.25,
+      "logps/chosen": -226.0,
+      "logps/rejected": -288.0,
+      "loss": 0.0686,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.9921875,
+      "rewards/margins": 4.90625,
+      "rewards/rejected": -5.90625,
+      "step": 720
+    },
+    {
+      "epoch": 2.347266881028939,
+      "grad_norm": 6.572242774401927,
+      "learning_rate": 1.2097735399284863e-07,
+      "logits/chosen": -1.390625,
+      "logits/rejected": -1.296875,
+      "logps/chosen": -219.0,
+      "logps/rejected": -288.0,
+      "loss": 0.0771,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.86328125,
+      "rewards/margins": 4.96875,
+      "rewards/rejected": -5.84375,
+      "step": 730
+    },
+    {
+      "epoch": 2.379421221864952,
+      "grad_norm": 15.366208632575415,
+      "learning_rate": 1.1501787842669844e-07,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.2265625,
+      "logps/chosen": -235.0,
+      "logps/rejected": -288.0,
+      "loss": 0.0852,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.4140625,
+      "rewards/margins": 4.4375,
+      "rewards/rejected": -5.875,
+      "step": 740
+    },
+    {
+      "epoch": 2.4115755627009645,
+      "grad_norm": 12.35630685312423,
+      "learning_rate": 1.0905840286054827e-07,
+      "logits/chosen": -1.390625,
+      "logits/rejected": -1.296875,
+      "logps/chosen": -225.0,
+      "logps/rejected": -284.0,
+      "loss": 0.0618,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3046875,
+      "rewards/margins": 4.75,
+      "rewards/rejected": -6.0625,
+      "step": 750
+    },
+    {
+      "epoch": 2.4437299035369775,
+      "grad_norm": 7.767813770736527,
+      "learning_rate": 1.030989272943981e-07,
+      "logits/chosen": -1.3359375,
+      "logits/rejected": -1.25,
+      "logps/chosen": -227.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0739,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.1484375,
+      "rewards/margins": 5.34375,
+      "rewards/rejected": -6.5,
+      "step": 760
+    },
+    {
+      "epoch": 2.4758842443729905,
+      "grad_norm": 6.935057168009298,
+      "learning_rate": 9.713945172824791e-08,
+      "logits/chosen": -1.40625,
+      "logits/rejected": -1.3046875,
+      "logps/chosen": -233.0,
+      "logps/rejected": -288.0,
+      "loss": 0.09,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.4140625,
+      "rewards/margins": 4.375,
+      "rewards/rejected": -5.78125,
+      "step": 770
+    },
+    {
+      "epoch": 2.508038585209003,
+      "grad_norm": 7.387415658831761,
+      "learning_rate": 9.117997616209773e-08,
+      "logits/chosen": -1.4140625,
+      "logits/rejected": -1.25,
+      "logps/chosen": -229.0,
+      "logps/rejected": -290.0,
+      "loss": 0.0754,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.234375,
+      "rewards/margins": 4.9375,
+      "rewards/rejected": -6.15625,
+      "step": 780
+    },
+    {
+      "epoch": 2.540192926045016,
+      "grad_norm": 7.499201582822142,
+      "learning_rate": 8.522050059594756e-08,
+      "logits/chosen": -1.359375,
+      "logits/rejected": -1.265625,
+      "logps/chosen": -233.0,
+      "logps/rejected": -302.0,
+      "loss": 0.0842,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.6328125,
+      "rewards/margins": 5.25,
+      "rewards/rejected": -6.875,
+      "step": 790
+    },
+    {
+      "epoch": 2.572347266881029,
+      "grad_norm": 5.063871367224483,
+      "learning_rate": 7.926102502979737e-08,
+      "logits/chosen": -1.3203125,
+      "logits/rejected": -1.2421875,
+      "logps/chosen": -241.0,
+      "logps/rejected": -302.0,
+      "loss": 0.0636,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.828125,
+      "rewards/margins": 4.6875,
+      "rewards/rejected": -6.5,
+      "step": 800
+    },
+    {
+      "epoch": 2.604501607717042,
+      "grad_norm": 6.927135247218095,
+      "learning_rate": 7.33015494636472e-08,
+      "logits/chosen": -1.453125,
+      "logits/rejected": -1.296875,
+      "logps/chosen": -226.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0646,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8828125,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -6.375,
+      "step": 810
+    },
+    {
+      "epoch": 2.6366559485530545,
+      "grad_norm": 7.241185858179814,
+      "learning_rate": 6.734207389749702e-08,
+      "logits/chosen": -1.375,
+      "logits/rejected": -1.28125,
+      "logps/chosen": -228.0,
+      "logps/rejected": -290.0,
+      "loss": 0.0749,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.4765625,
+      "rewards/margins": 4.71875,
+      "rewards/rejected": -6.1875,
+      "step": 820
+    },
+    {
+      "epoch": 2.6688102893890675,
+      "grad_norm": 9.774371876097607,
+      "learning_rate": 6.138259833134683e-08,
+      "logits/chosen": -1.3671875,
+      "logits/rejected": -1.2421875,
+      "logps/chosen": -241.0,
+      "logps/rejected": -302.0,
+      "loss": 0.0606,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.578125,
+      "rewards/margins": 4.75,
+      "rewards/rejected": -6.3125,
+      "step": 830
+    },
+    {
+      "epoch": 2.7009646302250805,
+      "grad_norm": 15.985434869180738,
+      "learning_rate": 5.542312276519666e-08,
+      "logits/chosen": -1.265625,
+      "logits/rejected": -1.1953125,
+      "logps/chosen": -236.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0909,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.1953125,
+      "rewards/margins": 4.875,
+      "rewards/rejected": -6.0625,
+      "step": 840
+    },
+    {
+      "epoch": 2.733118971061093,
+      "grad_norm": 22.758284549493595,
+      "learning_rate": 4.9463647199046485e-08,
+      "logits/chosen": -1.390625,
+      "logits/rejected": -1.3203125,
+      "logps/chosen": -232.0,
+      "logps/rejected": -292.0,
+      "loss": 0.1074,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.1796875,
+      "rewards/margins": 4.9375,
+      "rewards/rejected": -6.125,
+      "step": 850
+    },
+    {
+      "epoch": 2.765273311897106,
+      "grad_norm": 10.96281071419714,
+      "learning_rate": 4.3504171632896303e-08,
+      "logits/chosen": -1.3046875,
+      "logits/rejected": -1.21875,
+      "logps/chosen": -234.0,
+      "logps/rejected": -302.0,
+      "loss": 0.0625,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.453125,
+      "rewards/margins": 5.15625,
+      "rewards/rejected": -6.625,
+      "step": 860
+    },
+    {
+      "epoch": 2.797427652733119,
+      "grad_norm": 13.67107616299505,
+      "learning_rate": 3.754469606674612e-08,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.2265625,
+      "logps/chosen": -229.0,
+      "logps/rejected": -290.0,
+      "loss": 0.0791,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.125,
+      "rewards/margins": 4.875,
+      "rewards/rejected": -6.0,
+      "step": 870
+    },
+    {
+      "epoch": 2.829581993569132,
+      "grad_norm": 9.842883541605707,
+      "learning_rate": 3.158522050059595e-08,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.21875,
+      "logps/chosen": -239.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0708,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.7265625,
+      "rewards/margins": 4.875,
+      "rewards/rejected": -6.625,
+      "step": 880
+    },
+    {
+      "epoch": 2.861736334405145,
+      "grad_norm": 10.023217691488869,
+      "learning_rate": 2.562574493444577e-08,
+      "logits/chosen": -1.3828125,
+      "logits/rejected": -1.3125,
+      "logps/chosen": -234.0,
+      "logps/rejected": -304.0,
+      "loss": 0.0521,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3671875,
+      "rewards/margins": 5.6875,
+      "rewards/rejected": -7.0625,
+      "step": 890
+    },
+    {
+      "epoch": 2.8938906752411575,
+      "grad_norm": 15.555782009030803,
+      "learning_rate": 1.966626936829559e-08,
+      "logits/chosen": -1.3828125,
+      "logits/rejected": -1.2578125,
+      "logps/chosen": -238.0,
+      "logps/rejected": -300.0,
+      "loss": 0.087,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.875,
+      "rewards/margins": 4.75,
+      "rewards/rejected": -6.65625,
+      "step": 900
+    },
+    {
+      "epoch": 2.9260450160771705,
+      "grad_norm": 7.88303291402779,
+      "learning_rate": 1.370679380214541e-08,
+      "logits/chosen": -1.3515625,
+      "logits/rejected": -1.265625,
+      "logps/chosen": -228.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0659,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.2578125,
+      "rewards/margins": 5.1875,
+      "rewards/rejected": -6.4375,
+      "step": 910
+    },
+    {
+      "epoch": 2.958199356913183,
+      "grad_norm": 29.29264784081242,
+      "learning_rate": 7.747318235995233e-09,
+      "logits/chosen": -1.359375,
+      "logits/rejected": -1.3046875,
+      "logps/chosen": -225.0,
+      "logps/rejected": -284.0,
+      "loss": 0.0591,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.1171875,
+      "rewards/margins": 4.90625,
+      "rewards/rejected": -6.03125,
+      "step": 920
+    },
+    {
+      "epoch": 2.990353697749196,
+      "grad_norm": 3.502420852724699,
+      "learning_rate": 1.7878426698450536e-09,
+      "logits/chosen": -1.3515625,
+      "logits/rejected": -1.2265625,
+      "logps/chosen": -234.0,
+      "logps/rejected": -296.0,
+      "loss": 0.065,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.390625,
+      "rewards/margins": 4.8125,
+      "rewards/rejected": -6.1875,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.234375,
+      "eval_logits/rejected": -1.1953125,
+      "eval_logps/chosen": -244.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.22002440690994263,
+      "eval_rewards/accuracies": 0.9107142686843872,
+      "eval_rewards/chosen": -1.8203125,
+      "eval_rewards/margins": 3.796875,
+      "eval_rewards/rejected": -5.625,
+      "eval_runtime": 14.8376,
+      "eval_samples_per_second": 13.479,
+      "eval_steps_per_second": 0.472,
+      "step": 933
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }