jyc0325 commited on 5 days ago

Commit

1b78434

verified ·

1 Parent(s): 58cb0f0

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81e7cb8524723853f60d37c38ded775153acbcf308963be5895fee03bc91ef0a
+size 14483467880

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bd664cccab90e32de751af6e0b12d6091bc9415047ce528aa07b485fb49a684
+size 14483467880

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e1ffa1dfbb633175813d57c555f6d8b79a7f975da6056767f27fa6cdbf54e5d
+size 14483467880

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bd55c3b0b00f55ea6f6908222373df540b947a0a040ce6f85e23f3cf29f5508
+size 14483467880

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7da2fc5c17feff608083c3b507659c9d611112146c547b7b068e2f8cc3cd45c
+size 150629

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:193ddccc51e9a318e2e8c658b44b45e0467381fb8ab271932b077405543f8205
+size 150629

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecd36a4206c0b19d981d02e5854d8766df92dfabb6f7db0b359141f2b8884046
+size 150629

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69d8d298a47173e507d85012a02a8be41b92f698ca837123a147a31ba40aa336
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ecb90f499c5b372ce8957768864282a6551fee2eb3bd7a51654fe59c8a46f0
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:94631eb83a955dee43a20ec4036a7af62203dae1fc84ede5f42b7cd4f1e6ef1c
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2fade6fae487a72b60a9e4251f69b61c1249016a230b660d27f2ddedab470bf
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a7edded92020713e2ea72b53f9d7430d0e22dfe2ec4c5b02d6f754183fcf9ec
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdf4b20bc902a231700c052ca140f23c4a223a60d352cdd14347e96514f78cff
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:683a91bb635b8be531fbfdf28f533b66f91bb22bbfc62eec0e900f9bb6fbcc35
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70cc56408014c410353d4dd58ae9b03f4be043f5f800324f66fd8e20e99b840e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:418a5f105ae834c3075024076916b2a9475918fe034c12d0dd5b6d91f1aba467
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49d1438e98cc9c53a6852464635ce62e9788e61eb3646b73e33813f487c4b6ae
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e07ace389d24bc1307b74f42a1e7b8f0117b0db853e2df64ff3f15cb92916a2
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4388add9cec90932f8ff0100d27a0574d98e1bad52ff89d44e31967d2b4fbfde
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:da6a990f346d7014dffb28fa2bc7d3b890bd3c53712503fce3656da48d3d6e50
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a705d6dfaae4f2c1b4b2be6b25a6eb521ffae6fcba21cc1531e97b60037ed079
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95f356ca38179b05993f55daece0223e96fa10b9a1b9ea2102a739211333f63
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:def86922cfbc44372ebbbb33f1d7fca89d594cb9a47912a7c87d6e97ad52cc09
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aee445daa2db98495d3837818da53f4c8ebbbfe5c5068f3a021121461592c045
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 16.556,
       "eval_steps_per_second": 0.579,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.556,
       "eval_steps_per_second": 0.579,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 2.410305409475697,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -3.796875,
+      "logits/rejected": -3.8125,
+      "logps/chosen": -165.0,
+      "logps/rejected": -183.0,
+      "loss": 0.5177,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -3.171875,
+      "rewards/margins": 1.609375,
+      "rewards/rejected": -4.78125,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 0.8113508868000807,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -3.75,
+      "logits/rejected": -3.765625,
+      "logps/chosen": -155.0,
+      "logps/rejected": -177.0,
+      "loss": 0.4748,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -2.515625,
+      "rewards/margins": 2.234375,
+      "rewards/rejected": -4.75,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 0.8022386849359633,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -165.0,
+      "logps/rejected": -182.0,
+      "loss": 0.494,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -3.546875,
+      "rewards/margins": 2.0625,
+      "rewards/rejected": -5.59375,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 1.4127272526100374,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -3.5,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -154.0,
+      "logps/rejected": -198.0,
+      "loss": 0.4836,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": -3.0625,
+      "rewards/margins": 3.265625,
+      "rewards/rejected": -6.3125,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 1.6015839862908308,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -166.0,
+      "logps/rejected": -197.0,
+      "loss": 0.4914,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -4.125,
+      "rewards/margins": 2.328125,
+      "rewards/rejected": -6.46875,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 1.3365523456961093,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.421875,
+      "logps/chosen": -161.0,
+      "logps/rejected": -193.0,
+      "loss": 0.5066,
+      "rewards/accuracies": 0.26249998807907104,
+      "rewards/chosen": -3.578125,
+      "rewards/margins": 2.546875,
+      "rewards/rejected": -6.125,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 0.3732248620636056,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -3.390625,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -165.0,
+      "logps/rejected": -191.0,
+      "loss": 0.508,
+      "rewards/accuracies": 0.26249998807907104,
+      "rewards/chosen": -3.984375,
+      "rewards/margins": 2.1875,
+      "rewards/rejected": -6.15625,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 1.3702802041665394,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -168.0,
+      "logps/rejected": -199.0,
+      "loss": 0.4658,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -3.375,
+      "rewards/margins": 2.40625,
+      "rewards/rejected": -5.78125,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 4.552571161813631,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -170.0,
+      "logps/rejected": -208.0,
+      "loss": 0.4617,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": -4.0,
+      "rewards/margins": 2.34375,
+      "rewards/rejected": -6.34375,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 1.124329278277091,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.5,
+      "logps/chosen": -173.0,
+      "logps/rejected": -215.0,
+      "loss": 0.5046,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -3.859375,
+      "rewards/margins": 2.953125,
+      "rewards/rejected": -6.8125,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 0.9258502818824418,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -3.34375,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -163.0,
+      "logps/rejected": -202.0,
+      "loss": 0.4876,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -3.984375,
+      "rewards/margins": 2.71875,
+      "rewards/rejected": -6.6875,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 0.5020087699809023,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -176.0,
+      "logps/rejected": -192.0,
+      "loss": 0.5051,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -4.3125,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -6.5,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 1.2704607759015243,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -3.515625,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -177.0,
+      "logps/rejected": -210.0,
+      "loss": 0.4615,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -4.0625,
+      "rewards/margins": 2.375,
+      "rewards/rejected": -6.4375,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 0.2652885305653395,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -166.0,
+      "logps/rejected": -178.0,
+      "loss": 0.5083,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": -4.21875,
+      "rewards/margins": 1.46875,
+      "rewards/rejected": -5.65625,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 0.47184139297382116,
+      "learning_rate": 1e-07,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.546875,
+      "logps/chosen": -147.0,
+      "logps/rejected": -197.0,
+      "loss": 0.4696,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -3.890625,
+      "rewards/margins": 2.84375,
+      "rewards/rejected": -6.71875,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 0.27130707751259775,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -164.0,
+      "logps/rejected": -212.0,
+      "loss": 0.4639,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -3.78125,
+      "rewards/margins": 3.703125,
+      "rewards/rejected": -7.46875,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 0.8280931838884058,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.640625,
+      "logps/chosen": -168.0,
+      "logps/rejected": -200.0,
+      "loss": 0.5019,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -4.5625,
+      "rewards/margins": 2.203125,
+      "rewards/rejected": -6.78125,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 0.4060588791740879,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -3.390625,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -186.0,
+      "logps/rejected": -220.0,
+      "loss": 0.4955,
+      "rewards/accuracies": 0.26249998807907104,
+      "rewards/chosen": -4.40625,
+      "rewards/margins": 2.421875,
+      "rewards/rejected": -6.8125,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 0.3435065796213597,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -3.5,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -162.0,
+      "logps/rejected": -189.0,
+      "loss": 0.4954,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -4.125,
+      "rewards/margins": 2.4375,
+      "rewards/rejected": -6.5625,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 0.5535707114884407,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -3.5,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -182.0,
+      "logps/rejected": -213.0,
+      "loss": 0.5022,
+      "rewards/accuracies": 0.21250000596046448,
+      "rewards/chosen": -5.0,
+      "rewards/margins": 2.1875,
+      "rewards/rejected": -7.21875,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 1.08090734300108,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -178.0,
+      "logps/rejected": -208.0,
+      "loss": 0.5132,
+      "rewards/accuracies": 0.23749999701976776,
+      "rewards/chosen": -4.28125,
+      "rewards/margins": 2.328125,
+      "rewards/rejected": -6.59375,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 0.33498681500442445,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -166.0,
+      "logps/rejected": -202.0,
+      "loss": 0.4933,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -4.1875,
+      "rewards/margins": 2.59375,
+      "rewards/rejected": -6.78125,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 0.2206671231026912,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -176.0,
+      "logps/rejected": -217.0,
+      "loss": 0.4845,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -4.375,
+      "rewards/margins": 2.96875,
+      "rewards/rejected": -7.34375,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 0.45488082207971153,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.625,
+      "logps/chosen": -177.0,
+      "logps/rejected": -216.0,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -4.75,
+      "rewards/margins": 2.75,
+      "rewards/rejected": -7.5,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 1.3853289418261023,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -3.625,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -189.0,
+      "logps/rejected": -221.0,
+      "loss": 0.474,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": -5.25,
+      "rewards/margins": 2.28125,
+      "rewards/rejected": -7.53125,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 0.42469154475289916,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -166.0,
+      "logps/rejected": -185.0,
+      "loss": 0.5236,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": -4.875,
+      "rewards/margins": 1.4921875,
+      "rewards/rejected": -6.375,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 0.5486851422310616,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -183.0,
+      "logps/rejected": -203.0,
+      "loss": 0.487,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -4.59375,
+      "rewards/margins": 2.453125,
+      "rewards/rejected": -7.0625,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 0.6798328903999439,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -176.0,
+      "logps/rejected": -220.0,
+      "loss": 0.502,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -4.53125,
+      "rewards/margins": 3.484375,
+      "rewards/rejected": -8.0,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 0.48478821436430236,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -3.640625,
+      "logits/rejected": -3.734375,
+      "logps/chosen": -195.0,
+      "logps/rejected": -226.0,
+      "loss": 0.5222,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": -5.28125,
+      "rewards/margins": 2.09375,
+      "rewards/rejected": -7.375,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 0.5314704772510245,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -3.515625,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -170.0,
+      "logps/rejected": -197.0,
+      "loss": 0.4831,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -4.375,
+      "rewards/margins": 2.765625,
+      "rewards/rejected": -7.15625,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 0.8748401307399186,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.421875,
+      "logps/chosen": -170.0,
+      "logps/rejected": -197.0,
+      "loss": 0.4948,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -4.09375,
+      "rewards/margins": 2.859375,
+      "rewards/rejected": -6.96875,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -3.46875,
+      "eval_logits/rejected": -3.5,
+      "eval_logps/chosen": -163.0,
+      "eval_logps/rejected": -174.0,
+      "eval_loss": 0.7490624785423279,
+      "eval_rewards/accuracies": 0.1964285671710968,
+      "eval_rewards/chosen": -5.375,
+      "eval_rewards/margins": 0.6640625,
+      "eval_rewards/rejected": -6.03125,
+      "eval_runtime": 15.1057,
+      "eval_samples_per_second": 13.24,
+      "eval_steps_per_second": 0.463,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }