AmberYifan commited on 20 days ago

Commit

1aa8e46

verified ·

1 Parent(s): 7964402

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step933/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step933/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step933/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5919b126a340ddb7a50161a0e0d65bbe3be190e4ab525579c3082f91aaa15b0
+size 14483468456

last-checkpoint/global_step933/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00252ba1c8b63314d1ac6d165065caa87e9b017275a4f443cb02e484d7b19de8
+size 14483468456

last-checkpoint/global_step933/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b988a1e003f4a620e4eba0eb61e86abefd0911ad4967c6a40447079b3712860
+size 14483468456

last-checkpoint/global_step933/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86c2872ed7a6526515d561ebc0a8aca67a2576b1d188e361b80e477ac2731f37
+size 14483468456

last-checkpoint/global_step933/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:200ddb0c96143160059beff8ebdfcf2444b707d466305d82a88f61b480b6f952
+size 150629

last-checkpoint/global_step933/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5768a8767b4b1a2054c6c0c473894e4bbcb30dd0abb4a098699c9d1b5dd4877
+size 150629

last-checkpoint/global_step933/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62d3c5bce5c117ba5e0447db7f6cf7c3f1c29fc4baedf998ceabed269a7e5d13
+size 150629

last-checkpoint/global_step933/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdcdb05666c4b616f841630e2c937298754384e11d2e854146bcc8da76d832f6
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step622~~


1	+ global_step933

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fc00ca9dd9338df2a6996a4bfb3cd0281a9c68c12f0d064e11d56562e2e7368
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bcf533b0a8a867302c33cb820a31498c777b926b457489ac6c5516f30fa5fac
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be5f0e9fe4774f0ac11b29b7ab95efce766854de10e2eab5bbbe41787c1b9a67
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:e48ee38d0e794e0f393104da1cbbe5aa8fc3307fff01e9196177b44b6bfefce3
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4396bdce91e7cbac57f1a4bba559d28f006bd640236ec041466e87c0ead8b8b
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:59c9b741f899af2f98c945f4d988fb0050828aa8117ba25ca6050febf6ee5cdc
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfd6053a8450423b1508589b01aad6f55fbc0403955d073b555ad0b028220c09
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0caf22595aba0b7671e98a74f0bfad5519cb9cbb39889404f38180bfd0fe28e6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 622,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 14.052,
       "eval_steps_per_second": 0.494,
       "step": 622
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 933,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.052,
       "eval_steps_per_second": 0.494,
       "step": 622
+    },
+    {
+      "epoch": 2.0257234726688105,
+      "grad_norm": 1.0084688310317689,
+      "learning_rate": 1.805721096543504e-07,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -138.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0133,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.82421875,
+      "rewards/margins": 10.125,
+      "rewards/rejected": -9.3125,
+      "step": 630
+    },
+    {
+      "epoch": 2.057877813504823,
+      "grad_norm": 1.0564688005496572,
+      "learning_rate": 1.7461263408820024e-07,
+      "logits/chosen": -3.28125,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -123.5,
+      "logps/rejected": -278.0,
+      "loss": 0.0128,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.5,
+      "rewards/margins": 10.0,
+      "rewards/rejected": -9.5,
+      "step": 640
+    },
+    {
+      "epoch": 2.090032154340836,
+      "grad_norm": 2.814703376282905,
+      "learning_rate": 1.6865315852205006e-07,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -122.5,
+      "logps/rejected": -330.0,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4296875,
+      "rewards/margins": 13.4375,
+      "rewards/rejected": -12.0,
+      "step": 650
+    },
+    {
+      "epoch": 2.122186495176849,
+      "grad_norm": 9.832993297771846,
+      "learning_rate": 1.626936829558999e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -138.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0111,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1591796875,
+      "rewards/margins": 12.3125,
+      "rewards/rejected": -12.1875,
+      "step": 660
+    },
+    {
+      "epoch": 2.154340836012862,
+      "grad_norm": 0.21098065783878342,
+      "learning_rate": 1.5673420738974968e-07,
+      "logits/chosen": -3.234375,
+      "logits/rejected": -3.34375,
+      "logps/chosen": -109.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0034,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.03125,
+      "rewards/margins": 12.3125,
+      "rewards/rejected": -11.3125,
+      "step": 670
+    },
+    {
+      "epoch": 2.1864951768488745,
+      "grad_norm": 2.476443587212778,
+      "learning_rate": 1.5077473182359952e-07,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.375,
+      "logps/chosen": -106.5,
+      "logps/rejected": -320.0,
+      "loss": 0.0043,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.546875,
+      "rewards/margins": 12.75,
+      "rewards/rejected": -12.1875,
+      "step": 680
+    },
+    {
+      "epoch": 2.2186495176848875,
+      "grad_norm": 11.363132455431685,
+      "learning_rate": 1.4481525625744933e-07,
+      "logits/chosen": -3.125,
+      "logits/rejected": -3.40625,
+      "logps/chosen": -134.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0122,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.7421875,
+      "rewards/margins": 12.9375,
+      "rewards/rejected": -12.1875,
+      "step": 690
+    },
+    {
+      "epoch": 2.2508038585209005,
+      "grad_norm": 2.5108344224003334,
+      "learning_rate": 1.3885578069129917e-07,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.5,
+      "logps/chosen": -123.5,
+      "logps/rejected": -318.0,
+      "loss": 0.0063,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.13671875,
+      "rewards/margins": 12.5625,
+      "rewards/rejected": -12.375,
+      "step": 700
+    },
+    {
+      "epoch": 2.282958199356913,
+      "grad_norm": 0.16002189769618574,
+      "learning_rate": 1.3289630512514898e-07,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.28125,
+      "logps/chosen": -119.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0073,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.96484375,
+      "rewards/margins": 13.3125,
+      "rewards/rejected": -12.3125,
+      "step": 710
+    },
+    {
+      "epoch": 2.315112540192926,
+      "grad_norm": 0.24278926553916283,
+      "learning_rate": 1.2693682955899882e-07,
+      "logits/chosen": -3.125,
+      "logits/rejected": -3.296875,
+      "logps/chosen": -136.0,
+      "logps/rejected": -342.0,
+      "loss": 0.001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.1201171875,
+      "rewards/margins": 12.875,
+      "rewards/rejected": -13.0,
+      "step": 720
+    },
+    {
+      "epoch": 2.347266881028939,
+      "grad_norm": 8.462048605522668,
+      "learning_rate": 1.2097735399284863e-07,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.328125,
+      "logps/chosen": -114.5,
+      "logps/rejected": -298.0,
+      "loss": 0.0085,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.5546875,
+      "rewards/margins": 12.125,
+      "rewards/rejected": -11.5625,
+      "step": 730
+    },
+    {
+      "epoch": 2.379421221864952,
+      "grad_norm": 0.2836935848609144,
+      "learning_rate": 1.1501787842669844e-07,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -149.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0095,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.388671875,
+      "rewards/margins": 12.625,
+      "rewards/rejected": -12.25,
+      "step": 740
+    },
+    {
+      "epoch": 2.4115755627009645,
+      "grad_norm": 0.20905746208537096,
+      "learning_rate": 1.0905840286054827e-07,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -144.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0024,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.66015625,
+      "rewards/margins": 13.125,
+      "rewards/rejected": -12.5,
+      "step": 750
+    },
+    {
+      "epoch": 2.4437299035369775,
+      "grad_norm": 0.13532730518065741,
+      "learning_rate": 1.030989272943981e-07,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -135.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0052,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.07666015625,
+      "rewards/margins": 12.9375,
+      "rewards/rejected": -12.875,
+      "step": 760
+    },
+    {
+      "epoch": 2.4758842443729905,
+      "grad_norm": 1.0359164426855658,
+      "learning_rate": 9.713945172824791e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.40625,
+      "logps/chosen": -124.5,
+      "logps/rejected": -330.0,
+      "loss": 0.0052,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.034912109375,
+      "rewards/margins": 13.3125,
+      "rewards/rejected": -13.375,
+      "step": 770
+    },
+    {
+      "epoch": 2.508038585209003,
+      "grad_norm": 0.02411362444063136,
+      "learning_rate": 9.117997616209773e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -146.0,
+      "logps/rejected": -356.0,
+      "loss": 0.0025,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3046875,
+      "rewards/margins": 13.75,
+      "rewards/rejected": -13.5,
+      "step": 780
+    },
+    {
+      "epoch": 2.540192926045016,
+      "grad_norm": 0.14361577541299492,
+      "learning_rate": 8.522050059594756e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.40625,
+      "logps/chosen": -148.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2734375,
+      "rewards/margins": 13.5,
+      "rewards/rejected": -13.25,
+      "step": 790
+    },
+    {
+      "epoch": 2.572347266881029,
+      "grad_norm": 3.7709142939626923,
+      "learning_rate": 7.926102502979737e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.40625,
+      "logps/chosen": -126.0,
+      "logps/rejected": -344.0,
+      "loss": 0.0013,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.62890625,
+      "rewards/margins": 13.6875,
+      "rewards/rejected": -13.0625,
+      "step": 800
+    },
+    {
+      "epoch": 2.604501607717042,
+      "grad_norm": 0.6815929170420622,
+      "learning_rate": 7.33015494636472e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.421875,
+      "logps/chosen": -122.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.006866455078125,
+      "rewards/margins": 12.75,
+      "rewards/rejected": -12.75,
+      "step": 810
+    },
+    {
+      "epoch": 2.6366559485530545,
+      "grad_norm": 1.1968332787733935,
+      "learning_rate": 6.734207389749702e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -110.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0075,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.94140625,
+      "rewards/margins": 13.75,
+      "rewards/rejected": -12.75,
+      "step": 820
+    },
+    {
+      "epoch": 2.6688102893890675,
+      "grad_norm": 0.2654328339493102,
+      "learning_rate": 6.138259833134683e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -127.5,
+      "logps/rejected": -328.0,
+      "loss": 0.0081,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.453125,
+      "rewards/margins": 13.9375,
+      "rewards/rejected": -13.5,
+      "step": 830
+    },
+    {
+      "epoch": 2.7009646302250805,
+      "grad_norm": 0.2744508216663156,
+      "learning_rate": 5.542312276519666e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.375,
+      "logps/chosen": -119.5,
+      "logps/rejected": -346.0,
+      "loss": 0.005,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.10107421875,
+      "rewards/margins": 13.125,
+      "rewards/rejected": -13.0625,
+      "step": 840
+    },
+    {
+      "epoch": 2.733118971061093,
+      "grad_norm": 0.03947959588228437,
+      "learning_rate": 4.9463647199046485e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.34375,
+      "logps/chosen": -120.5,
+      "logps/rejected": -316.0,
+      "loss": 0.0073,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.224609375,
+      "rewards/margins": 12.875,
+      "rewards/rejected": -12.6875,
+      "step": 850
+    },
+    {
+      "epoch": 2.765273311897106,
+      "grad_norm": 0.6863210482116098,
+      "learning_rate": 4.3504171632896303e-08,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.5,
+      "logps/chosen": -136.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0105,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.59375,
+      "rewards/margins": 13.75,
+      "rewards/rejected": -13.125,
+      "step": 860
+    },
+    {
+      "epoch": 2.797427652733119,
+      "grad_norm": 2.8280463279363106,
+      "learning_rate": 3.754469606674612e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -116.5,
+      "logps/rejected": -318.0,
+      "loss": 0.0078,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.255859375,
+      "rewards/margins": 13.25,
+      "rewards/rejected": -13.0,
+      "step": 870
+    },
+    {
+      "epoch": 2.829581993569132,
+      "grad_norm": 4.677533654072525,
+      "learning_rate": 3.158522050059595e-08,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.421875,
+      "logps/chosen": -147.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0227,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1044921875,
+      "rewards/margins": 12.375,
+      "rewards/rejected": -12.25,
+      "step": 880
+    },
+    {
+      "epoch": 2.861736334405145,
+      "grad_norm": 4.075516801733505,
+      "learning_rate": 2.562574493444577e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -130.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0112,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1201171875,
+      "rewards/margins": 13.125,
+      "rewards/rejected": -13.0,
+      "step": 890
+    },
+    {
+      "epoch": 2.8938906752411575,
+      "grad_norm": 0.31091685277937586,
+      "learning_rate": 1.966626936829559e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.453125,
+      "logps/chosen": -114.5,
+      "logps/rejected": -316.0,
+      "loss": 0.0116,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.498046875,
+      "rewards/margins": 13.3125,
+      "rewards/rejected": -12.8125,
+      "step": 900
+    },
+    {
+      "epoch": 2.9260450160771705,
+      "grad_norm": 0.008132094709855322,
+      "learning_rate": 1.370679380214541e-08,
+      "logits/chosen": -3.125,
+      "logits/rejected": -3.5,
+      "logps/chosen": -124.0,
+      "logps/rejected": -356.0,
+      "loss": 0.0056,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0111083984375,
+      "rewards/margins": 13.625,
+      "rewards/rejected": -13.625,
+      "step": 910
+    },
+    {
+      "epoch": 2.958199356913183,
+      "grad_norm": 10.508744046977588,
+      "learning_rate": 7.747318235995233e-09,
+      "logits/chosen": -3.28125,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -115.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1298828125,
+      "rewards/margins": 13.125,
+      "rewards/rejected": -13.0,
+      "step": 920
+    },
+    {
+      "epoch": 2.990353697749196,
+      "grad_norm": 0.053140421396559286,
+      "learning_rate": 1.7878426698450536e-09,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.40625,
+      "logps/chosen": -117.5,
+      "logps/rejected": -308.0,
+      "loss": 0.0051,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.203125,
+      "rewards/margins": 12.9375,
+      "rewards/rejected": -12.75,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -3.515625,
+      "eval_logits/rejected": -3.59375,
+      "eval_logps/chosen": -245.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 1.0541672706604004,
+      "eval_rewards/accuracies": 0.6964285969734192,
+      "eval_rewards/chosen": -5.96875,
+      "eval_rewards/margins": 4.125,
+      "eval_rewards/rejected": -10.0625,
+      "eval_runtime": 15.892,
+      "eval_samples_per_second": 12.522,
+      "eval_steps_per_second": 0.44,
+      "step": 933
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }