AmberYifan commited on 20 days ago

Commit

7c03f54

verified ·

1 Parent(s): e0c6465

Training in progress, epoch 2, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step622/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step622/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step622/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step622/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step622/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step622/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step622/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step622/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +483 -2

last-checkpoint/global_step622/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06241dd271fada77701a6ddc85377dac71feb11871c5f85956ee30f6f52015ab
+size 14483468456

last-checkpoint/global_step622/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e56a32937f8845eec5343f070abc4eba47dc6f78c44642daf9946631359a099d
+size 14483468456

last-checkpoint/global_step622/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebbd0264dd480a6cab30e74cfdf77843644b71fef84cfe2a23a1b1450d90ad37
+size 14483468456

last-checkpoint/global_step622/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac2b56521a40246c435fc1572cd089584680b3b21d85bbf32eb04424ca3b26d5
+size 14483468456

last-checkpoint/global_step622/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c714f7153ee8966f2af3e0487543f9969b5be51aa7ec9d07b26fc6ebbc7981f7
+size 150629

last-checkpoint/global_step622/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8bab8715d9678c11f754053158e471de9eaa2bae4b35a2ff75a47e19d5a0562
+size 150629

last-checkpoint/global_step622/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f00a8a772291bb23202c0ca72bb9184134f2fe14faa92dc374ff9b41d9420ff8
+size 150629

last-checkpoint/global_step622/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1daec1d80cc9728bbc029f08d16df301a200052e764454660e1beba99df98900
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step311~~


1	+ global_step622

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74b9b809dc8fe4b3ca0ae2792b3373ffd127232672e5704b4d540599f181872c
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fc00ca9dd9338df2a6996a4bfb3cd0281a9c68c12f0d064e11d56562e2e7368
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fccf28826c0846c519f737f2194f2df017472d2123a4dc42831ed749ddca5e1
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:be5f0e9fe4774f0ac11b29b7ab95efce766854de10e2eab5bbbe41787c1b9a67
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:367e13177431a4cb1729e7ef2c5ef3961e668ec9dd4dca5253a1590d690868d4
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4396bdce91e7cbac57f1a4bba559d28f006bd640236ec041466e87c0ead8b8b
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ce770862b76ceecb3453a5d0b9ef65311eab0f6a60f52997726a89d718de08
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bcae6573442578b752be3e988d4ccb38056b45c31b5c02eb579ec6cebcfa62e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:398ff45072fee2975e88b9e078f915103d75d94bc08753303cf855b915973623
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f4b210bc832d4c648e3bee8c21dca26e5a8b365d6ec90c638062005a052e57b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3b6c259cc27eb1a5df9cd81d91bfcbb057c15b1d9a83639ce5a4425c358d300
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd6053a8450423b1508589b01aad6f55fbc0403955d073b555ad0b028220c09
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 311,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -503,6 +503,487 @@
       "eval_samples_per_second": 13.973,
       "eval_steps_per_second": 0.492,
       "step": 311
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 622,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.973,
       "eval_steps_per_second": 0.492,
       "step": 311
+    },
+    {
+      "epoch": 1.0289389067524115,
+      "grad_norm": 17.744370347927422,
+      "learning_rate": 3.6531585220500593e-07,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.71875,
+      "logps/chosen": -104.0,
+      "logps/rejected": -240.0,
+      "loss": 0.0588,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.56640625,
+      "rewards/margins": 6.75,
+      "rewards/rejected": -6.1875,
+      "step": 320
+    },
+    {
+      "epoch": 1.0610932475884245,
+      "grad_norm": 4.160707504041419,
+      "learning_rate": 3.5935637663885575e-07,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -113.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0337,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.2265625,
+      "rewards/margins": 8.4375,
+      "rewards/rejected": -7.1875,
+      "step": 330
+    },
+    {
+      "epoch": 1.0932475884244373,
+      "grad_norm": 17.23951731292116,
+      "learning_rate": 3.533969010727056e-07,
+      "logits/chosen": -3.640625,
+      "logits/rejected": -3.796875,
+      "logps/chosen": -115.5,
+      "logps/rejected": -252.0,
+      "loss": 0.0347,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 1.1875,
+      "rewards/margins": 8.375,
+      "rewards/rejected": -7.1875,
+      "step": 340
+    },
+    {
+      "epoch": 1.1254019292604502,
+      "grad_norm": 49.64075213527915,
+      "learning_rate": 3.474374255065554e-07,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -140.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0189,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.0390625,
+      "rewards/margins": 8.625,
+      "rewards/rejected": -7.625,
+      "step": 350
+    },
+    {
+      "epoch": 1.157556270096463,
+      "grad_norm": 7.306932203883141,
+      "learning_rate": 3.4147794994040524e-07,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.421875,
+      "logps/chosen": -109.5,
+      "logps/rejected": -274.0,
+      "loss": 0.0278,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4609375,
+      "rewards/margins": 9.5625,
+      "rewards/rejected": -8.125,
+      "step": 360
+    },
+    {
+      "epoch": 1.189710610932476,
+      "grad_norm": 35.16526862248255,
+      "learning_rate": 3.3551847437425505e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.421875,
+      "logps/chosen": -120.5,
+      "logps/rejected": -282.0,
+      "loss": 0.0399,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.44140625,
+      "rewards/margins": 8.8125,
+      "rewards/rejected": -8.375,
+      "step": 370
+    },
+    {
+      "epoch": 1.2218649517684887,
+      "grad_norm": 7.575200512680006,
+      "learning_rate": 3.295589988081049e-07,
+      "logits/chosen": -3.359375,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -120.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0216,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.9140625,
+      "rewards/margins": 9.3125,
+      "rewards/rejected": -8.4375,
+      "step": 380
+    },
+    {
+      "epoch": 1.2540192926045015,
+      "grad_norm": 0.6452900307805328,
+      "learning_rate": 3.235995232419547e-07,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.453125,
+      "logps/chosen": -132.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0475,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.8515625,
+      "rewards/margins": 10.0,
+      "rewards/rejected": -9.1875,
+      "step": 390
+    },
+    {
+      "epoch": 1.2861736334405145,
+      "grad_norm": 7.420661461533486,
+      "learning_rate": 3.176400476758045e-07,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.328125,
+      "logps/chosen": -105.5,
+      "logps/rejected": -272.0,
+      "loss": 0.0335,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.90625,
+      "rewards/margins": 9.1875,
+      "rewards/rejected": -8.25,
+      "step": 400
+    },
+    {
+      "epoch": 1.3183279742765273,
+      "grad_norm": 27.92454063116238,
+      "learning_rate": 3.116805721096543e-07,
+      "logits/chosen": -3.28125,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -129.0,
+      "logps/rejected": -282.0,
+      "loss": 0.0376,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.023193359375,
+      "rewards/margins": 9.0625,
+      "rewards/rejected": -9.0625,
+      "step": 410
+    },
+    {
+      "epoch": 1.3504823151125402,
+      "grad_norm": 48.832852324456454,
+      "learning_rate": 3.0572109654350416e-07,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.34375,
+      "logps/chosen": -134.0,
+      "logps/rejected": -282.0,
+      "loss": 0.0261,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.173828125,
+      "rewards/margins": 9.0625,
+      "rewards/rejected": -8.875,
+      "step": 420
+    },
+    {
+      "epoch": 1.382636655948553,
+      "grad_norm": 65.54781768372352,
+      "learning_rate": 2.99761620977354e-07,
+      "logits/chosen": -3.28125,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -117.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0396,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.494140625,
+      "rewards/margins": 9.1875,
+      "rewards/rejected": -8.6875,
+      "step": 430
+    },
+    {
+      "epoch": 1.414790996784566,
+      "grad_norm": 25.7310269564794,
+      "learning_rate": 2.938021454112038e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -156.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0399,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.78515625,
+      "rewards/margins": 9.125,
+      "rewards/rejected": -8.375,
+      "step": 440
+    },
+    {
+      "epoch": 1.4469453376205788,
+      "grad_norm": 8.455918132650991,
+      "learning_rate": 2.878426698450536e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -110.5,
+      "logps/rejected": -255.0,
+      "loss": 0.0372,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.6640625,
+      "rewards/margins": 8.75,
+      "rewards/rejected": -8.0625,
+      "step": 450
+    },
+    {
+      "epoch": 1.4790996784565915,
+      "grad_norm": 23.483398578435676,
+      "learning_rate": 2.8188319427890346e-07,
+      "logits/chosen": -3.296875,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -115.5,
+      "logps/rejected": -304.0,
+      "loss": 0.0359,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.91796875,
+      "rewards/margins": 9.5,
+      "rewards/rejected": -8.5625,
+      "step": 460
+    },
+    {
+      "epoch": 1.5112540192926045,
+      "grad_norm": 1.560695472946775,
+      "learning_rate": 2.759237187127533e-07,
+      "logits/chosen": -3.296875,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -103.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0296,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.91015625,
+      "rewards/margins": 10.125,
+      "rewards/rejected": -9.25,
+      "step": 470
+    },
+    {
+      "epoch": 1.5434083601286175,
+      "grad_norm": 4.044291002647325,
+      "learning_rate": 2.699642431466031e-07,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.625,
+      "logps/chosen": -119.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0338,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.72265625,
+      "rewards/margins": 10.125,
+      "rewards/rejected": -9.4375,
+      "step": 480
+    },
+    {
+      "epoch": 1.5755627009646302,
+      "grad_norm": 52.234565040636085,
+      "learning_rate": 2.640047675804529e-07,
+      "logits/chosen": -3.421875,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -133.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0613,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.9375,
+      "rewards/margins": 9.3125,
+      "rewards/rejected": -8.375,
+      "step": 490
+    },
+    {
+      "epoch": 1.607717041800643,
+      "grad_norm": 3.80360585724896,
+      "learning_rate": 2.5804529201430277e-07,
+      "logits/chosen": -3.34375,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -128.0,
+      "logps/rejected": -300.0,
+      "loss": 0.1382,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.16796875,
+      "rewards/margins": 8.9375,
+      "rewards/rejected": -8.8125,
+      "step": 500
+    },
+    {
+      "epoch": 1.639871382636656,
+      "grad_norm": 2.651977727973715,
+      "learning_rate": 2.520858164481526e-07,
+      "logits/chosen": -3.421875,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -119.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0504,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.37890625,
+      "rewards/margins": 8.6875,
+      "rewards/rejected": -8.3125,
+      "step": 510
+    },
+    {
+      "epoch": 1.6720257234726688,
+      "grad_norm": 28.125055557089983,
+      "learning_rate": 2.461263408820024e-07,
+      "logits/chosen": -3.34375,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -100.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0269,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.5390625,
+      "rewards/margins": 10.25,
+      "rewards/rejected": -8.75,
+      "step": 520
+    },
+    {
+      "epoch": 1.7041800643086815,
+      "grad_norm": 20.361634972075212,
+      "learning_rate": 2.401668653158522e-07,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -135.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0232,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.75390625,
+      "rewards/margins": 10.875,
+      "rewards/rejected": -10.125,
+      "step": 530
+    },
+    {
+      "epoch": 1.7363344051446945,
+      "grad_norm": 29.37467125959926,
+      "learning_rate": 2.3420738974970201e-07,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.734375,
+      "logps/chosen": -130.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0688,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.859375,
+      "rewards/margins": 9.0625,
+      "rewards/rejected": -9.9375,
+      "step": 540
+    },
+    {
+      "epoch": 1.7684887459807075,
+      "grad_norm": 16.99690727375027,
+      "learning_rate": 2.2824791418355183e-07,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.6875,
+      "logps/chosen": -145.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0231,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.048828125,
+      "rewards/margins": 9.5,
+      "rewards/rejected": -9.5,
+      "step": 550
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "grad_norm": 49.05866215948682,
+      "learning_rate": 2.2228843861740164e-07,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -126.5,
+      "logps/rejected": -284.0,
+      "loss": 0.0162,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.453125,
+      "rewards/margins": 10.0,
+      "rewards/rejected": -9.5625,
+      "step": 560
+    },
+    {
+      "epoch": 1.832797427652733,
+      "grad_norm": 17.76760727253399,
+      "learning_rate": 2.1632896305125148e-07,
+      "logits/chosen": -3.515625,
+      "logits/rejected": -3.71875,
+      "logps/chosen": -126.5,
+      "logps/rejected": -298.0,
+      "loss": 0.0305,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.3125,
+      "rewards/margins": 10.1875,
+      "rewards/rejected": -9.875,
+      "step": 570
+    },
+    {
+      "epoch": 1.864951768488746,
+      "grad_norm": 6.0736731293937,
+      "learning_rate": 2.1036948748510132e-07,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -127.0,
+      "logps/rejected": -312.0,
+      "loss": 0.054,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.1064453125,
+      "rewards/margins": 10.25,
+      "rewards/rejected": -10.375,
+      "step": 580
+    },
+    {
+      "epoch": 1.897106109324759,
+      "grad_norm": 39.17766360963206,
+      "learning_rate": 2.0441001191895113e-07,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.796875,
+      "logps/chosen": -137.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0353,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.1953125,
+      "rewards/margins": 9.8125,
+      "rewards/rejected": -10.0,
+      "step": 590
+    },
+    {
+      "epoch": 1.9292604501607717,
+      "grad_norm": 38.14836445184288,
+      "learning_rate": 1.9845053635280097e-07,
+      "logits/chosen": -3.34375,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -138.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0299,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.458984375,
+      "rewards/margins": 11.0625,
+      "rewards/rejected": -10.625,
+      "step": 600
+    },
+    {
+      "epoch": 1.9614147909967845,
+      "grad_norm": 55.90659543384472,
+      "learning_rate": 1.9249106078665075e-07,
+      "logits/chosen": -3.3125,
+      "logits/rejected": -3.546875,
+      "logps/chosen": -113.0,
+      "logps/rejected": -272.0,
+      "loss": 0.0322,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.09375,
+      "rewards/margins": 9.375,
+      "rewards/rejected": -8.25,
+      "step": 610
+    },
+    {
+      "epoch": 1.9935691318327975,
+      "grad_norm": 0.34892216328376285,
+      "learning_rate": 1.865315852205006e-07,
+      "logits/chosen": -3.296875,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -150.0,
+      "logps/rejected": -334.0,
+      "loss": 0.018,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.484375,
+      "rewards/margins": 10.9375,
+      "rewards/rejected": -10.4375,
+      "step": 620
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -3.65625,
+      "eval_logits/rejected": -3.734375,
+      "eval_logps/chosen": -226.0,
+      "eval_logps/rejected": -266.0,
+      "eval_loss": 0.9209327697753906,
+      "eval_rewards/accuracies": 0.7142857313156128,
+      "eval_rewards/chosen": -4.09375,
+      "eval_rewards/margins": 3.375,
+      "eval_rewards/rejected": -7.46875,
+      "eval_runtime": 14.1621,
+      "eval_samples_per_second": 14.052,
+      "eval_steps_per_second": 0.494,
+      "step": 622
     }
   ],
   "logging_steps": 10,