Training in progress, step 192, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +298 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3023053d501c3c6c92e25017ac17b7833ba47d662bc3b96335e33b1af0ba4a9d
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:c90bf8e9dd144d9601754a9b2cba7d26c60f5ab5da659a728e65f7b833bc1e3a
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43c50351eabc6c0390d88c3e543d74f312b6a9a2c94be5f33814b56a8328d207
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:226d054da1d7ad0fe9cb6455e078f6180a8bf321d250443c9f36ca6d8a1c1ba0
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce77f5bcd382470614be890ecedbc1c5b65fc2941d097f54f562f397ee1b4204
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9019d2347240393dd1a2c212e11f37d00de8c19095a9bc69b4bb6f2337ffe4b7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b21572f60c57282eaf510fd67405af43bbdd1915614e42250619ba76257dea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dd7378526c26b25312f7867118a6b4fdf26dc64ecd157b60ae548c66129cd40
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 2.4987945556640625,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 2.3529411764705883,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,300 @@
       "eval_samples_per_second": 13.284,
       "eval_steps_per_second": 3.321,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1406,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.0480900726784e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 2.4987945556640625,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 3.011764705882353,
   "eval_steps": 50,
+  "global_step": 192,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.284,
       "eval_steps_per_second": 3.321,
       "step": 150
+    },
+    {
+      "epoch": 2.368627450980392,
+      "grad_norm": 0.6427918076515198,
+      "learning_rate": 1.2007741992771065e-05,
+      "loss": 2.0535,
+      "step": 151
+    },
+    {
+      "epoch": 2.384313725490196,
+      "grad_norm": 0.7129402160644531,
+      "learning_rate": 1.145234126025102e-05,
+      "loss": 2.108,
+      "step": 152
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7248530983924866,
+      "learning_rate": 1.090842587659851e-05,
+      "loss": 2.0189,
+      "step": 153
+    },
+    {
+      "epoch": 2.4156862745098038,
+      "grad_norm": 0.8135029673576355,
+      "learning_rate": 1.0376157902445488e-05,
+      "loss": 1.9979,
+      "step": 154
+    },
+    {
+      "epoch": 2.431372549019608,
+      "grad_norm": 0.8778344392776489,
+      "learning_rate": 9.85569592805588e-06,
+      "loss": 2.0551,
+      "step": 155
+    },
+    {
+      "epoch": 2.447058823529412,
+      "grad_norm": 0.9533079266548157,
+      "learning_rate": 9.347195026073369e-06,
+      "loss": 1.9452,
+      "step": 156
+    },
+    {
+      "epoch": 2.462745098039216,
+      "grad_norm": 1.3244249820709229,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 2.0356,
+      "step": 157
+    },
+    {
+      "epoch": 2.4784313725490197,
+      "grad_norm": 0.899782657623291,
+      "learning_rate": 8.366678865639688e-06,
+      "loss": 2.1336,
+      "step": 158
+    },
+    {
+      "epoch": 2.4941176470588236,
+      "grad_norm": 0.44793930649757385,
+      "learning_rate": 7.894955753859413e-06,
+      "loss": 1.9492,
+      "step": 159
+    },
+    {
+      "epoch": 2.5098039215686274,
+      "grad_norm": 0.5112513899803162,
+      "learning_rate": 7.435777920782444e-06,
+      "loss": 2.1618,
+      "step": 160
+    },
+    {
+      "epoch": 2.5254901960784313,
+      "grad_norm": 0.5470635890960693,
+      "learning_rate": 6.989282179324963e-06,
+      "loss": 2.1548,
+      "step": 161
+    },
+    {
+      "epoch": 2.541176470588235,
+      "grad_norm": 0.5480771064758301,
+      "learning_rate": 6.555601563749675e-06,
+      "loss": 2.1317,
+      "step": 162
+    },
+    {
+      "epoch": 2.556862745098039,
+      "grad_norm": 0.6045755743980408,
+      "learning_rate": 6.1348652900279025e-06,
+      "loss": 2.273,
+      "step": 163
+    },
+    {
+      "epoch": 2.572549019607843,
+      "grad_norm": 0.6052933931350708,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 2.1034,
+      "step": 164
+    },
+    {
+      "epoch": 2.588235294117647,
+      "grad_norm": 0.6706366539001465,
+      "learning_rate": 5.332723310721854e-06,
+      "loss": 2.1542,
+      "step": 165
+    },
+    {
+      "epoch": 2.603921568627451,
+      "grad_norm": 0.7189547419548035,
+      "learning_rate": 4.951556604879048e-06,
+      "loss": 2.1109,
+      "step": 166
+    },
+    {
+      "epoch": 2.619607843137255,
+      "grad_norm": 0.7314002513885498,
+      "learning_rate": 4.5838121691623e-06,
+      "loss": 2.0928,
+      "step": 167
+    },
+    {
+      "epoch": 2.635294117647059,
+      "grad_norm": 0.8130326867103577,
+      "learning_rate": 4.229599573731685e-06,
+      "loss": 2.184,
+      "step": 168
+    },
+    {
+      "epoch": 2.6509803921568627,
+      "grad_norm": 0.8824214339256287,
+      "learning_rate": 3.8890243569094874e-06,
+      "loss": 2.28,
+      "step": 169
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.9210173487663269,
+      "learning_rate": 3.5621879937348836e-06,
+      "loss": 2.0636,
+      "step": 170
+    },
+    {
+      "epoch": 2.682352941176471,
+      "grad_norm": 0.9852874875068665,
+      "learning_rate": 3.249187865729264e-06,
+      "loss": 1.9793,
+      "step": 171
+    },
+    {
+      "epoch": 2.6980392156862747,
+      "grad_norm": 1.3538250923156738,
+      "learning_rate": 2.950117231881183e-06,
+      "loss": 2.0158,
+      "step": 172
+    },
+    {
+      "epoch": 2.7137254901960786,
+      "grad_norm": 1.0066053867340088,
+      "learning_rate": 2.6650652008597068e-06,
+      "loss": 2.3757,
+      "step": 173
+    },
+    {
+      "epoch": 2.7294117647058824,
+      "grad_norm": 0.45928213000297546,
+      "learning_rate": 2.3941167044642944e-06,
+      "loss": 1.8917,
+      "step": 174
+    },
+    {
+      "epoch": 2.7450980392156863,
+      "grad_norm": 0.5406450629234314,
+      "learning_rate": 2.137352472319215e-06,
+      "loss": 2.2532,
+      "step": 175
+    },
+    {
+      "epoch": 2.76078431372549,
+      "grad_norm": 0.5478349328041077,
+      "learning_rate": 1.8948490078199764e-06,
+      "loss": 2.2074,
+      "step": 176
+    },
+    {
+      "epoch": 2.776470588235294,
+      "grad_norm": 0.5485714077949524,
+      "learning_rate": 1.6666785653390249e-06,
+      "loss": 2.1245,
+      "step": 177
+    },
+    {
+      "epoch": 2.792156862745098,
+      "grad_norm": 0.6040245294570923,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 2.2487,
+      "step": 178
+    },
+    {
+      "epoch": 2.8078431372549018,
+      "grad_norm": 0.6607996821403503,
+      "learning_rate": 1.2536043909088191e-06,
+      "loss": 2.2545,
+      "step": 179
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 0.6602091789245605,
+      "learning_rate": 1.0688237352022345e-06,
+      "loss": 2.234,
+      "step": 180
+    },
+    {
+      "epoch": 2.83921568627451,
+      "grad_norm": 0.687446653842926,
+      "learning_rate": 8.986222173284875e-07,
+      "loss": 2.1189,
+      "step": 181
+    },
+    {
+      "epoch": 2.854901960784314,
+      "grad_norm": 0.7298436760902405,
+      "learning_rate": 7.4305054915631e-07,
+      "loss": 2.1273,
+      "step": 182
+    },
+    {
+      "epoch": 2.8705882352941177,
+      "grad_norm": 0.7987807989120483,
+      "learning_rate": 6.021550835626777e-07,
+      "loss": 2.1664,
+      "step": 183
+    },
+    {
+      "epoch": 2.8862745098039215,
+      "grad_norm": 0.860362708568573,
+      "learning_rate": 4.7597780062184073e-07,
+      "loss": 2.1681,
+      "step": 184
+    },
+    {
+      "epoch": 2.9019607843137254,
+      "grad_norm": 0.9093377590179443,
+      "learning_rate": 3.6455629509730136e-07,
+      "loss": 1.9198,
+      "step": 185
+    },
+    {
+      "epoch": 2.9176470588235293,
+      "grad_norm": 0.9680060744285583,
+      "learning_rate": 2.6792376524036877e-07,
+      "loss": 1.827,
+      "step": 186
+    },
+    {
+      "epoch": 2.9333333333333336,
+      "grad_norm": 1.2015458345413208,
+      "learning_rate": 1.8610900289867673e-07,
+      "loss": 2.0031,
+      "step": 187
+    },
+    {
+      "epoch": 2.9490196078431374,
+      "grad_norm": 0.9453166127204895,
+      "learning_rate": 1.191363849376237e-07,
+      "loss": 2.2456,
+      "step": 188
+    },
+    {
+      "epoch": 2.9647058823529413,
+      "grad_norm": 0.5282714366912842,
+      "learning_rate": 6.702586597719385e-08,
+      "loss": 1.8368,
+      "step": 189
+    },
+    {
+      "epoch": 2.980392156862745,
+      "grad_norm": 0.7178200483322144,
+      "learning_rate": 2.9792972446479605e-08,
+      "loss": 2.2156,
+      "step": 190
+    },
+    {
+      "epoch": 2.996078431372549,
+      "grad_norm": 1.3029696941375732,
+      "learning_rate": 7.448797957526621e-09,
+      "loss": 2.4417,
+      "step": 191
+    },
+    {
+      "epoch": 3.011764705882353,
+      "grad_norm": 0.6315656304359436,
+      "learning_rate": 0.0,
+      "loss": 2.2333,
+      "step": 192
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.62298517110784e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null