Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04b7e0b48d35ff4f1e8e73fbaa52fa66a2cde59ea5bd20a21d35865ca4cfcac3
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:9596e67904025109ae94f96486dc62aad8671538542a1b02899ae60d31529a90
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61643983c0556445220edbd9997a1b04d5a2eb693d060c83a1758e070cf2f3f6
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc49882fadb5945e27a09277baa8ab5d108b79a2f40467166250cf68ca894205
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23d86af0ccf2fff512fc2cd46abed1da6ac762b594e95afdcd341e22e5657f74
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:03430ce74886e6a08609778dc75b7d8511d30959529b5674f7e9a81b117eb6d4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6405f9fabb3d2e45adcc13758e2849ef278b423e1ee939354d45ffa4e9327204
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a032dcbe590e69725a7fa9cedb5934521429cb4c18983c09c5035cbcaaeebd93
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9886458516120911,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 1.5625,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 12.828,
       "eval_steps_per_second": 3.246,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.172433852394373e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.986004114151001,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 2.0833333333333335,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.828,
       "eval_steps_per_second": 3.246,
       "step": 150
+    },
+    {
+      "epoch": 1.5729166666666665,
+      "grad_norm": 4.444969177246094,
+      "learning_rate": 1.242586363525737e-05,
+      "loss": 2.8466,
+      "step": 151
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "grad_norm": 4.384251594543457,
+      "learning_rate": 1.1950528629100457e-05,
+      "loss": 2.8473,
+      "step": 152
+    },
+    {
+      "epoch": 1.59375,
+      "grad_norm": 4.320125102996826,
+      "learning_rate": 1.1482862068344121e-05,
+      "loss": 2.7789,
+      "step": 153
+    },
+    {
+      "epoch": 1.6041666666666665,
+      "grad_norm": 4.556283950805664,
+      "learning_rate": 1.1022991808356442e-05,
+      "loss": 2.7603,
+      "step": 154
+    },
+    {
+      "epoch": 1.6145833333333335,
+      "grad_norm": 4.58100700378418,
+      "learning_rate": 1.0571043573074737e-05,
+      "loss": 3.0291,
+      "step": 155
+    },
+    {
+      "epoch": 1.625,
+      "grad_norm": 4.945411205291748,
+      "learning_rate": 1.0127140920633857e-05,
+      "loss": 3.0654,
+      "step": 156
+    },
+    {
+      "epoch": 1.6354166666666665,
+      "grad_norm": 4.758878231048584,
+      "learning_rate": 9.69140520958662e-06,
+      "loss": 2.9119,
+      "step": 157
+    },
+    {
+      "epoch": 1.6458333333333335,
+      "grad_norm": 4.71636438369751,
+      "learning_rate": 9.263955565725648e-06,
+      "loss": 2.806,
+      "step": 158
+    },
+    {
+      "epoch": 1.65625,
+      "grad_norm": 4.838390827178955,
+      "learning_rate": 8.844908849515509e-06,
+      "loss": 2.7424,
+      "step": 159
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 4.934096813201904,
+      "learning_rate": 8.434379624144261e-06,
+      "loss": 2.7501,
+      "step": 160
+    },
+    {
+      "epoch": 1.6770833333333335,
+      "grad_norm": 5.1201372146606445,
+      "learning_rate": 8.032480124203013e-06,
+      "loss": 2.6865,
+      "step": 161
+    },
+    {
+      "epoch": 1.6875,
+      "grad_norm": 5.0016913414001465,
+      "learning_rate": 7.639320225002106e-06,
+      "loss": 2.703,
+      "step": 162
+    },
+    {
+      "epoch": 1.6979166666666665,
+      "grad_norm": 5.280127048492432,
+      "learning_rate": 7.255007412532307e-06,
+      "loss": 2.5453,
+      "step": 163
+    },
+    {
+      "epoch": 1.7083333333333335,
+      "grad_norm": 5.757223606109619,
+      "learning_rate": 6.8796467540791986e-06,
+      "loss": 2.8397,
+      "step": 164
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 6.4842939376831055,
+      "learning_rate": 6.513340869498859e-06,
+      "loss": 2.8759,
+      "step": 165
+    },
+    {
+      "epoch": 1.7291666666666665,
+      "grad_norm": 2.9485573768615723,
+      "learning_rate": 6.1561899031625794e-06,
+      "loss": 3.4129,
+      "step": 166
+    },
+    {
+      "epoch": 1.7395833333333335,
+      "grad_norm": 3.503781318664551,
+      "learning_rate": 5.808291496578435e-06,
+      "loss": 3.3005,
+      "step": 167
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 3.5136566162109375,
+      "learning_rate": 5.469740761697044e-06,
+      "loss": 2.9519,
+      "step": 168
+    },
+    {
+      "epoch": 1.7604166666666665,
+      "grad_norm": 3.895759344100952,
+      "learning_rate": 5.140630254908905e-06,
+      "loss": 2.9253,
+      "step": 169
+    },
+    {
+      "epoch": 1.7708333333333335,
+      "grad_norm": 3.9923999309539795,
+      "learning_rate": 4.821049951740442e-06,
+      "loss": 3.0135,
+      "step": 170
+    },
+    {
+      "epoch": 1.78125,
+      "grad_norm": 4.181189060211182,
+      "learning_rate": 4.511087222255528e-06,
+      "loss": 3.0098,
+      "step": 171
+    },
+    {
+      "epoch": 1.7916666666666665,
+      "grad_norm": 4.2349677085876465,
+      "learning_rate": 4.2108268071694616e-06,
+      "loss": 2.8849,
+      "step": 172
+    },
+    {
+      "epoch": 1.8020833333333335,
+      "grad_norm": 4.393781661987305,
+      "learning_rate": 3.9203507946816445e-06,
+      "loss": 2.7841,
+      "step": 173
+    },
+    {
+      "epoch": 1.8125,
+      "grad_norm": 4.54295015335083,
+      "learning_rate": 3.6397385980335e-06,
+      "loss": 2.8536,
+      "step": 174
+    },
+    {
+      "epoch": 1.8229166666666665,
+      "grad_norm": 4.6812744140625,
+      "learning_rate": 3.3690669337977e-06,
+      "loss": 2.6508,
+      "step": 175
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 4.644638538360596,
+      "learning_rate": 3.1084098009046106e-06,
+      "loss": 2.8156,
+      "step": 176
+    },
+    {
+      "epoch": 1.84375,
+      "grad_norm": 4.985812187194824,
+      "learning_rate": 2.8578384604117217e-06,
+      "loss": 2.9664,
+      "step": 177
+    },
+    {
+      "epoch": 1.8541666666666665,
+      "grad_norm": 4.605108261108398,
+      "learning_rate": 2.6174214160215704e-06,
+      "loss": 2.8497,
+      "step": 178
+    },
+    {
+      "epoch": 1.8645833333333335,
+      "grad_norm": 4.9651384353637695,
+      "learning_rate": 2.3872243953535535e-06,
+      "loss": 2.991,
+      "step": 179
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 4.437888145446777,
+      "learning_rate": 2.1673103319746146e-06,
+      "loss": 2.6755,
+      "step": 180
+    },
+    {
+      "epoch": 1.8854166666666665,
+      "grad_norm": 5.044173240661621,
+      "learning_rate": 1.957739348193859e-06,
+      "loss": 2.7898,
+      "step": 181
+    },
+    {
+      "epoch": 1.8958333333333335,
+      "grad_norm": 5.028233528137207,
+      "learning_rate": 1.7585687386256944e-06,
+      "loss": 2.8698,
+      "step": 182
+    },
+    {
+      "epoch": 1.90625,
+      "grad_norm": 4.980994701385498,
+      "learning_rate": 1.5698529545260744e-06,
+      "loss": 2.6159,
+      "step": 183
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 4.991346836090088,
+      "learning_rate": 1.3916435889060575e-06,
+      "loss": 2.6302,
+      "step": 184
+    },
+    {
+      "epoch": 1.9270833333333335,
+      "grad_norm": 5.023186683654785,
+      "learning_rate": 1.2239893624267852e-06,
+      "loss": 2.604,
+      "step": 185
+    },
+    {
+      "epoch": 1.9375,
+      "grad_norm": 5.13346004486084,
+      "learning_rate": 1.0669361100797704e-06,
+      "loss": 2.6011,
+      "step": 186
+    },
+    {
+      "epoch": 1.9479166666666665,
+      "grad_norm": 5.748098373413086,
+      "learning_rate": 9.205267686560293e-07,
+      "loss": 2.8425,
+      "step": 187
+    },
+    {
+      "epoch": 1.9583333333333335,
+      "grad_norm": 6.5659661293029785,
+      "learning_rate": 7.848013650076258e-07,
+      "loss": 3.2098,
+      "step": 188
+    },
+    {
+      "epoch": 1.96875,
+      "grad_norm": 3.7293739318847656,
+      "learning_rate": 6.597970051047053e-07,
+      "loss": 3.2201,
+      "step": 189
+    },
+    {
+      "epoch": 1.9791666666666665,
+      "grad_norm": 4.324611663818359,
+      "learning_rate": 5.455478638911071e-07,
+      "loss": 2.7098,
+      "step": 190
+    },
+    {
+      "epoch": 1.9895833333333335,
+      "grad_norm": 4.685488700866699,
+      "learning_rate": 4.420851759412603e-07,
+      "loss": 2.5991,
+      "step": 191
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 10.377963066101074,
+      "learning_rate": 3.4943722692099224e-07,
+      "loss": 2.8869,
+      "step": 192
+    },
+    {
+      "epoch": 2.0104166666666665,
+      "grad_norm": 2.777858257293701,
+      "learning_rate": 2.676293458544743e-07,
+      "loss": 3.2106,
+      "step": 193
+    },
+    {
+      "epoch": 2.0208333333333335,
+      "grad_norm": 3.0696890354156494,
+      "learning_rate": 1.9668389819954338e-07,
+      "loss": 3.0264,
+      "step": 194
+    },
+    {
+      "epoch": 2.03125,
+      "grad_norm": 3.3740200996398926,
+      "learning_rate": 1.3662027973320614e-07,
+      "loss": 2.821,
+      "step": 195
+    },
+    {
+      "epoch": 2.0416666666666665,
+      "grad_norm": 3.355523109436035,
+      "learning_rate": 8.745491124901861e-08,
+      "loss": 2.7618,
+      "step": 196
+    },
+    {
+      "epoch": 2.0520833333333335,
+      "grad_norm": 3.67665958404541,
+      "learning_rate": 4.920123406781052e-08,
+      "loss": 2.6209,
+      "step": 197
+    },
+    {
+      "epoch": 2.0625,
+      "grad_norm": 3.688063621520996,
+      "learning_rate": 2.1869706362958044e-08,
+      "loss": 2.4983,
+      "step": 198
+    },
+    {
+      "epoch": 2.0729166666666665,
+      "grad_norm": 3.78849458694458,
+      "learning_rate": 5.467800301239834e-09,
+      "loss": 2.4865,
+      "step": 199
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 4.000704765319824,
+      "learning_rate": 0.0,
+      "loss": 2.5722,
+      "step": 200
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "eval_loss": 0.986004114151001,
+      "eval_runtime": 12.6315,
+      "eval_samples_per_second": 12.825,
+      "eval_steps_per_second": 3.246,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.8924047256662835e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null