Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09b75649c7838a2c1c1192db447c692a4def5dfc7c4f606ce94c91ffa9d7e74b
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbda01b4a679f26f01798cd37f11b8222b49185e3855648d64d80ac8c4fec13d
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb1a59c2da6150cd38f0fb712d600b373929cc470acd168b79c9c515996205a3
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:7eff4cea04f0c5cdc160f62a494257a900f5aa1f989cc9f99860863a8b904b7f
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1a0033a13bcb715d81fb59a33b21ab93f3159bb3a5e27bcf8eab5ae59daec29
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:99652d368c46cef904da321e553b9fde54a8c12fd14a2ab5b0b5e2c0d414efdf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac116b8169c53ab649a7f15f2f32735f2c71ec2f803f70de8c655a513ee9cfc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6325949430465698,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.017285586701621964,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 26.742,
       "eval_steps_per_second": 6.686,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1117,7 +1475,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.866428507278541e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.608009397983551,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.023047448935495953,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.742,
       "eval_steps_per_second": 6.686,
       "step": 150
+    },
+    {
+      "epoch": 0.017400823946299444,
+      "grad_norm": 0.6129029393196106,
+      "learning_rate": 7.107005538862646e-05,
+      "loss": 0.5457,
+      "step": 151
+    },
+    {
+      "epoch": 0.017516061190976925,
+      "grad_norm": 0.6865366101264954,
+      "learning_rate": 7.07041155014006e-05,
+      "loss": 0.6037,
+      "step": 152
+    },
+    {
+      "epoch": 0.017631298435654405,
+      "grad_norm": 0.6349140405654907,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.6006,
+      "step": 153
+    },
+    {
+      "epoch": 0.017746535680331882,
+      "grad_norm": 0.6397451162338257,
+      "learning_rate": 6.996822917828477e-05,
+      "loss": 0.6904,
+      "step": 154
+    },
+    {
+      "epoch": 0.017861772925009362,
+      "grad_norm": 0.5073702335357666,
+      "learning_rate": 6.959833049300377e-05,
+      "loss": 0.5711,
+      "step": 155
+    },
+    {
+      "epoch": 0.017977010169686843,
+      "grad_norm": 0.5888249278068542,
+      "learning_rate": 6.922716010014255e-05,
+      "loss": 0.7033,
+      "step": 156
+    },
+    {
+      "epoch": 0.018092247414364323,
+      "grad_norm": 0.5774878263473511,
+      "learning_rate": 6.885474208441603e-05,
+      "loss": 0.6928,
+      "step": 157
+    },
+    {
+      "epoch": 0.018207484659041803,
+      "grad_norm": 0.6262368559837341,
+      "learning_rate": 6.848110061149556e-05,
+      "loss": 0.7691,
+      "step": 158
+    },
+    {
+      "epoch": 0.018322721903719284,
+      "grad_norm": 0.6418235301971436,
+      "learning_rate": 6.810625992644085e-05,
+      "loss": 0.6263,
+      "step": 159
+    },
+    {
+      "epoch": 0.01843795914839676,
+      "grad_norm": 0.6563417911529541,
+      "learning_rate": 6.773024435212678e-05,
+      "loss": 0.692,
+      "step": 160
+    },
+    {
+      "epoch": 0.01855319639307424,
+      "grad_norm": 0.654928982257843,
+      "learning_rate": 6.735307828766515e-05,
+      "loss": 0.6949,
+      "step": 161
+    },
+    {
+      "epoch": 0.01866843363775172,
+      "grad_norm": 0.7155853509902954,
+      "learning_rate": 6.697478620682137e-05,
+      "loss": 0.6591,
+      "step": 162
+    },
+    {
+      "epoch": 0.0187836708824292,
+      "grad_norm": 0.7285525798797607,
+      "learning_rate": 6.659539265642643e-05,
+      "loss": 0.7245,
+      "step": 163
+    },
+    {
+      "epoch": 0.018898908127106682,
+      "grad_norm": 0.7615992426872253,
+      "learning_rate": 6.621492225478414e-05,
+      "loss": 0.5962,
+      "step": 164
+    },
+    {
+      "epoch": 0.019014145371784162,
+      "grad_norm": 0.7541478872299194,
+      "learning_rate": 6.583339969007363e-05,
+      "loss": 0.6226,
+      "step": 165
+    },
+    {
+      "epoch": 0.01912938261646164,
+      "grad_norm": 1.3453112840652466,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.7385,
+      "step": 166
+    },
+    {
+      "epoch": 0.01924461986113912,
+      "grad_norm": 0.8395344614982605,
+      "learning_rate": 6.506729716392481e-05,
+      "loss": 0.7463,
+      "step": 167
+    },
+    {
+      "epoch": 0.0193598571058166,
+      "grad_norm": 0.8182184100151062,
+      "learning_rate": 6.468276691378155e-05,
+      "loss": 0.643,
+      "step": 168
+    },
+    {
+      "epoch": 0.01947509435049408,
+      "grad_norm": 1.2326037883758545,
+      "learning_rate": 6.429728391993446e-05,
+      "loss": 0.6738,
+      "step": 169
+    },
+    {
+      "epoch": 0.01959033159517156,
+      "grad_norm": 0.9027764797210693,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 0.721,
+      "step": 170
+    },
+    {
+      "epoch": 0.01970556883984904,
+      "grad_norm": 0.955884575843811,
+      "learning_rate": 6.35235598150842e-05,
+      "loss": 0.65,
+      "step": 171
+    },
+    {
+      "epoch": 0.019820806084526518,
+      "grad_norm": 0.9886214137077332,
+      "learning_rate": 6.313536890992935e-05,
+      "loss": 0.7256,
+      "step": 172
+    },
+    {
+      "epoch": 0.019936043329203998,
+      "grad_norm": 0.9550946354866028,
+      "learning_rate": 6.274632566950967e-05,
+      "loss": 0.7296,
+      "step": 173
+    },
+    {
+      "epoch": 0.020051280573881478,
+      "grad_norm": 1.1125203371047974,
+      "learning_rate": 6.235645533828349e-05,
+      "loss": 0.6658,
+      "step": 174
+    },
+    {
+      "epoch": 0.02016651781855896,
+      "grad_norm": 1.145430326461792,
+      "learning_rate": 6.19657832143779e-05,
+      "loss": 0.6213,
+      "step": 175
+    },
+    {
+      "epoch": 0.02028175506323644,
+      "grad_norm": 1.138908863067627,
+      "learning_rate": 6.157433464794716e-05,
+      "loss": 0.6373,
+      "step": 176
+    },
+    {
+      "epoch": 0.02039699230791392,
+      "grad_norm": 1.2511849403381348,
+      "learning_rate": 6.118213503952779e-05,
+      "loss": 0.6691,
+      "step": 177
+    },
+    {
+      "epoch": 0.020512229552591396,
+      "grad_norm": 1.3821207284927368,
+      "learning_rate": 6.078920983839031e-05,
+      "loss": 0.7503,
+      "step": 178
+    },
+    {
+      "epoch": 0.020627466797268876,
+      "grad_norm": 1.0743690729141235,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.6563,
+      "step": 179
+    },
+    {
+      "epoch": 0.020742704041946357,
+      "grad_norm": 0.9574199318885803,
+      "learning_rate": 6.0001284688802226e-05,
+      "loss": 0.613,
+      "step": 180
+    },
+    {
+      "epoch": 0.020857941286623837,
+      "grad_norm": 0.9797923564910889,
+      "learning_rate": 5.960633586768543e-05,
+      "loss": 0.4921,
+      "step": 181
+    },
+    {
+      "epoch": 0.020973178531301317,
+      "grad_norm": 1.0329078435897827,
+      "learning_rate": 5.921076370520058e-05,
+      "loss": 0.5424,
+      "step": 182
+    },
+    {
+      "epoch": 0.021088415775978798,
+      "grad_norm": 1.081237554550171,
+      "learning_rate": 5.8814593869458455e-05,
+      "loss": 0.593,
+      "step": 183
+    },
+    {
+      "epoch": 0.021203653020656275,
+      "grad_norm": 0.9744309782981873,
+      "learning_rate": 5.841785206735192e-05,
+      "loss": 0.6247,
+      "step": 184
+    },
+    {
+      "epoch": 0.021318890265333755,
+      "grad_norm": 0.9277073740959167,
+      "learning_rate": 5.8020564042888015e-05,
+      "loss": 0.5272,
+      "step": 185
+    },
+    {
+      "epoch": 0.021434127510011235,
+      "grad_norm": 0.9203082323074341,
+      "learning_rate": 5.762275557551727e-05,
+      "loss": 0.5604,
+      "step": 186
+    },
+    {
+      "epoch": 0.021549364754688716,
+      "grad_norm": 1.002752661705017,
+      "learning_rate": 5.7224452478461064e-05,
+      "loss": 0.6614,
+      "step": 187
+    },
+    {
+      "epoch": 0.021664601999366196,
+      "grad_norm": 1.1859053373336792,
+      "learning_rate": 5.682568059703659e-05,
+      "loss": 0.6258,
+      "step": 188
+    },
+    {
+      "epoch": 0.021779839244043676,
+      "grad_norm": 0.9486787915229797,
+      "learning_rate": 5.642646580697973e-05,
+      "loss": 0.5797,
+      "step": 189
+    },
+    {
+      "epoch": 0.021895076488721153,
+      "grad_norm": 1.088105320930481,
+      "learning_rate": 5.602683401276615e-05,
+      "loss": 0.5081,
+      "step": 190
+    },
+    {
+      "epoch": 0.022010313733398634,
+      "grad_norm": 1.0794477462768555,
+      "learning_rate": 5.562681114593028e-05,
+      "loss": 0.6171,
+      "step": 191
+    },
+    {
+      "epoch": 0.022125550978076114,
+      "grad_norm": 1.1164370775222778,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.604,
+      "step": 192
+    },
+    {
+      "epoch": 0.022240788222753594,
+      "grad_norm": 1.020864725112915,
+      "learning_rate": 5.482569604572576e-05,
+      "loss": 0.5079,
+      "step": 193
+    },
+    {
+      "epoch": 0.022356025467431075,
+      "grad_norm": 0.9936183094978333,
+      "learning_rate": 5.442465579556793e-05,
+      "loss": 0.5903,
+      "step": 194
+    },
+    {
+      "epoch": 0.022471262712108555,
+      "grad_norm": 1.3103758096694946,
+      "learning_rate": 5.402332843583631e-05,
+      "loss": 0.6436,
+      "step": 195
+    },
+    {
+      "epoch": 0.022586499956786032,
+      "grad_norm": 1.2461060285568237,
+      "learning_rate": 5.3621740008088126e-05,
+      "loss": 0.5836,
+      "step": 196
+    },
+    {
+      "epoch": 0.022701737201463512,
+      "grad_norm": 1.5536116361618042,
+      "learning_rate": 5.321991657082097e-05,
+      "loss": 0.5672,
+      "step": 197
+    },
+    {
+      "epoch": 0.022816974446140992,
+      "grad_norm": 1.3643299341201782,
+      "learning_rate": 5.281788419778187e-05,
+      "loss": 0.4866,
+      "step": 198
+    },
+    {
+      "epoch": 0.022932211690818473,
+      "grad_norm": 1.5207157135009766,
+      "learning_rate": 5.2415668976275355e-05,
+      "loss": 0.4737,
+      "step": 199
+    },
+    {
+      "epoch": 0.023047448935495953,
+      "grad_norm": 1.5689412355422974,
+      "learning_rate": 5.201329700547076e-05,
+      "loss": 0.4415,
+      "step": 200
+    },
+    {
+      "epoch": 0.023047448935495953,
+      "eval_loss": 0.608009397983551,
+      "eval_runtime": 545.5348,
+      "eval_samples_per_second": 26.79,
+      "eval_steps_per_second": 6.698,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.480842860606259e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null