Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d8d84d6799f2b8600857503facf9efc9d707b12ab9d349858785190ec83c7d3
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:58acdbaf2a95685c6722b6405b19372d905ef1fba6996d7695325050f3d72ea5
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc1863110faab83375fcee208fa1d72ba911899663ebb042e555ee2c5af572fe
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:a446132d7c31b956eaefc7388b38251641542ce8b95d74805e64fc306de2f523
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcc4528e89b8c13286b23ebd93ace19b89a25d694fb02d1cd006cd914385e472
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:48d730db741b952a021078a26f33d6e0bf86090f9b5ed7a694df4d03784c8b62
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ac116b8169c53ab649a7f15f2f32735f2c71ec2f803f70de8c655a513ee9cfc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5e1448282b30a66cf7be83aef18a251fdb6205c0184b42e99ae724602144bf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.169433355331421,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.27164685908319186,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1447,6 +1447,364 @@
       "eval_samples_per_second": 16.361,
       "eval_steps_per_second": 4.09,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1475,7 +1833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6109996434312397e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1618001461029053,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.3395585738539898,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.361,
       "eval_steps_per_second": 4.09,
       "step": 200
+    },
+    {
+      "epoch": 0.2730050933786078,
+      "grad_norm": 0.22767877578735352,
+      "learning_rate": 5.161079439470866e-05,
+      "loss": 1.2705,
+      "step": 201
+    },
+    {
+      "epoch": 0.27436332767402377,
+      "grad_norm": 0.23202009499073029,
+      "learning_rate": 5.1208187261806615e-05,
+      "loss": 1.1301,
+      "step": 202
+    },
+    {
+      "epoch": 0.27572156196943975,
+      "grad_norm": 0.2392009049654007,
+      "learning_rate": 5.080550173136457e-05,
+      "loss": 1.2333,
+      "step": 203
+    },
+    {
+      "epoch": 0.2770797962648557,
+      "grad_norm": 0.2345076948404312,
+      "learning_rate": 5.0402763933069496e-05,
+      "loss": 1.1608,
+      "step": 204
+    },
+    {
+      "epoch": 0.27843803056027167,
+      "grad_norm": 0.2247873842716217,
+      "learning_rate": 5e-05,
+      "loss": 1.1777,
+      "step": 205
+    },
+    {
+      "epoch": 0.2797962648556876,
+      "grad_norm": 0.22494539618492126,
+      "learning_rate": 4.9597236066930516e-05,
+      "loss": 1.2278,
+      "step": 206
+    },
+    {
+      "epoch": 0.2811544991511036,
+      "grad_norm": 0.20997026562690735,
+      "learning_rate": 4.919449826863544e-05,
+      "loss": 1.1539,
+      "step": 207
+    },
+    {
+      "epoch": 0.2825127334465195,
+      "grad_norm": 0.20957647264003754,
+      "learning_rate": 4.87918127381934e-05,
+      "loss": 1.1532,
+      "step": 208
+    },
+    {
+      "epoch": 0.2838709677419355,
+      "grad_norm": 0.21663248538970947,
+      "learning_rate": 4.8389205605291365e-05,
+      "loss": 1.2097,
+      "step": 209
+    },
+    {
+      "epoch": 0.28522920203735147,
+      "grad_norm": 0.2205830067396164,
+      "learning_rate": 4.798670299452926e-05,
+      "loss": 1.1235,
+      "step": 210
+    },
+    {
+      "epoch": 0.2865874363327674,
+      "grad_norm": 0.21743406355381012,
+      "learning_rate": 4.758433102372466e-05,
+      "loss": 1.0935,
+      "step": 211
+    },
+    {
+      "epoch": 0.2879456706281834,
+      "grad_norm": 0.21099945902824402,
+      "learning_rate": 4.7182115802218126e-05,
+      "loss": 1.2179,
+      "step": 212
+    },
+    {
+      "epoch": 0.2893039049235993,
+      "grad_norm": 0.2079070806503296,
+      "learning_rate": 4.678008342917903e-05,
+      "loss": 1.1754,
+      "step": 213
+    },
+    {
+      "epoch": 0.2906621392190153,
+      "grad_norm": 0.2137642800807953,
+      "learning_rate": 4.6378259991911886e-05,
+      "loss": 1.2339,
+      "step": 214
+    },
+    {
+      "epoch": 0.2920203735144312,
+      "grad_norm": 0.22139067947864532,
+      "learning_rate": 4.597667156416371e-05,
+      "loss": 1.0929,
+      "step": 215
+    },
+    {
+      "epoch": 0.2933786078098472,
+      "grad_norm": 0.21825869381427765,
+      "learning_rate": 4.5575344204432084e-05,
+      "loss": 1.1509,
+      "step": 216
+    },
+    {
+      "epoch": 0.29473684210526313,
+      "grad_norm": 0.217268168926239,
+      "learning_rate": 4.5174303954274244e-05,
+      "loss": 1.1935,
+      "step": 217
+    },
+    {
+      "epoch": 0.2960950764006791,
+      "grad_norm": 0.21918080747127533,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.1205,
+      "step": 218
+    },
+    {
+      "epoch": 0.2974533106960951,
+      "grad_norm": 0.21873408555984497,
+      "learning_rate": 4.437318885406973e-05,
+      "loss": 1.0912,
+      "step": 219
+    },
+    {
+      "epoch": 0.298811544991511,
+      "grad_norm": 0.22883340716362,
+      "learning_rate": 4.397316598723385e-05,
+      "loss": 1.1726,
+      "step": 220
+    },
+    {
+      "epoch": 0.300169779286927,
+      "grad_norm": 0.22588761150836945,
+      "learning_rate": 4.3573534193020274e-05,
+      "loss": 1.1836,
+      "step": 221
+    },
+    {
+      "epoch": 0.30152801358234294,
+      "grad_norm": 0.22106902301311493,
+      "learning_rate": 4.317431940296343e-05,
+      "loss": 1.1351,
+      "step": 222
+    },
+    {
+      "epoch": 0.3028862478777589,
+      "grad_norm": 0.22283874452114105,
+      "learning_rate": 4.277554752153895e-05,
+      "loss": 1.1228,
+      "step": 223
+    },
+    {
+      "epoch": 0.30424448217317485,
+      "grad_norm": 0.21989330649375916,
+      "learning_rate": 4.237724442448273e-05,
+      "loss": 1.1015,
+      "step": 224
+    },
+    {
+      "epoch": 0.30560271646859083,
+      "grad_norm": 0.2293674349784851,
+      "learning_rate": 4.197943595711198e-05,
+      "loss": 1.1147,
+      "step": 225
+    },
+    {
+      "epoch": 0.3069609507640068,
+      "grad_norm": 0.2231401950120926,
+      "learning_rate": 4.1582147932648074e-05,
+      "loss": 1.1674,
+      "step": 226
+    },
+    {
+      "epoch": 0.30831918505942274,
+      "grad_norm": 0.2178943008184433,
+      "learning_rate": 4.118540613054156e-05,
+      "loss": 1.1364,
+      "step": 227
+    },
+    {
+      "epoch": 0.3096774193548387,
+      "grad_norm": 0.22939598560333252,
+      "learning_rate": 4.078923629479943e-05,
+      "loss": 1.0993,
+      "step": 228
+    },
+    {
+      "epoch": 0.31103565365025465,
+      "grad_norm": 0.22620512545108795,
+      "learning_rate": 4.039366413231458e-05,
+      "loss": 1.1105,
+      "step": 229
+    },
+    {
+      "epoch": 0.31239388794567063,
+      "grad_norm": 0.23713254928588867,
+      "learning_rate": 3.9998715311197785e-05,
+      "loss": 1.1572,
+      "step": 230
+    },
+    {
+      "epoch": 0.31375212224108656,
+      "grad_norm": 0.23715730011463165,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.1551,
+      "step": 231
+    },
+    {
+      "epoch": 0.31511035653650254,
+      "grad_norm": 0.2342255711555481,
+      "learning_rate": 3.92107901616097e-05,
+      "loss": 1.1296,
+      "step": 232
+    },
+    {
+      "epoch": 0.31646859083191853,
+      "grad_norm": 0.2432532161474228,
+      "learning_rate": 3.8817864960472236e-05,
+      "loss": 1.1381,
+      "step": 233
+    },
+    {
+      "epoch": 0.31782682512733446,
+      "grad_norm": 0.23796603083610535,
+      "learning_rate": 3.842566535205286e-05,
+      "loss": 1.1609,
+      "step": 234
+    },
+    {
+      "epoch": 0.31918505942275044,
+      "grad_norm": 0.23435711860656738,
+      "learning_rate": 3.803421678562213e-05,
+      "loss": 1.2078,
+      "step": 235
+    },
+    {
+      "epoch": 0.32054329371816637,
+      "grad_norm": 0.23656964302062988,
+      "learning_rate": 3.764354466171652e-05,
+      "loss": 1.1346,
+      "step": 236
+    },
+    {
+      "epoch": 0.32190152801358235,
+      "grad_norm": 0.24362805485725403,
+      "learning_rate": 3.725367433049033e-05,
+      "loss": 1.1695,
+      "step": 237
+    },
+    {
+      "epoch": 0.3232597623089983,
+      "grad_norm": 0.2416103184223175,
+      "learning_rate": 3.6864631090070655e-05,
+      "loss": 1.1603,
+      "step": 238
+    },
+    {
+      "epoch": 0.32461799660441426,
+      "grad_norm": 0.2516671121120453,
+      "learning_rate": 3.6476440184915815e-05,
+      "loss": 1.1832,
+      "step": 239
+    },
+    {
+      "epoch": 0.32597623089983024,
+      "grad_norm": 0.25407183170318604,
+      "learning_rate": 3.608912680417737e-05,
+      "loss": 1.1619,
+      "step": 240
+    },
+    {
+      "epoch": 0.32733446519524617,
+      "grad_norm": 0.24797658622264862,
+      "learning_rate": 3.570271608006555e-05,
+      "loss": 1.1321,
+      "step": 241
+    },
+    {
+      "epoch": 0.32869269949066215,
+      "grad_norm": 0.26799654960632324,
+      "learning_rate": 3.531723308621847e-05,
+      "loss": 1.2035,
+      "step": 242
+    },
+    {
+      "epoch": 0.3300509337860781,
+      "grad_norm": 0.27492526173591614,
+      "learning_rate": 3.493270283607522e-05,
+      "loss": 1.171,
+      "step": 243
+    },
+    {
+      "epoch": 0.33140916808149407,
+      "grad_norm": 0.2613578736782074,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.1238,
+      "step": 244
+    },
+    {
+      "epoch": 0.33276740237691,
+      "grad_norm": 0.28807345032691956,
+      "learning_rate": 3.4166600309926387e-05,
+      "loss": 1.1153,
+      "step": 245
+    },
+    {
+      "epoch": 0.334125636672326,
+      "grad_norm": 0.28468626737594604,
+      "learning_rate": 3.3785077745215873e-05,
+      "loss": 1.1984,
+      "step": 246
+    },
+    {
+      "epoch": 0.33548387096774196,
+      "grad_norm": 0.28014445304870605,
+      "learning_rate": 3.340460734357359e-05,
+      "loss": 1.1793,
+      "step": 247
+    },
+    {
+      "epoch": 0.3368421052631579,
+      "grad_norm": 0.2991635203361511,
+      "learning_rate": 3.3025213793178646e-05,
+      "loss": 1.1491,
+      "step": 248
+    },
+    {
+      "epoch": 0.33820033955857387,
+      "grad_norm": 0.34155353903770447,
+      "learning_rate": 3.264692171233485e-05,
+      "loss": 1.1472,
+      "step": 249
+    },
+    {
+      "epoch": 0.3395585738539898,
+      "grad_norm": 0.39328497648239136,
+      "learning_rate": 3.226975564787322e-05,
+      "loss": 1.1768,
+      "step": 250
+    },
+    {
+      "epoch": 0.3395585738539898,
+      "eval_loss": 1.1618001461029053,
+      "eval_runtime": 75.9188,
+      "eval_samples_per_second": 16.333,
+      "eval_steps_per_second": 4.083,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0123162805849293e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null