Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c53e4ae42fc71afeafa6c5e9aef6857d6c5d4c2bb2caca0974f1dba7fe1042c
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:126f4393fa4a6094e7fea5464418e519fbdfb718a160aba81c7597935f2fc1c7
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b1f91ffb23437c77571b3aa6c9c2fedc1eedc282743adf77f51c38a5215c6c3
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:e462264687018ece9257d0b0792529505e101ab6262d9de75004440bb35f59d7
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbf3f109f2c8b3509acbc53a068bd731f53464fcd6c5e259832b63851c7d422a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d859f9cf7c22d0ae8676fc22bec1276b1c49d06ba5fdef732e833e9fe86c8c08
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac116b8169c53ab649a7f15f2f32735f2c71ec2f803f70de8c655a513ee9cfc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6191428303718567,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.16877637130801687,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 12.19,
       "eval_steps_per_second": 3.054,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1117,7 +1475,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.4060791580996403e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6018708348274231,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.2250351617440225,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.19,
       "eval_steps_per_second": 3.054,
       "step": 150
+    },
+    {
+      "epoch": 0.169901547116737,
+      "grad_norm": 0.22611109912395477,
+      "learning_rate": 7.107005538862646e-05,
+      "loss": 0.3608,
+      "step": 151
+    },
+    {
+      "epoch": 0.1710267229254571,
+      "grad_norm": 0.2486761510372162,
+      "learning_rate": 7.07041155014006e-05,
+      "loss": 0.4149,
+      "step": 152
+    },
+    {
+      "epoch": 0.17215189873417722,
+      "grad_norm": 0.22183437645435333,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.4472,
+      "step": 153
+    },
+    {
+      "epoch": 0.17327707454289734,
+      "grad_norm": 0.24657611548900604,
+      "learning_rate": 6.996822917828477e-05,
+      "loss": 0.5571,
+      "step": 154
+    },
+    {
+      "epoch": 0.17440225035161744,
+      "grad_norm": 0.22693145275115967,
+      "learning_rate": 6.959833049300377e-05,
+      "loss": 0.5807,
+      "step": 155
+    },
+    {
+      "epoch": 0.17552742616033756,
+      "grad_norm": 0.22520385682582855,
+      "learning_rate": 6.922716010014255e-05,
+      "loss": 0.5593,
+      "step": 156
+    },
+    {
+      "epoch": 0.17665260196905766,
+      "grad_norm": 0.24080556631088257,
+      "learning_rate": 6.885474208441603e-05,
+      "loss": 0.6988,
+      "step": 157
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 0.23336027562618256,
+      "learning_rate": 6.848110061149556e-05,
+      "loss": 0.6938,
+      "step": 158
+    },
+    {
+      "epoch": 0.17890295358649788,
+      "grad_norm": 0.24269425868988037,
+      "learning_rate": 6.810625992644085e-05,
+      "loss": 0.6492,
+      "step": 159
+    },
+    {
+      "epoch": 0.180028129395218,
+      "grad_norm": 0.257687509059906,
+      "learning_rate": 6.773024435212678e-05,
+      "loss": 0.7288,
+      "step": 160
+    },
+    {
+      "epoch": 0.1811533052039381,
+      "grad_norm": 0.24201682209968567,
+      "learning_rate": 6.735307828766515e-05,
+      "loss": 0.7097,
+      "step": 161
+    },
+    {
+      "epoch": 0.18227848101265823,
+      "grad_norm": 0.2506401538848877,
+      "learning_rate": 6.697478620682137e-05,
+      "loss": 0.7142,
+      "step": 162
+    },
+    {
+      "epoch": 0.18340365682137835,
+      "grad_norm": 0.2325735092163086,
+      "learning_rate": 6.659539265642643e-05,
+      "loss": 0.6644,
+      "step": 163
+    },
+    {
+      "epoch": 0.18452883263009845,
+      "grad_norm": 0.2502652704715729,
+      "learning_rate": 6.621492225478414e-05,
+      "loss": 0.7367,
+      "step": 164
+    },
+    {
+      "epoch": 0.18565400843881857,
+      "grad_norm": 0.2414039522409439,
+      "learning_rate": 6.583339969007363e-05,
+      "loss": 0.7728,
+      "step": 165
+    },
+    {
+      "epoch": 0.18677918424753867,
+      "grad_norm": 0.2699027359485626,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.8384,
+      "step": 166
+    },
+    {
+      "epoch": 0.1879043600562588,
+      "grad_norm": 0.2658804655075073,
+      "learning_rate": 6.506729716392481e-05,
+      "loss": 0.8469,
+      "step": 167
+    },
+    {
+      "epoch": 0.1890295358649789,
+      "grad_norm": 0.25071781873703003,
+      "learning_rate": 6.468276691378155e-05,
+      "loss": 0.6885,
+      "step": 168
+    },
+    {
+      "epoch": 0.19015471167369902,
+      "grad_norm": 0.2700413763523102,
+      "learning_rate": 6.429728391993446e-05,
+      "loss": 0.825,
+      "step": 169
+    },
+    {
+      "epoch": 0.19127988748241911,
+      "grad_norm": 0.27662935853004456,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 0.8351,
+      "step": 170
+    },
+    {
+      "epoch": 0.19240506329113924,
+      "grad_norm": 0.26488763093948364,
+      "learning_rate": 6.35235598150842e-05,
+      "loss": 0.7827,
+      "step": 171
+    },
+    {
+      "epoch": 0.19353023909985936,
+      "grad_norm": 0.2654742896556854,
+      "learning_rate": 6.313536890992935e-05,
+      "loss": 0.8177,
+      "step": 172
+    },
+    {
+      "epoch": 0.19465541490857946,
+      "grad_norm": 0.2809375822544098,
+      "learning_rate": 6.274632566950967e-05,
+      "loss": 0.8218,
+      "step": 173
+    },
+    {
+      "epoch": 0.19578059071729959,
+      "grad_norm": 0.26899024844169617,
+      "learning_rate": 6.235645533828349e-05,
+      "loss": 0.7878,
+      "step": 174
+    },
+    {
+      "epoch": 0.19690576652601968,
+      "grad_norm": 0.2818717062473297,
+      "learning_rate": 6.19657832143779e-05,
+      "loss": 0.785,
+      "step": 175
+    },
+    {
+      "epoch": 0.1980309423347398,
+      "grad_norm": 0.3077673316001892,
+      "learning_rate": 6.157433464794716e-05,
+      "loss": 0.8369,
+      "step": 176
+    },
+    {
+      "epoch": 0.1991561181434599,
+      "grad_norm": 0.277925580739975,
+      "learning_rate": 6.118213503952779e-05,
+      "loss": 0.6012,
+      "step": 177
+    },
+    {
+      "epoch": 0.20028129395218003,
+      "grad_norm": 0.28356897830963135,
+      "learning_rate": 6.078920983839031e-05,
+      "loss": 0.7352,
+      "step": 178
+    },
+    {
+      "epoch": 0.20140646976090015,
+      "grad_norm": 0.2859312891960144,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.719,
+      "step": 179
+    },
+    {
+      "epoch": 0.20253164556962025,
+      "grad_norm": 0.31765639781951904,
+      "learning_rate": 6.0001284688802226e-05,
+      "loss": 0.8586,
+      "step": 180
+    },
+    {
+      "epoch": 0.20365682137834037,
+      "grad_norm": 0.2968887984752655,
+      "learning_rate": 5.960633586768543e-05,
+      "loss": 0.6802,
+      "step": 181
+    },
+    {
+      "epoch": 0.20478199718706047,
+      "grad_norm": 0.294272780418396,
+      "learning_rate": 5.921076370520058e-05,
+      "loss": 0.6895,
+      "step": 182
+    },
+    {
+      "epoch": 0.2059071729957806,
+      "grad_norm": 0.3082694709300995,
+      "learning_rate": 5.8814593869458455e-05,
+      "loss": 0.7071,
+      "step": 183
+    },
+    {
+      "epoch": 0.2070323488045007,
+      "grad_norm": 0.3072359561920166,
+      "learning_rate": 5.841785206735192e-05,
+      "loss": 0.6542,
+      "step": 184
+    },
+    {
+      "epoch": 0.20815752461322082,
+      "grad_norm": 0.28556135296821594,
+      "learning_rate": 5.8020564042888015e-05,
+      "loss": 0.5641,
+      "step": 185
+    },
+    {
+      "epoch": 0.20928270042194091,
+      "grad_norm": 0.3505888283252716,
+      "learning_rate": 5.762275557551727e-05,
+      "loss": 0.8211,
+      "step": 186
+    },
+    {
+      "epoch": 0.21040787623066104,
+      "grad_norm": 0.3167312443256378,
+      "learning_rate": 5.7224452478461064e-05,
+      "loss": 0.5715,
+      "step": 187
+    },
+    {
+      "epoch": 0.21153305203938116,
+      "grad_norm": 0.30357834696769714,
+      "learning_rate": 5.682568059703659e-05,
+      "loss": 0.5422,
+      "step": 188
+    },
+    {
+      "epoch": 0.21265822784810126,
+      "grad_norm": 0.28745442628860474,
+      "learning_rate": 5.642646580697973e-05,
+      "loss": 0.3673,
+      "step": 189
+    },
+    {
+      "epoch": 0.21378340365682139,
+      "grad_norm": 0.32116490602493286,
+      "learning_rate": 5.602683401276615e-05,
+      "loss": 0.4719,
+      "step": 190
+    },
+    {
+      "epoch": 0.21490857946554148,
+      "grad_norm": 0.31803691387176514,
+      "learning_rate": 5.562681114593028e-05,
+      "loss": 0.4755,
+      "step": 191
+    },
+    {
+      "epoch": 0.2160337552742616,
+      "grad_norm": 0.3275885283946991,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.4121,
+      "step": 192
+    },
+    {
+      "epoch": 0.2171589310829817,
+      "grad_norm": 0.3217777907848358,
+      "learning_rate": 5.482569604572576e-05,
+      "loss": 0.3525,
+      "step": 193
+    },
+    {
+      "epoch": 0.21828410689170183,
+      "grad_norm": 0.33562275767326355,
+      "learning_rate": 5.442465579556793e-05,
+      "loss": 0.3489,
+      "step": 194
+    },
+    {
+      "epoch": 0.21940928270042195,
+      "grad_norm": 0.3709050416946411,
+      "learning_rate": 5.402332843583631e-05,
+      "loss": 0.4602,
+      "step": 195
+    },
+    {
+      "epoch": 0.22053445850914205,
+      "grad_norm": 0.3461264371871948,
+      "learning_rate": 5.3621740008088126e-05,
+      "loss": 0.3244,
+      "step": 196
+    },
+    {
+      "epoch": 0.22165963431786218,
+      "grad_norm": 0.40534359216690063,
+      "learning_rate": 5.321991657082097e-05,
+      "loss": 0.4012,
+      "step": 197
+    },
+    {
+      "epoch": 0.22278481012658227,
+      "grad_norm": 0.425788015127182,
+      "learning_rate": 5.281788419778187e-05,
+      "loss": 0.3741,
+      "step": 198
+    },
+    {
+      "epoch": 0.2239099859353024,
+      "grad_norm": 0.47200363874435425,
+      "learning_rate": 5.2415668976275355e-05,
+      "loss": 0.3717,
+      "step": 199
+    },
+    {
+      "epoch": 0.2250351617440225,
+      "grad_norm": 0.5842266082763672,
+      "learning_rate": 5.201329700547076e-05,
+      "loss": 0.4174,
+      "step": 200
+    },
+    {
+      "epoch": 0.2250351617440225,
+      "eval_loss": 0.6018708348274231,
+      "eval_runtime": 122.7147,
+      "eval_samples_per_second": 12.199,
+      "eval_steps_per_second": 3.056,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.205591354834944e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null