Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:109decc79381bd4a2f43d770dbba7a5a0202b716eb51975dcdda2fc522b915e6
 size 871457448

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6285a33ebda437688ad29cd8f7e7a0a8915f402bc03986dda38a056a9cb46a6
 size 871457448

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6854b1efaf6b1339ba99a7a524ec5649dd17806c785851c40fdabe08bd5224ae
 size 443280340

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f0ea8696cd3edf4e39ecc3cd9695d87f4cea364b87824da66c54dfcdcb11d36
 size 443280340

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd5dd7e829a1c23e4a8d6d91b99a4595ed3becf3d57bd240b5a9f50971e4761d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e5a201eb618587b99b3c99ba89ac3c2bd3332adfe0182f6b71d70e4afb55c99
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac116b8169c53ab649a7f15f2f32735f2c71ec2f803f70de8c655a513ee9cfc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.38091349601745605,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.12317799219872716,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 7.047,
       "eval_steps_per_second": 1.763,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1117,7 +1475,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.6081050741230797e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3369649350643158,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.1642373229316362,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.047,
       "eval_steps_per_second": 1.763,
       "step": 150
+    },
+    {
+      "epoch": 0.12399917881338535,
+      "grad_norm": 1.2095229625701904,
+      "learning_rate": 7.107005538862646e-05,
+      "loss": 0.4237,
+      "step": 151
+    },
+    {
+      "epoch": 0.12482036542804352,
+      "grad_norm": 1.172702670097351,
+      "learning_rate": 7.07041155014006e-05,
+      "loss": 0.351,
+      "step": 152
+    },
+    {
+      "epoch": 0.1256415520427017,
+      "grad_norm": 1.0826219320297241,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.3055,
+      "step": 153
+    },
+    {
+      "epoch": 0.12646273865735988,
+      "grad_norm": 0.3956534266471863,
+      "learning_rate": 6.996822917828477e-05,
+      "loss": 0.2814,
+      "step": 154
+    },
+    {
+      "epoch": 0.12728392527201807,
+      "grad_norm": 0.26742252707481384,
+      "learning_rate": 6.959833049300377e-05,
+      "loss": 0.2178,
+      "step": 155
+    },
+    {
+      "epoch": 0.12810511188667625,
+      "grad_norm": 0.2690823972225189,
+      "learning_rate": 6.922716010014255e-05,
+      "loss": 0.2396,
+      "step": 156
+    },
+    {
+      "epoch": 0.12892629850133444,
+      "grad_norm": 0.3007110357284546,
+      "learning_rate": 6.885474208441603e-05,
+      "loss": 0.2573,
+      "step": 157
+    },
+    {
+      "epoch": 0.1297474851159926,
+      "grad_norm": 0.27441394329071045,
+      "learning_rate": 6.848110061149556e-05,
+      "loss": 0.2418,
+      "step": 158
+    },
+    {
+      "epoch": 0.1305686717306508,
+      "grad_norm": 0.3037412166595459,
+      "learning_rate": 6.810625992644085e-05,
+      "loss": 0.2762,
+      "step": 159
+    },
+    {
+      "epoch": 0.13138985834530897,
+      "grad_norm": 0.31967610120773315,
+      "learning_rate": 6.773024435212678e-05,
+      "loss": 0.2674,
+      "step": 160
+    },
+    {
+      "epoch": 0.13221104495996716,
+      "grad_norm": 0.2789151668548584,
+      "learning_rate": 6.735307828766515e-05,
+      "loss": 0.254,
+      "step": 161
+    },
+    {
+      "epoch": 0.13303223157462532,
+      "grad_norm": 0.3466937839984894,
+      "learning_rate": 6.697478620682137e-05,
+      "loss": 0.2806,
+      "step": 162
+    },
+    {
+      "epoch": 0.1338534181892835,
+      "grad_norm": 0.31567007303237915,
+      "learning_rate": 6.659539265642643e-05,
+      "loss": 0.2611,
+      "step": 163
+    },
+    {
+      "epoch": 0.1346746048039417,
+      "grad_norm": 0.3090943992137909,
+      "learning_rate": 6.621492225478414e-05,
+      "loss": 0.2634,
+      "step": 164
+    },
+    {
+      "epoch": 0.13549579141859988,
+      "grad_norm": 0.30518144369125366,
+      "learning_rate": 6.583339969007363e-05,
+      "loss": 0.2314,
+      "step": 165
+    },
+    {
+      "epoch": 0.13631697803325807,
+      "grad_norm": 0.32459190487861633,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.2531,
+      "step": 166
+    },
+    {
+      "epoch": 0.13713816464791623,
+      "grad_norm": 0.3627863824367523,
+      "learning_rate": 6.506729716392481e-05,
+      "loss": 0.2555,
+      "step": 167
+    },
+    {
+      "epoch": 0.13795935126257441,
+      "grad_norm": 0.44058528542518616,
+      "learning_rate": 6.468276691378155e-05,
+      "loss": 0.2623,
+      "step": 168
+    },
+    {
+      "epoch": 0.1387805378772326,
+      "grad_norm": 0.43444401025772095,
+      "learning_rate": 6.429728391993446e-05,
+      "loss": 0.2796,
+      "step": 169
+    },
+    {
+      "epoch": 0.1396017244918908,
+      "grad_norm": 0.3341348469257355,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 0.2392,
+      "step": 170
+    },
+    {
+      "epoch": 0.14042291110654898,
+      "grad_norm": 0.339946448802948,
+      "learning_rate": 6.35235598150842e-05,
+      "loss": 0.2923,
+      "step": 171
+    },
+    {
+      "epoch": 0.14124409772120713,
+      "grad_norm": 0.308361291885376,
+      "learning_rate": 6.313536890992935e-05,
+      "loss": 0.2172,
+      "step": 172
+    },
+    {
+      "epoch": 0.14206528433586532,
+      "grad_norm": 0.36301669478416443,
+      "learning_rate": 6.274632566950967e-05,
+      "loss": 0.2436,
+      "step": 173
+    },
+    {
+      "epoch": 0.1428864709505235,
+      "grad_norm": 0.37350887060165405,
+      "learning_rate": 6.235645533828349e-05,
+      "loss": 0.2499,
+      "step": 174
+    },
+    {
+      "epoch": 0.1437076575651817,
+      "grad_norm": 0.33035343885421753,
+      "learning_rate": 6.19657832143779e-05,
+      "loss": 0.2233,
+      "step": 175
+    },
+    {
+      "epoch": 0.14452884417983985,
+      "grad_norm": 0.3460734486579895,
+      "learning_rate": 6.157433464794716e-05,
+      "loss": 0.238,
+      "step": 176
+    },
+    {
+      "epoch": 0.14535003079449804,
+      "grad_norm": 0.3977898359298706,
+      "learning_rate": 6.118213503952779e-05,
+      "loss": 0.2669,
+      "step": 177
+    },
+    {
+      "epoch": 0.14617121740915623,
+      "grad_norm": 0.442679226398468,
+      "learning_rate": 6.078920983839031e-05,
+      "loss": 0.2615,
+      "step": 178
+    },
+    {
+      "epoch": 0.14699240402381442,
+      "grad_norm": 0.3600601553916931,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.2502,
+      "step": 179
+    },
+    {
+      "epoch": 0.1478135906384726,
+      "grad_norm": 0.3798171877861023,
+      "learning_rate": 6.0001284688802226e-05,
+      "loss": 0.2574,
+      "step": 180
+    },
+    {
+      "epoch": 0.14863477725313076,
+      "grad_norm": 0.3883853256702423,
+      "learning_rate": 5.960633586768543e-05,
+      "loss": 0.2288,
+      "step": 181
+    },
+    {
+      "epoch": 0.14945596386778895,
+      "grad_norm": 0.48229384422302246,
+      "learning_rate": 5.921076370520058e-05,
+      "loss": 0.313,
+      "step": 182
+    },
+    {
+      "epoch": 0.15027715048244714,
+      "grad_norm": 0.43548011779785156,
+      "learning_rate": 5.8814593869458455e-05,
+      "loss": 0.2908,
+      "step": 183
+    },
+    {
+      "epoch": 0.15109833709710532,
+      "grad_norm": 0.4758455455303192,
+      "learning_rate": 5.841785206735192e-05,
+      "loss": 0.2527,
+      "step": 184
+    },
+    {
+      "epoch": 0.1519195237117635,
+      "grad_norm": 0.38382488489151,
+      "learning_rate": 5.8020564042888015e-05,
+      "loss": 0.2506,
+      "step": 185
+    },
+    {
+      "epoch": 0.15274071032642167,
+      "grad_norm": 0.4354500472545624,
+      "learning_rate": 5.762275557551727e-05,
+      "loss": 0.2753,
+      "step": 186
+    },
+    {
+      "epoch": 0.15356189694107986,
+      "grad_norm": 0.4720785319805145,
+      "learning_rate": 5.7224452478461064e-05,
+      "loss": 0.2799,
+      "step": 187
+    },
+    {
+      "epoch": 0.15438308355573804,
+      "grad_norm": 0.44493159651756287,
+      "learning_rate": 5.682568059703659e-05,
+      "loss": 0.2565,
+      "step": 188
+    },
+    {
+      "epoch": 0.15520427017039623,
+      "grad_norm": 0.430894136428833,
+      "learning_rate": 5.642646580697973e-05,
+      "loss": 0.2542,
+      "step": 189
+    },
+    {
+      "epoch": 0.15602545678505442,
+      "grad_norm": 0.4223925769329071,
+      "learning_rate": 5.602683401276615e-05,
+      "loss": 0.2331,
+      "step": 190
+    },
+    {
+      "epoch": 0.15684664339971258,
+      "grad_norm": 0.44736889004707336,
+      "learning_rate": 5.562681114593028e-05,
+      "loss": 0.2476,
+      "step": 191
+    },
+    {
+      "epoch": 0.15766783001437076,
+      "grad_norm": 0.5344662666320801,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.3117,
+      "step": 192
+    },
+    {
+      "epoch": 0.15848901662902895,
+      "grad_norm": 0.4708305895328522,
+      "learning_rate": 5.482569604572576e-05,
+      "loss": 0.213,
+      "step": 193
+    },
+    {
+      "epoch": 0.15931020324368714,
+      "grad_norm": 0.5267696976661682,
+      "learning_rate": 5.442465579556793e-05,
+      "loss": 0.2536,
+      "step": 194
+    },
+    {
+      "epoch": 0.1601313898583453,
+      "grad_norm": 0.5681753754615784,
+      "learning_rate": 5.402332843583631e-05,
+      "loss": 0.3035,
+      "step": 195
+    },
+    {
+      "epoch": 0.16095257647300348,
+      "grad_norm": 0.6239408850669861,
+      "learning_rate": 5.3621740008088126e-05,
+      "loss": 0.3042,
+      "step": 196
+    },
+    {
+      "epoch": 0.16177376308766167,
+      "grad_norm": 0.5667141079902649,
+      "learning_rate": 5.321991657082097e-05,
+      "loss": 0.2375,
+      "step": 197
+    },
+    {
+      "epoch": 0.16259494970231986,
+      "grad_norm": 0.6225094795227051,
+      "learning_rate": 5.281788419778187e-05,
+      "loss": 0.2812,
+      "step": 198
+    },
+    {
+      "epoch": 0.16341613631697804,
+      "grad_norm": 0.8053914904594421,
+      "learning_rate": 5.2415668976275355e-05,
+      "loss": 0.2652,
+      "step": 199
+    },
+    {
+      "epoch": 0.1642373229316362,
+      "grad_norm": 0.7740500569343567,
+      "learning_rate": 5.201329700547076e-05,
+      "loss": 0.3169,
+      "step": 200
+    },
+    {
+      "epoch": 0.1642373229316362,
+      "eval_loss": 0.3369649350643158,
+      "eval_runtime": 290.8356,
+      "eval_samples_per_second": 7.052,
+      "eval_steps_per_second": 1.764,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.4760340805779456e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null