Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:117259cb3fc6804bd889ac65ef97428a5c7830dc01697fd956395e6df21f8f60
 size 332316480

 version https://git-lfs.github.com/spec/v1
+oid sha256:1358177e76c4b440f4b2a850ea72d85bc15dca5128a0f7ab0dd5eed189b75b16
 size 332316480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99e35d970867e48a1a1aa4ae3f3b0ae567dc712729838e9525ba1751820e80fb
 size 169157892

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dd856a296a549422dedf8c90adebef2cd0901c74ed38e5e6976b73937ee3dc6
 size 169157892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d95d570b1555bed6fd23c27c2b0e63c20cd97da4efdbbbd611cf93d3c2adec2d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9918b7bcbbe1cf42dfa31a9c14f98aeb098d32eb3dd21aa5cc697d84c9b7d1ba
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d164cb33143023597af9a0370f1d21e4b6a5e95629071dcef2f381995455b18
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae143a1b3a6f3911d7de6f885a33334066ae6c29ef03002bdce21e41331f97e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.9860224723815918,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 1.702127659574468,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 22.217,
       "eval_steps_per_second": 5.61,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.14368026066944e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.9860224723815918,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 2.5531914893617023,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.217,
       "eval_steps_per_second": 5.61,
       "step": 100
+    },
+    {
+      "epoch": 1.7191489361702128,
+      "grad_norm": 1.557518720626831,
+      "learning_rate": 4.29689068767551e-05,
+      "loss": 0.4448,
+      "step": 101
+    },
+    {
+      "epoch": 1.7361702127659573,
+      "grad_norm": 1.330199122428894,
+      "learning_rate": 4.203895562844789e-05,
+      "loss": 0.6906,
+      "step": 102
+    },
+    {
+      "epoch": 1.753191489361702,
+      "grad_norm": 1.3650050163269043,
+      "learning_rate": 4.1111821621398446e-05,
+      "loss": 0.572,
+      "step": 103
+    },
+    {
+      "epoch": 1.7702127659574467,
+      "grad_norm": 1.286249041557312,
+      "learning_rate": 4.0187832948260705e-05,
+      "loss": 0.5293,
+      "step": 104
+    },
+    {
+      "epoch": 1.7872340425531914,
+      "grad_norm": 1.4000760316848755,
+      "learning_rate": 3.926731658862307e-05,
+      "loss": 0.5973,
+      "step": 105
+    },
+    {
+      "epoch": 1.804255319148936,
+      "grad_norm": 1.450547456741333,
+      "learning_rate": 3.835059829329735e-05,
+      "loss": 0.5751,
+      "step": 106
+    },
+    {
+      "epoch": 1.8212765957446808,
+      "grad_norm": 1.4450291395187378,
+      "learning_rate": 3.7438002469042565e-05,
+      "loss": 0.49,
+      "step": 107
+    },
+    {
+      "epoch": 1.8382978723404255,
+      "grad_norm": 1.4160994291305542,
+      "learning_rate": 3.6529852063764545e-05,
+      "loss": 0.5344,
+      "step": 108
+    },
+    {
+      "epoch": 1.8553191489361702,
+      "grad_norm": 1.4834502935409546,
+      "learning_rate": 3.562646845223153e-05,
+      "loss": 0.5433,
+      "step": 109
+    },
+    {
+      "epoch": 1.872340425531915,
+      "grad_norm": 1.3811678886413574,
+      "learning_rate": 3.4728171322346694e-05,
+      "loss": 0.4107,
+      "step": 110
+    },
+    {
+      "epoch": 1.8893617021276596,
+      "grad_norm": 1.3840794563293457,
+      "learning_rate": 3.38352785620174e-05,
+      "loss": 0.4713,
+      "step": 111
+    },
+    {
+      "epoch": 1.9063829787234043,
+      "grad_norm": 1.5129518508911133,
+      "learning_rate": 3.29481061466617e-05,
+      "loss": 0.4653,
+      "step": 112
+    },
+    {
+      "epoch": 1.923404255319149,
+      "grad_norm": 1.569916009902954,
+      "learning_rate": 3.2066968027391374e-05,
+      "loss": 0.3947,
+      "step": 113
+    },
+    {
+      "epoch": 1.9404255319148938,
+      "grad_norm": 1.7366918325424194,
+      "learning_rate": 3.119217601991139e-05,
+      "loss": 0.3459,
+      "step": 114
+    },
+    {
+      "epoch": 1.9574468085106385,
+      "grad_norm": 1.6125799417495728,
+      "learning_rate": 3.0324039694175233e-05,
+      "loss": 0.3711,
+      "step": 115
+    },
+    {
+      "epoch": 1.974468085106383,
+      "grad_norm": 1.3394767045974731,
+      "learning_rate": 2.946286626483463e-05,
+      "loss": 0.6046,
+      "step": 116
+    },
+    {
+      "epoch": 1.9914893617021276,
+      "grad_norm": 1.6290675401687622,
+      "learning_rate": 2.8608960482523056e-05,
+      "loss": 0.5723,
+      "step": 117
+    },
+    {
+      "epoch": 2.008510638297872,
+      "grad_norm": 1.4972840547561646,
+      "learning_rate": 2.7762624526011038e-05,
+      "loss": 0.5839,
+      "step": 118
+    },
+    {
+      "epoch": 2.025531914893617,
+      "grad_norm": 0.92827969789505,
+      "learning_rate": 2.6924157895271563e-05,
+      "loss": 0.414,
+      "step": 119
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "grad_norm": 0.9881418943405151,
+      "learning_rate": 2.6093857305493664e-05,
+      "loss": 0.338,
+      "step": 120
+    },
+    {
+      "epoch": 2.0595744680851062,
+      "grad_norm": 1.0140328407287598,
+      "learning_rate": 2.5272016582081236e-05,
+      "loss": 0.3692,
+      "step": 121
+    },
+    {
+      "epoch": 2.076595744680851,
+      "grad_norm": 1.0715774297714233,
+      "learning_rate": 2.4458926556674615e-05,
+      "loss": 0.3516,
+      "step": 122
+    },
+    {
+      "epoch": 2.0936170212765957,
+      "grad_norm": 0.9538404941558838,
+      "learning_rate": 2.3654874964231518e-05,
+      "loss": 0.2303,
+      "step": 123
+    },
+    {
+      "epoch": 2.1106382978723404,
+      "grad_norm": 1.1230480670928955,
+      "learning_rate": 2.2860146341203937e-05,
+      "loss": 0.293,
+      "step": 124
+    },
+    {
+      "epoch": 2.127659574468085,
+      "grad_norm": 1.1339483261108398,
+      "learning_rate": 2.207502192484685e-05,
+      "loss": 0.3407,
+      "step": 125
+    },
+    {
+      "epoch": 2.1446808510638298,
+      "grad_norm": 1.0703402757644653,
+      "learning_rate": 2.1299779553694323e-05,
+      "loss": 0.2584,
+      "step": 126
+    },
+    {
+      "epoch": 2.1617021276595745,
+      "grad_norm": 1.0961896181106567,
+      "learning_rate": 2.053469356923865e-05,
+      "loss": 0.2334,
+      "step": 127
+    },
+    {
+      "epoch": 2.178723404255319,
+      "grad_norm": 1.2202945947647095,
+      "learning_rate": 1.978003471884665e-05,
+      "loss": 0.2705,
+      "step": 128
+    },
+    {
+      "epoch": 2.195744680851064,
+      "grad_norm": 1.281968593597412,
+      "learning_rate": 1.9036070059948252e-05,
+      "loss": 0.2222,
+      "step": 129
+    },
+    {
+      "epoch": 2.2127659574468086,
+      "grad_norm": 1.530350685119629,
+      "learning_rate": 1.8303062865530406e-05,
+      "loss": 0.1816,
+      "step": 130
+    },
+    {
+      "epoch": 2.2297872340425533,
+      "grad_norm": 1.5826750993728638,
+      "learning_rate": 1.7581272530970667e-05,
+      "loss": 0.2032,
+      "step": 131
+    },
+    {
+      "epoch": 2.246808510638298,
+      "grad_norm": 1.333558440208435,
+      "learning_rate": 1.6870954482242707e-05,
+      "loss": 0.4571,
+      "step": 132
+    },
+    {
+      "epoch": 2.2638297872340427,
+      "grad_norm": 1.2566792964935303,
+      "learning_rate": 1.6172360085526565e-05,
+      "loss": 0.394,
+      "step": 133
+    },
+    {
+      "epoch": 2.2808510638297874,
+      "grad_norm": 1.2111644744873047,
+      "learning_rate": 1.5485736558255697e-05,
+      "loss": 0.3292,
+      "step": 134
+    },
+    {
+      "epoch": 2.297872340425532,
+      "grad_norm": 1.3459227085113525,
+      "learning_rate": 1.4811326881631937e-05,
+      "loss": 0.3263,
+      "step": 135
+    },
+    {
+      "epoch": 2.3148936170212764,
+      "grad_norm": 1.3436534404754639,
+      "learning_rate": 1.4149369714639853e-05,
+      "loss": 0.3349,
+      "step": 136
+    },
+    {
+      "epoch": 2.331914893617021,
+      "grad_norm": 1.4782233238220215,
+      "learning_rate": 1.3500099309590397e-05,
+      "loss": 0.3526,
+      "step": 137
+    },
+    {
+      "epoch": 2.348936170212766,
+      "grad_norm": 1.3280771970748901,
+      "learning_rate": 1.2863745429224144e-05,
+      "loss": 0.2997,
+      "step": 138
+    },
+    {
+      "epoch": 2.3659574468085105,
+      "grad_norm": 1.3815573453903198,
+      "learning_rate": 1.2240533265403198e-05,
+      "loss": 0.2855,
+      "step": 139
+    },
+    {
+      "epoch": 2.382978723404255,
+      "grad_norm": 1.4903278350830078,
+      "learning_rate": 1.1630683359420652e-05,
+      "loss": 0.2904,
+      "step": 140
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.3255101442337036,
+      "learning_rate": 1.103441152395588e-05,
+      "loss": 0.1762,
+      "step": 141
+    },
+    {
+      "epoch": 2.4170212765957446,
+      "grad_norm": 1.3879741430282593,
+      "learning_rate": 1.0451928766702979e-05,
+      "loss": 0.2153,
+      "step": 142
+    },
+    {
+      "epoch": 2.4340425531914893,
+      "grad_norm": 1.2487590312957764,
+      "learning_rate": 9.883441215699823e-06,
+      "loss": 0.1699,
+      "step": 143
+    },
+    {
+      "epoch": 2.451063829787234,
+      "grad_norm": 1.142252802848816,
+      "learning_rate": 9.329150046383772e-06,
+      "loss": 0.1227,
+      "step": 144
+    },
+    {
+      "epoch": 2.4680851063829787,
+      "grad_norm": 1.8175076246261597,
+      "learning_rate": 8.789251410400023e-06,
+      "loss": 0.1298,
+      "step": 145
+    },
+    {
+      "epoch": 2.4851063829787234,
+      "grad_norm": 1.2175217866897583,
+      "learning_rate": 8.263936366187824e-06,
+      "loss": 0.3301,
+      "step": 146
+    },
+    {
+      "epoch": 2.502127659574468,
+      "grad_norm": 1.314565896987915,
+      "learning_rate": 7.753390811368971e-06,
+      "loss": 0.3832,
+      "step": 147
+    },
+    {
+      "epoch": 2.519148936170213,
+      "grad_norm": 1.393023133277893,
+      "learning_rate": 7.257795416962753e-06,
+      "loss": 0.331,
+      "step": 148
+    },
+    {
+      "epoch": 2.5361702127659576,
+      "grad_norm": 1.4550484418869019,
+      "learning_rate": 6.777325563450282e-06,
+      "loss": 0.3105,
+      "step": 149
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 1.555659294128418,
+      "learning_rate": 6.312151278711237e-06,
+      "loss": 0.3881,
+      "step": 150
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "eval_loss": 1.250982403755188,
+      "eval_runtime": 4.4645,
+      "eval_samples_per_second": 22.175,
+      "eval_steps_per_second": 5.6,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 6.21552039100416e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null