Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4422e2517de197d437dd35026b454bcf539ca2849dbd1f92d6f49dc5ea3e554
 size 1001465824

 version https://git-lfs.github.com/spec/v1
+oid sha256:7657ddee20f58260dcd66d8b7a33e96dc0556375180c23366de987f407a1e530
 size 1001465824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:482d4d18e216e777f40237eb2a2469d5ad1decc5a7d37be6488018d586a2782e
 size 509176980

 version https://git-lfs.github.com/spec/v1
+oid sha256:32d23fc7a4a2a263398720bb781d0b9ddd8ec04e0447993eaea7ba314f5f8dcc
 size 509176980

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d607bc7c580e23a708525d795c51d57a9c28aca39594a62357269fd2b28fb604
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:63afc1eec0187c47a9b6d2157cff59302f972f86bed97db3ce1f4b40e899b203
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b73d3ab03a9f3cb0edf1405ad22e2439bfc633b9abdf025e1224c6f0ad183c3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:faf4b7c5498ae4c4e5a296fe320aca480fc4724dd9eaa1c7badb2de02f26fafb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2286633849143982,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.14513788098693758,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 2.005,
       "eval_steps_per_second": 0.503,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2010820204494848e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2286633849143982,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.21770682148040638,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.005,
       "eval_steps_per_second": 0.503,
       "step": 100
+    },
+    {
+      "epoch": 0.14658925979680695,
+      "grad_norm": 0.13860496878623962,
+      "learning_rate": 5.2678421052631576e-05,
+      "loss": 0.7931,
+      "step": 101
+    },
+    {
+      "epoch": 0.14804063860667635,
+      "grad_norm": 0.1530522257089615,
+      "learning_rate": 5.214631578947369e-05,
+      "loss": 0.4883,
+      "step": 102
+    },
+    {
+      "epoch": 0.14949201741654572,
+      "grad_norm": 0.09421262890100479,
+      "learning_rate": 5.161421052631579e-05,
+      "loss": 0.1757,
+      "step": 103
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "grad_norm": 0.11253266036510468,
+      "learning_rate": 5.10821052631579e-05,
+      "loss": 0.4355,
+      "step": 104
+    },
+    {
+      "epoch": 0.15239477503628446,
+      "grad_norm": 0.11226090788841248,
+      "learning_rate": 5.055e-05,
+      "loss": 0.3406,
+      "step": 105
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 0.09969495981931686,
+      "learning_rate": 5.0017894736842104e-05,
+      "loss": 0.33,
+      "step": 106
+    },
+    {
+      "epoch": 0.15529753265602322,
+      "grad_norm": 0.14994554221630096,
+      "learning_rate": 4.948578947368421e-05,
+      "loss": 0.7712,
+      "step": 107
+    },
+    {
+      "epoch": 0.1567489114658926,
+      "grad_norm": 0.16747573018074036,
+      "learning_rate": 4.895368421052632e-05,
+      "loss": 0.4805,
+      "step": 108
+    },
+    {
+      "epoch": 0.15820029027576196,
+      "grad_norm": 0.15101346373558044,
+      "learning_rate": 4.842157894736842e-05,
+      "loss": 0.6745,
+      "step": 109
+    },
+    {
+      "epoch": 0.15965166908563136,
+      "grad_norm": 0.14325077831745148,
+      "learning_rate": 4.7889473684210523e-05,
+      "loss": 0.2481,
+      "step": 110
+    },
+    {
+      "epoch": 0.16110304789550073,
+      "grad_norm": 0.6589614152908325,
+      "learning_rate": 4.735736842105263e-05,
+      "loss": 0.385,
+      "step": 111
+    },
+    {
+      "epoch": 0.1625544267053701,
+      "grad_norm": 0.14817237854003906,
+      "learning_rate": 4.682526315789474e-05,
+      "loss": 0.4519,
+      "step": 112
+    },
+    {
+      "epoch": 0.16400580551523947,
+      "grad_norm": 0.12075196951627731,
+      "learning_rate": 4.629315789473684e-05,
+      "loss": 0.32,
+      "step": 113
+    },
+    {
+      "epoch": 0.16545718432510886,
+      "grad_norm": 0.10896284133195877,
+      "learning_rate": 4.576105263157895e-05,
+      "loss": 0.252,
+      "step": 114
+    },
+    {
+      "epoch": 0.16690856313497823,
+      "grad_norm": 0.15797024965286255,
+      "learning_rate": 4.522894736842106e-05,
+      "loss": 0.7193,
+      "step": 115
+    },
+    {
+      "epoch": 0.1683599419448476,
+      "grad_norm": 0.12811946868896484,
+      "learning_rate": 4.469684210526316e-05,
+      "loss": 0.5991,
+      "step": 116
+    },
+    {
+      "epoch": 0.16981132075471697,
+      "grad_norm": 0.17125706374645233,
+      "learning_rate": 4.416473684210527e-05,
+      "loss": 0.6612,
+      "step": 117
+    },
+    {
+      "epoch": 0.17126269956458637,
+      "grad_norm": 0.21033529937267303,
+      "learning_rate": 4.363263157894737e-05,
+      "loss": 0.637,
+      "step": 118
+    },
+    {
+      "epoch": 0.17271407837445574,
+      "grad_norm": 0.14343442022800446,
+      "learning_rate": 4.310052631578948e-05,
+      "loss": 0.3919,
+      "step": 119
+    },
+    {
+      "epoch": 0.1741654571843251,
+      "grad_norm": 0.09223167598247528,
+      "learning_rate": 4.256842105263158e-05,
+      "loss": 0.2206,
+      "step": 120
+    },
+    {
+      "epoch": 0.17561683599419448,
+      "grad_norm": 0.10201866924762726,
+      "learning_rate": 4.203631578947369e-05,
+      "loss": 0.2657,
+      "step": 121
+    },
+    {
+      "epoch": 0.17706821480406387,
+      "grad_norm": 0.09830533713102341,
+      "learning_rate": 4.150421052631579e-05,
+      "loss": 0.1767,
+      "step": 122
+    },
+    {
+      "epoch": 0.17851959361393324,
+      "grad_norm": 0.11305135488510132,
+      "learning_rate": 4.09721052631579e-05,
+      "loss": 0.3528,
+      "step": 123
+    },
+    {
+      "epoch": 0.1799709724238026,
+      "grad_norm": 0.11795450747013092,
+      "learning_rate": 4.0440000000000006e-05,
+      "loss": 0.2826,
+      "step": 124
+    },
+    {
+      "epoch": 0.18142235123367198,
+      "grad_norm": 0.10810278356075287,
+      "learning_rate": 3.990789473684211e-05,
+      "loss": 0.3728,
+      "step": 125
+    },
+    {
+      "epoch": 0.18287373004354138,
+      "grad_norm": 0.07889194041490555,
+      "learning_rate": 3.937578947368421e-05,
+      "loss": 0.1485,
+      "step": 126
+    },
+    {
+      "epoch": 0.18432510885341075,
+      "grad_norm": 0.12167462706565857,
+      "learning_rate": 3.884368421052632e-05,
+      "loss": 0.3191,
+      "step": 127
+    },
+    {
+      "epoch": 0.18577648766328012,
+      "grad_norm": 0.13652844727039337,
+      "learning_rate": 3.8311578947368426e-05,
+      "loss": 0.3272,
+      "step": 128
+    },
+    {
+      "epoch": 0.18722786647314948,
+      "grad_norm": 0.11355964839458466,
+      "learning_rate": 3.777947368421053e-05,
+      "loss": 0.2216,
+      "step": 129
+    },
+    {
+      "epoch": 0.18867924528301888,
+      "grad_norm": 0.12072530388832092,
+      "learning_rate": 3.724736842105263e-05,
+      "loss": 0.2511,
+      "step": 130
+    },
+    {
+      "epoch": 0.19013062409288825,
+      "grad_norm": 0.11075890809297562,
+      "learning_rate": 3.6715263157894744e-05,
+      "loss": 0.1769,
+      "step": 131
+    },
+    {
+      "epoch": 0.19158200290275762,
+      "grad_norm": 0.09322332590818405,
+      "learning_rate": 3.6183157894736845e-05,
+      "loss": 0.2052,
+      "step": 132
+    },
+    {
+      "epoch": 0.193033381712627,
+      "grad_norm": 0.12875616550445557,
+      "learning_rate": 3.565105263157895e-05,
+      "loss": 0.1961,
+      "step": 133
+    },
+    {
+      "epoch": 0.19448476052249636,
+      "grad_norm": 0.11314037442207336,
+      "learning_rate": 3.5118947368421055e-05,
+      "loss": 0.2227,
+      "step": 134
+    },
+    {
+      "epoch": 0.19593613933236576,
+      "grad_norm": 0.10332886129617691,
+      "learning_rate": 3.458684210526316e-05,
+      "loss": 0.339,
+      "step": 135
+    },
+    {
+      "epoch": 0.19738751814223512,
+      "grad_norm": 0.17729254066944122,
+      "learning_rate": 3.4054736842105265e-05,
+      "loss": 0.2802,
+      "step": 136
+    },
+    {
+      "epoch": 0.1988388969521045,
+      "grad_norm": 0.08777690678834915,
+      "learning_rate": 3.3522631578947366e-05,
+      "loss": 0.1391,
+      "step": 137
+    },
+    {
+      "epoch": 0.20029027576197386,
+      "grad_norm": 0.1536087989807129,
+      "learning_rate": 3.2990526315789475e-05,
+      "loss": 0.3643,
+      "step": 138
+    },
+    {
+      "epoch": 0.20174165457184326,
+      "grad_norm": 0.11051812022924423,
+      "learning_rate": 3.245842105263158e-05,
+      "loss": 0.1991,
+      "step": 139
+    },
+    {
+      "epoch": 0.20319303338171263,
+      "grad_norm": 0.09295262396335602,
+      "learning_rate": 3.1926315789473685e-05,
+      "loss": 0.2913,
+      "step": 140
+    },
+    {
+      "epoch": 0.204644412191582,
+      "grad_norm": 0.13505689799785614,
+      "learning_rate": 3.139421052631579e-05,
+      "loss": 0.8371,
+      "step": 141
+    },
+    {
+      "epoch": 0.20609579100145137,
+      "grad_norm": 0.1267169862985611,
+      "learning_rate": 3.0862105263157894e-05,
+      "loss": 0.6024,
+      "step": 142
+    },
+    {
+      "epoch": 0.20754716981132076,
+      "grad_norm": 0.13407814502716064,
+      "learning_rate": 3.033e-05,
+      "loss": 0.4159,
+      "step": 143
+    },
+    {
+      "epoch": 0.20899854862119013,
+      "grad_norm": 0.11469519138336182,
+      "learning_rate": 2.9797894736842104e-05,
+      "loss": 0.2402,
+      "step": 144
+    },
+    {
+      "epoch": 0.2104499274310595,
+      "grad_norm": 0.169059157371521,
+      "learning_rate": 2.9265789473684213e-05,
+      "loss": 0.3534,
+      "step": 145
+    },
+    {
+      "epoch": 0.21190130624092887,
+      "grad_norm": 0.19773763418197632,
+      "learning_rate": 2.8733684210526317e-05,
+      "loss": 0.5001,
+      "step": 146
+    },
+    {
+      "epoch": 0.21335268505079827,
+      "grad_norm": 0.4277418553829193,
+      "learning_rate": 2.820157894736842e-05,
+      "loss": 0.7581,
+      "step": 147
+    },
+    {
+      "epoch": 0.21480406386066764,
+      "grad_norm": 0.2791711688041687,
+      "learning_rate": 2.766947368421053e-05,
+      "loss": 0.8721,
+      "step": 148
+    },
+    {
+      "epoch": 0.216255442670537,
+      "grad_norm": 0.40901464223861694,
+      "learning_rate": 2.7137368421052632e-05,
+      "loss": 0.8766,
+      "step": 149
+    },
+    {
+      "epoch": 0.21770682148040638,
+      "grad_norm": 0.39813101291656494,
+      "learning_rate": 2.6605263157894737e-05,
+      "loss": 0.5074,
+      "step": 150
+    },
+    {
+      "epoch": 0.21770682148040638,
+      "eval_loss": 0.23037858307361603,
+      "eval_runtime": 143.626,
+      "eval_samples_per_second": 2.026,
+      "eval_steps_per_second": 0.508,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.8064531192283136e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null