Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f865bda560e125797d4268f9da1f4ee4f03865f86806ab1c73747a4da8999c2b
 size 1101095848

 version https://git-lfs.github.com/spec/v1
+oid sha256:81423449fe06f59181f60a64e49fc8d948427bd227e256237520074bdd3287a4
 size 1101095848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42de0be946f9884d2f784ab6f8d4b246ff51d62775d6384195aa7ee1bcc17c39
 size 559894228

 version https://git-lfs.github.com/spec/v1
+oid sha256:607da0035db4a628d1ebf1cfc067795b9fc7bf62e60d9729b80a62eb3bf2bb0e
 size 559894228

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8c1536bf4ad7db7edc6469539009396180ed29f84641809ff4ccbb1deaadf8c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:54712af3776ec742c52b5b82aecf5c077f17d8ffaddf9711f377a52ce38f53b7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c5525f1d8420ca8a81a7fd2ec397a508131d03210dfd36c7ac5758b0e6313b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9197953939437866,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.01710717646052519,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 5.199,
       "eval_steps_per_second": 1.301,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.082500598582477e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.8687154054641724,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.025660764690787787,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.199,
       "eval_steps_per_second": 1.301,
       "step": 100
+    },
+    {
+      "epoch": 0.01727824822513044,
+      "grad_norm": 0.6856660842895508,
+      "learning_rate": 5.231368421052631e-05,
+      "loss": 1.8056,
+      "step": 101
+    },
+    {
+      "epoch": 0.017449319989735694,
+      "grad_norm": 0.8271840810775757,
+      "learning_rate": 5.178526315789474e-05,
+      "loss": 1.915,
+      "step": 102
+    },
+    {
+      "epoch": 0.017620391754340946,
+      "grad_norm": 0.7571515440940857,
+      "learning_rate": 5.1256842105263165e-05,
+      "loss": 1.9442,
+      "step": 103
+    },
+    {
+      "epoch": 0.0177914635189462,
+      "grad_norm": 0.867884635925293,
+      "learning_rate": 5.072842105263158e-05,
+      "loss": 2.145,
+      "step": 104
+    },
+    {
+      "epoch": 0.01796253528355145,
+      "grad_norm": 0.7025319933891296,
+      "learning_rate": 5.02e-05,
+      "loss": 1.7341,
+      "step": 105
+    },
+    {
+      "epoch": 0.0181336070481567,
+      "grad_norm": 0.6765435934066772,
+      "learning_rate": 4.967157894736842e-05,
+      "loss": 2.1242,
+      "step": 106
+    },
+    {
+      "epoch": 0.018304678812761953,
+      "grad_norm": 0.5824732184410095,
+      "learning_rate": 4.914315789473684e-05,
+      "loss": 1.9422,
+      "step": 107
+    },
+    {
+      "epoch": 0.018475750577367205,
+      "grad_norm": 0.5176606178283691,
+      "learning_rate": 4.861473684210526e-05,
+      "loss": 2.0242,
+      "step": 108
+    },
+    {
+      "epoch": 0.018646822341972458,
+      "grad_norm": 0.5743870139122009,
+      "learning_rate": 4.8086315789473686e-05,
+      "loss": 2.0175,
+      "step": 109
+    },
+    {
+      "epoch": 0.01881789410657771,
+      "grad_norm": 0.5101130604743958,
+      "learning_rate": 4.7557894736842104e-05,
+      "loss": 1.8344,
+      "step": 110
+    },
+    {
+      "epoch": 0.018988965871182963,
+      "grad_norm": 0.5062516927719116,
+      "learning_rate": 4.702947368421053e-05,
+      "loss": 1.9409,
+      "step": 111
+    },
+    {
+      "epoch": 0.01916003763578821,
+      "grad_norm": 0.48760825395584106,
+      "learning_rate": 4.6501052631578946e-05,
+      "loss": 1.8474,
+      "step": 112
+    },
+    {
+      "epoch": 0.019331109400393464,
+      "grad_norm": 0.492199182510376,
+      "learning_rate": 4.5972631578947364e-05,
+      "loss": 1.9067,
+      "step": 113
+    },
+    {
+      "epoch": 0.019502181164998716,
+      "grad_norm": 0.4930146336555481,
+      "learning_rate": 4.544421052631579e-05,
+      "loss": 1.7696,
+      "step": 114
+    },
+    {
+      "epoch": 0.01967325292960397,
+      "grad_norm": 0.5493840575218201,
+      "learning_rate": 4.4915789473684213e-05,
+      "loss": 2.0178,
+      "step": 115
+    },
+    {
+      "epoch": 0.01984432469420922,
+      "grad_norm": 0.5961560606956482,
+      "learning_rate": 4.438736842105263e-05,
+      "loss": 1.6976,
+      "step": 116
+    },
+    {
+      "epoch": 0.020015396458814474,
+      "grad_norm": 0.5364917516708374,
+      "learning_rate": 4.3858947368421056e-05,
+      "loss": 1.847,
+      "step": 117
+    },
+    {
+      "epoch": 0.020186468223419726,
+      "grad_norm": 0.5656726956367493,
+      "learning_rate": 4.3330526315789474e-05,
+      "loss": 1.9252,
+      "step": 118
+    },
+    {
+      "epoch": 0.020357539988024975,
+      "grad_norm": 0.5928261876106262,
+      "learning_rate": 4.280210526315789e-05,
+      "loss": 1.9079,
+      "step": 119
+    },
+    {
+      "epoch": 0.020528611752630228,
+      "grad_norm": 0.5389055609703064,
+      "learning_rate": 4.2273684210526317e-05,
+      "loss": 1.7967,
+      "step": 120
+    },
+    {
+      "epoch": 0.02069968351723548,
+      "grad_norm": 0.6076517701148987,
+      "learning_rate": 4.174526315789474e-05,
+      "loss": 1.793,
+      "step": 121
+    },
+    {
+      "epoch": 0.020870755281840733,
+      "grad_norm": 0.6341645121574402,
+      "learning_rate": 4.121684210526316e-05,
+      "loss": 1.9671,
+      "step": 122
+    },
+    {
+      "epoch": 0.021041827046445985,
+      "grad_norm": 0.6870526075363159,
+      "learning_rate": 4.068842105263158e-05,
+      "loss": 1.7407,
+      "step": 123
+    },
+    {
+      "epoch": 0.021212898811051237,
+      "grad_norm": 0.6322492957115173,
+      "learning_rate": 4.016e-05,
+      "loss": 1.949,
+      "step": 124
+    },
+    {
+      "epoch": 0.021383970575656486,
+      "grad_norm": 0.6672692894935608,
+      "learning_rate": 3.963157894736842e-05,
+      "loss": 1.9643,
+      "step": 125
+    },
+    {
+      "epoch": 0.02155504234026174,
+      "grad_norm": 0.6229186058044434,
+      "learning_rate": 3.9103157894736844e-05,
+      "loss": 1.7221,
+      "step": 126
+    },
+    {
+      "epoch": 0.02172611410486699,
+      "grad_norm": 0.7301349639892578,
+      "learning_rate": 3.857473684210526e-05,
+      "loss": 2.0484,
+      "step": 127
+    },
+    {
+      "epoch": 0.021897185869472244,
+      "grad_norm": 0.7856729626655579,
+      "learning_rate": 3.804631578947369e-05,
+      "loss": 1.773,
+      "step": 128
+    },
+    {
+      "epoch": 0.022068257634077496,
+      "grad_norm": 0.8492652177810669,
+      "learning_rate": 3.7517894736842105e-05,
+      "loss": 1.8202,
+      "step": 129
+    },
+    {
+      "epoch": 0.02223932939868275,
+      "grad_norm": 0.7252649068832397,
+      "learning_rate": 3.698947368421052e-05,
+      "loss": 1.8962,
+      "step": 130
+    },
+    {
+      "epoch": 0.022410401163287998,
+      "grad_norm": 0.7953678369522095,
+      "learning_rate": 3.646105263157895e-05,
+      "loss": 1.7289,
+      "step": 131
+    },
+    {
+      "epoch": 0.02258147292789325,
+      "grad_norm": 0.728402853012085,
+      "learning_rate": 3.593263157894737e-05,
+      "loss": 1.9082,
+      "step": 132
+    },
+    {
+      "epoch": 0.022752544692498503,
+      "grad_norm": 0.8220646381378174,
+      "learning_rate": 3.540421052631579e-05,
+      "loss": 1.9591,
+      "step": 133
+    },
+    {
+      "epoch": 0.022923616457103755,
+      "grad_norm": 0.8018884062767029,
+      "learning_rate": 3.4875789473684215e-05,
+      "loss": 2.0895,
+      "step": 134
+    },
+    {
+      "epoch": 0.023094688221709007,
+      "grad_norm": 0.7861109972000122,
+      "learning_rate": 3.434736842105263e-05,
+      "loss": 1.9219,
+      "step": 135
+    },
+    {
+      "epoch": 0.02326575998631426,
+      "grad_norm": 0.8565029501914978,
+      "learning_rate": 3.381894736842105e-05,
+      "loss": 2.0818,
+      "step": 136
+    },
+    {
+      "epoch": 0.023436831750919512,
+      "grad_norm": 0.986121416091919,
+      "learning_rate": 3.329052631578947e-05,
+      "loss": 2.0713,
+      "step": 137
+    },
+    {
+      "epoch": 0.02360790351552476,
+      "grad_norm": 0.8753408789634705,
+      "learning_rate": 3.27621052631579e-05,
+      "loss": 1.7472,
+      "step": 138
+    },
+    {
+      "epoch": 0.023778975280130014,
+      "grad_norm": 1.0510600805282593,
+      "learning_rate": 3.223368421052632e-05,
+      "loss": 2.1363,
+      "step": 139
+    },
+    {
+      "epoch": 0.023950047044735266,
+      "grad_norm": 1.0964877605438232,
+      "learning_rate": 3.1705263157894736e-05,
+      "loss": 2.0689,
+      "step": 140
+    },
+    {
+      "epoch": 0.02412111880934052,
+      "grad_norm": 1.000916838645935,
+      "learning_rate": 3.117684210526316e-05,
+      "loss": 1.9126,
+      "step": 141
+    },
+    {
+      "epoch": 0.02429219057394577,
+      "grad_norm": 1.1080740690231323,
+      "learning_rate": 3.064842105263158e-05,
+      "loss": 2.4376,
+      "step": 142
+    },
+    {
+      "epoch": 0.024463262338551024,
+      "grad_norm": 1.1512094736099243,
+      "learning_rate": 3.012e-05,
+      "loss": 1.8156,
+      "step": 143
+    },
+    {
+      "epoch": 0.024634334103156273,
+      "grad_norm": 1.3569144010543823,
+      "learning_rate": 2.9591578947368418e-05,
+      "loss": 1.451,
+      "step": 144
+    },
+    {
+      "epoch": 0.024805405867761525,
+      "grad_norm": 1.311303734779358,
+      "learning_rate": 2.9063157894736842e-05,
+      "loss": 2.0755,
+      "step": 145
+    },
+    {
+      "epoch": 0.024976477632366777,
+      "grad_norm": 1.199066400527954,
+      "learning_rate": 2.8534736842105264e-05,
+      "loss": 1.3857,
+      "step": 146
+    },
+    {
+      "epoch": 0.02514754939697203,
+      "grad_norm": 1.3259034156799316,
+      "learning_rate": 2.800631578947368e-05,
+      "loss": 1.804,
+      "step": 147
+    },
+    {
+      "epoch": 0.025318621161577282,
+      "grad_norm": 1.8676377534866333,
+      "learning_rate": 2.7477894736842106e-05,
+      "loss": 1.8025,
+      "step": 148
+    },
+    {
+      "epoch": 0.025489692926182535,
+      "grad_norm": 2.550297498703003,
+      "learning_rate": 2.6949473684210527e-05,
+      "loss": 2.0316,
+      "step": 149
+    },
+    {
+      "epoch": 0.025660764690787787,
+      "grad_norm": 2.5897419452667236,
+      "learning_rate": 2.6421052631578945e-05,
+      "loss": 1.4353,
+      "step": 150
+    },
+    {
+      "epoch": 0.025660764690787787,
+      "eval_loss": 1.8687154054641724,
+      "eval_runtime": 474.321,
+      "eval_samples_per_second": 5.191,
+      "eval_steps_per_second": 1.299,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0588689013722317e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null