Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c7db96197ac9bf4b04b14e2d97921abf2bfa1955f72c4347a6fa294934c6b87
 size 985240

 version https://git-lfs.github.com/spec/v1
+oid sha256:7428134e07270fc4d17fd544f229da577d041985891e0d4d88e317401b0bcd21
 size 985240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c84ccb8f52db7053ea35e5b1bef3d1d4991e25744c14da6b28def6bfb36d9f5
 size 520860

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a6236b53ff3ee4f39ccef16baf9cb96b97ab3fec5f7981c004f529d24b746bf
 size 520860

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc4d3e43e57936d5e788699cc8026d15748e5a3653d1e84f052a2ef2a1ca7f8b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:520ed0f0305e51b9eba187b564a25f613b36cf1399f5af5141d8672ac8c7a0ad
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c5525f1d8420ca8a81a7fd2ec397a508131d03210dfd36c7ac5758b0e6313b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 10.57370376586914,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.011292417141889222,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 123.603,
       "eval_steps_per_second": 30.926,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3000854642688.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 10.512722969055176,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.016938625712833832,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 123.603,
       "eval_steps_per_second": 30.926,
       "step": 100
+    },
+    {
+      "epoch": 0.011405341313308113,
+      "grad_norm": 1.898417353630066,
+      "learning_rate": 5.231368421052631e-05,
+      "loss": 21.5383,
+      "step": 101
+    },
+    {
+      "epoch": 0.011518265484727007,
+      "grad_norm": 1.7448859214782715,
+      "learning_rate": 5.178526315789474e-05,
+      "loss": 21.5164,
+      "step": 102
+    },
+    {
+      "epoch": 0.011631189656145898,
+      "grad_norm": 2.15998911857605,
+      "learning_rate": 5.1256842105263165e-05,
+      "loss": 21.4158,
+      "step": 103
+    },
+    {
+      "epoch": 0.01174411382756479,
+      "grad_norm": 1.7991974353790283,
+      "learning_rate": 5.072842105263158e-05,
+      "loss": 21.544,
+      "step": 104
+    },
+    {
+      "epoch": 0.011857037998983683,
+      "grad_norm": 1.6782306432724,
+      "learning_rate": 5.02e-05,
+      "loss": 21.4899,
+      "step": 105
+    },
+    {
+      "epoch": 0.011969962170402575,
+      "grad_norm": 1.6934300661087036,
+      "learning_rate": 4.967157894736842e-05,
+      "loss": 21.4828,
+      "step": 106
+    },
+    {
+      "epoch": 0.012082886341821466,
+      "grad_norm": 1.7622517347335815,
+      "learning_rate": 4.914315789473684e-05,
+      "loss": 21.5518,
+      "step": 107
+    },
+    {
+      "epoch": 0.01219581051324036,
+      "grad_norm": 2.0620055198669434,
+      "learning_rate": 4.861473684210526e-05,
+      "loss": 21.4972,
+      "step": 108
+    },
+    {
+      "epoch": 0.012308734684659251,
+      "grad_norm": 1.7865617275238037,
+      "learning_rate": 4.8086315789473686e-05,
+      "loss": 21.1913,
+      "step": 109
+    },
+    {
+      "epoch": 0.012421658856078143,
+      "grad_norm": 1.6678588390350342,
+      "learning_rate": 4.7557894736842104e-05,
+      "loss": 21.33,
+      "step": 110
+    },
+    {
+      "epoch": 0.012534583027497036,
+      "grad_norm": 1.5663342475891113,
+      "learning_rate": 4.702947368421053e-05,
+      "loss": 21.2791,
+      "step": 111
+    },
+    {
+      "epoch": 0.012647507198915928,
+      "grad_norm": 1.3401545286178589,
+      "learning_rate": 4.6501052631578946e-05,
+      "loss": 21.2329,
+      "step": 112
+    },
+    {
+      "epoch": 0.012760431370334821,
+      "grad_norm": 1.5291308164596558,
+      "learning_rate": 4.5972631578947364e-05,
+      "loss": 21.0561,
+      "step": 113
+    },
+    {
+      "epoch": 0.012873355541753713,
+      "grad_norm": 1.5034675598144531,
+      "learning_rate": 4.544421052631579e-05,
+      "loss": 21.0625,
+      "step": 114
+    },
+    {
+      "epoch": 0.012986279713172604,
+      "grad_norm": 1.502207636833191,
+      "learning_rate": 4.4915789473684213e-05,
+      "loss": 20.9603,
+      "step": 115
+    },
+    {
+      "epoch": 0.013099203884591498,
+      "grad_norm": 1.3683857917785645,
+      "learning_rate": 4.438736842105263e-05,
+      "loss": 21.2751,
+      "step": 116
+    },
+    {
+      "epoch": 0.013212128056010389,
+      "grad_norm": 1.3831427097320557,
+      "learning_rate": 4.3858947368421056e-05,
+      "loss": 21.2536,
+      "step": 117
+    },
+    {
+      "epoch": 0.01332505222742928,
+      "grad_norm": 1.7075899839401245,
+      "learning_rate": 4.3330526315789474e-05,
+      "loss": 20.9327,
+      "step": 118
+    },
+    {
+      "epoch": 0.013437976398848174,
+      "grad_norm": 1.4572417736053467,
+      "learning_rate": 4.280210526315789e-05,
+      "loss": 21.0398,
+      "step": 119
+    },
+    {
+      "epoch": 0.013550900570267066,
+      "grad_norm": 1.8132352828979492,
+      "learning_rate": 4.2273684210526317e-05,
+      "loss": 20.8115,
+      "step": 120
+    },
+    {
+      "epoch": 0.013663824741685957,
+      "grad_norm": 1.7252711057662964,
+      "learning_rate": 4.174526315789474e-05,
+      "loss": 20.8063,
+      "step": 121
+    },
+    {
+      "epoch": 0.01377674891310485,
+      "grad_norm": 1.995081901550293,
+      "learning_rate": 4.121684210526316e-05,
+      "loss": 20.6842,
+      "step": 122
+    },
+    {
+      "epoch": 0.013889673084523742,
+      "grad_norm": 1.5869985818862915,
+      "learning_rate": 4.068842105263158e-05,
+      "loss": 21.1246,
+      "step": 123
+    },
+    {
+      "epoch": 0.014002597255942634,
+      "grad_norm": 1.448175072669983,
+      "learning_rate": 4.016e-05,
+      "loss": 21.1664,
+      "step": 124
+    },
+    {
+      "epoch": 0.014115521427361527,
+      "grad_norm": 1.4581042528152466,
+      "learning_rate": 3.963157894736842e-05,
+      "loss": 21.1033,
+      "step": 125
+    },
+    {
+      "epoch": 0.014228445598780419,
+      "grad_norm": 1.358923077583313,
+      "learning_rate": 3.9103157894736844e-05,
+      "loss": 21.054,
+      "step": 126
+    },
+    {
+      "epoch": 0.014341369770199312,
+      "grad_norm": 1.5759377479553223,
+      "learning_rate": 3.857473684210526e-05,
+      "loss": 21.0667,
+      "step": 127
+    },
+    {
+      "epoch": 0.014454293941618204,
+      "grad_norm": 1.616433024406433,
+      "learning_rate": 3.804631578947369e-05,
+      "loss": 20.9253,
+      "step": 128
+    },
+    {
+      "epoch": 0.014567218113037095,
+      "grad_norm": 1.6013528108596802,
+      "learning_rate": 3.7517894736842105e-05,
+      "loss": 21.0409,
+      "step": 129
+    },
+    {
+      "epoch": 0.014680142284455988,
+      "grad_norm": 1.7452136278152466,
+      "learning_rate": 3.698947368421052e-05,
+      "loss": 21.2808,
+      "step": 130
+    },
+    {
+      "epoch": 0.01479306645587488,
+      "grad_norm": 1.6038225889205933,
+      "learning_rate": 3.646105263157895e-05,
+      "loss": 21.1862,
+      "step": 131
+    },
+    {
+      "epoch": 0.014905990627293772,
+      "grad_norm": 1.6077948808670044,
+      "learning_rate": 3.593263157894737e-05,
+      "loss": 20.9297,
+      "step": 132
+    },
+    {
+      "epoch": 0.015018914798712665,
+      "grad_norm": 1.8298345804214478,
+      "learning_rate": 3.540421052631579e-05,
+      "loss": 20.9612,
+      "step": 133
+    },
+    {
+      "epoch": 0.015131838970131557,
+      "grad_norm": 1.5444914102554321,
+      "learning_rate": 3.4875789473684215e-05,
+      "loss": 21.0415,
+      "step": 134
+    },
+    {
+      "epoch": 0.015244763141550448,
+      "grad_norm": 1.6737421751022339,
+      "learning_rate": 3.434736842105263e-05,
+      "loss": 21.0475,
+      "step": 135
+    },
+    {
+      "epoch": 0.015357687312969341,
+      "grad_norm": 2.06323504447937,
+      "learning_rate": 3.381894736842105e-05,
+      "loss": 20.9078,
+      "step": 136
+    },
+    {
+      "epoch": 0.015470611484388233,
+      "grad_norm": 1.7106398344039917,
+      "learning_rate": 3.329052631578947e-05,
+      "loss": 20.9534,
+      "step": 137
+    },
+    {
+      "epoch": 0.015583535655807125,
+      "grad_norm": 1.7233997583389282,
+      "learning_rate": 3.27621052631579e-05,
+      "loss": 20.9764,
+      "step": 138
+    },
+    {
+      "epoch": 0.015696459827226016,
+      "grad_norm": 1.6839755773544312,
+      "learning_rate": 3.223368421052632e-05,
+      "loss": 20.7462,
+      "step": 139
+    },
+    {
+      "epoch": 0.01580938399864491,
+      "grad_norm": 1.747623085975647,
+      "learning_rate": 3.1705263157894736e-05,
+      "loss": 20.7554,
+      "step": 140
+    },
+    {
+      "epoch": 0.015922308170063803,
+      "grad_norm": 1.651952862739563,
+      "learning_rate": 3.117684210526316e-05,
+      "loss": 21.0266,
+      "step": 141
+    },
+    {
+      "epoch": 0.016035232341482693,
+      "grad_norm": 1.6088999509811401,
+      "learning_rate": 3.064842105263158e-05,
+      "loss": 21.1224,
+      "step": 142
+    },
+    {
+      "epoch": 0.016148156512901586,
+      "grad_norm": 1.762588620185852,
+      "learning_rate": 3.012e-05,
+      "loss": 20.9005,
+      "step": 143
+    },
+    {
+      "epoch": 0.01626108068432048,
+      "grad_norm": 1.566470742225647,
+      "learning_rate": 2.9591578947368418e-05,
+      "loss": 21.1413,
+      "step": 144
+    },
+    {
+      "epoch": 0.01637400485573937,
+      "grad_norm": 1.6514183282852173,
+      "learning_rate": 2.9063157894736842e-05,
+      "loss": 20.8771,
+      "step": 145
+    },
+    {
+      "epoch": 0.016486929027158263,
+      "grad_norm": 1.7934764623641968,
+      "learning_rate": 2.8534736842105264e-05,
+      "loss": 20.9009,
+      "step": 146
+    },
+    {
+      "epoch": 0.016599853198577156,
+      "grad_norm": 1.6794406175613403,
+      "learning_rate": 2.800631578947368e-05,
+      "loss": 20.9681,
+      "step": 147
+    },
+    {
+      "epoch": 0.01671277736999605,
+      "grad_norm": 1.6893374919891357,
+      "learning_rate": 2.7477894736842106e-05,
+      "loss": 21.0311,
+      "step": 148
+    },
+    {
+      "epoch": 0.01682570154141494,
+      "grad_norm": 1.7404531240463257,
+      "learning_rate": 2.6949473684210527e-05,
+      "loss": 20.9912,
+      "step": 149
+    },
+    {
+      "epoch": 0.016938625712833832,
+      "grad_norm": 1.9118671417236328,
+      "learning_rate": 2.6421052631578945e-05,
+      "loss": 21.0618,
+      "step": 150
+    },
+    {
+      "epoch": 0.016938625712833832,
+      "eval_loss": 10.512722969055176,
+      "eval_runtime": 30.1193,
+      "eval_samples_per_second": 123.808,
+      "eval_steps_per_second": 30.977,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4493817151488.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null