Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d6d025c38202d7987ee426151328b7612425c438c05ca9732083d682444a78d
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:06dd4a8ad0b1d30ba6740d0925be9d80ca6c2a9a7eae7dc04bca1abcaddf15ee
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bce81c1d83fa2e10d0a288ac0ce4a34d1786db0c43d6da813d17aa3d07319346
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:c86c174f1431d3a36b8db2dfd355307771f2aeca7f648a4d66a65dfce14f2e23
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:095a5dbc60995a1f237ab3f197cce7aef4d06809ef2d17a6c3188fde144e0eb9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:41ef399be744db3c6c85f5e78e06088fae0e5d9ba90a3ef3cce3ff3c79eba66d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2719783782958984,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.45300113250283125,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.235,
       "eval_steps_per_second": 3.309,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.508513578745856e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0218840837478638,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.6795016987542469,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.235,
       "eval_steps_per_second": 3.309,
       "step": 100
+    },
+    {
+      "epoch": 0.4575311438278596,
+      "grad_norm": 2.714219570159912,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 1.0719,
+      "step": 101
+    },
+    {
+      "epoch": 0.46206115515288787,
+      "grad_norm": 1.833893060684204,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.8059,
+      "step": 102
+    },
+    {
+      "epoch": 0.4665911664779162,
+      "grad_norm": 1.7362415790557861,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 0.8914,
+      "step": 103
+    },
+    {
+      "epoch": 0.4711211778029445,
+      "grad_norm": 1.587952971458435,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 1.0055,
+      "step": 104
+    },
+    {
+      "epoch": 0.47565118912797283,
+      "grad_norm": 1.382871389389038,
+      "learning_rate": 5e-05,
+      "loss": 0.853,
+      "step": 105
+    },
+    {
+      "epoch": 0.4801812004530011,
+      "grad_norm": 1.427045226097107,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.9621,
+      "step": 106
+    },
+    {
+      "epoch": 0.48471121177802945,
+      "grad_norm": 1.2589244842529297,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.8243,
+      "step": 107
+    },
+    {
+      "epoch": 0.48924122310305773,
+      "grad_norm": 1.1731473207473755,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.8862,
+      "step": 108
+    },
+    {
+      "epoch": 0.49377123442808607,
+      "grad_norm": 1.2672301530838013,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.8736,
+      "step": 109
+    },
+    {
+      "epoch": 0.4983012457531144,
+      "grad_norm": 1.1130244731903076,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.8778,
+      "step": 110
+    },
+    {
+      "epoch": 0.5028312570781427,
+      "grad_norm": 1.2738019227981567,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 1.0309,
+      "step": 111
+    },
+    {
+      "epoch": 0.507361268403171,
+      "grad_norm": 1.1945719718933105,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.9288,
+      "step": 112
+    },
+    {
+      "epoch": 0.5118912797281994,
+      "grad_norm": 1.153830885887146,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.997,
+      "step": 113
+    },
+    {
+      "epoch": 0.5164212910532276,
+      "grad_norm": 1.128495693206787,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.862,
+      "step": 114
+    },
+    {
+      "epoch": 0.5209513023782559,
+      "grad_norm": 1.2062228918075562,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 1.0172,
+      "step": 115
+    },
+    {
+      "epoch": 0.5254813137032842,
+      "grad_norm": 1.1854007244110107,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.9473,
+      "step": 116
+    },
+    {
+      "epoch": 0.5300113250283126,
+      "grad_norm": 1.105261206626892,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.8747,
+      "step": 117
+    },
+    {
+      "epoch": 0.5345413363533409,
+      "grad_norm": 1.1203992366790771,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.7881,
+      "step": 118
+    },
+    {
+      "epoch": 0.5390713476783692,
+      "grad_norm": 1.1720339059829712,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.9116,
+      "step": 119
+    },
+    {
+      "epoch": 0.5436013590033975,
+      "grad_norm": 1.220534086227417,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.7269,
+      "step": 120
+    },
+    {
+      "epoch": 0.5481313703284258,
+      "grad_norm": 1.1943268775939941,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.9006,
+      "step": 121
+    },
+    {
+      "epoch": 0.5526613816534541,
+      "grad_norm": 1.1528831720352173,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.8354,
+      "step": 122
+    },
+    {
+      "epoch": 0.5571913929784824,
+      "grad_norm": 1.2273133993148804,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.8162,
+      "step": 123
+    },
+    {
+      "epoch": 0.5617214043035108,
+      "grad_norm": 1.2099953889846802,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.8402,
+      "step": 124
+    },
+    {
+      "epoch": 0.5662514156285391,
+      "grad_norm": 1.1575597524642944,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.9024,
+      "step": 125
+    },
+    {
+      "epoch": 0.5707814269535674,
+      "grad_norm": 1.4714939594268799,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 1.0202,
+      "step": 126
+    },
+    {
+      "epoch": 0.5753114382785957,
+      "grad_norm": 1.4315725564956665,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 1.0502,
+      "step": 127
+    },
+    {
+      "epoch": 0.579841449603624,
+      "grad_norm": 1.5543477535247803,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 1.1694,
+      "step": 128
+    },
+    {
+      "epoch": 0.5843714609286523,
+      "grad_norm": 1.3127039670944214,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 0.9434,
+      "step": 129
+    },
+    {
+      "epoch": 0.5889014722536806,
+      "grad_norm": 1.568535327911377,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 1.1988,
+      "step": 130
+    },
+    {
+      "epoch": 0.5934314835787089,
+      "grad_norm": 1.353140950202942,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 0.8726,
+      "step": 131
+    },
+    {
+      "epoch": 0.5979614949037373,
+      "grad_norm": 1.4939686059951782,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 1.2155,
+      "step": 132
+    },
+    {
+      "epoch": 0.6024915062287656,
+      "grad_norm": 1.489733099937439,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.923,
+      "step": 133
+    },
+    {
+      "epoch": 0.6070215175537939,
+      "grad_norm": 1.6046398878097534,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 1.1015,
+      "step": 134
+    },
+    {
+      "epoch": 0.6115515288788222,
+      "grad_norm": 1.578744888305664,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 1.2103,
+      "step": 135
+    },
+    {
+      "epoch": 0.6160815402038505,
+      "grad_norm": 1.431128740310669,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.8943,
+      "step": 136
+    },
+    {
+      "epoch": 0.6206115515288788,
+      "grad_norm": 1.9715696573257446,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 1.3989,
+      "step": 137
+    },
+    {
+      "epoch": 0.6251415628539071,
+      "grad_norm": 1.8589072227478027,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 1.5329,
+      "step": 138
+    },
+    {
+      "epoch": 0.6296715741789355,
+      "grad_norm": 1.8302171230316162,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 1.1766,
+      "step": 139
+    },
+    {
+      "epoch": 0.6342015855039638,
+      "grad_norm": 2.0135345458984375,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 1.4761,
+      "step": 140
+    },
+    {
+      "epoch": 0.638731596828992,
+      "grad_norm": 1.8871492147445679,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 0.9438,
+      "step": 141
+    },
+    {
+      "epoch": 0.6432616081540203,
+      "grad_norm": 2.027357578277588,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 1.1982,
+      "step": 142
+    },
+    {
+      "epoch": 0.6477916194790487,
+      "grad_norm": 2.037635564804077,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.1497,
+      "step": 143
+    },
+    {
+      "epoch": 0.652321630804077,
+      "grad_norm": 1.9788384437561035,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 1.3363,
+      "step": 144
+    },
+    {
+      "epoch": 0.6568516421291053,
+      "grad_norm": 1.8388274908065796,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 1.2891,
+      "step": 145
+    },
+    {
+      "epoch": 0.6613816534541337,
+      "grad_norm": 1.6475542783737183,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 1.0235,
+      "step": 146
+    },
+    {
+      "epoch": 0.665911664779162,
+      "grad_norm": 2.038667917251587,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 1.1535,
+      "step": 147
+    },
+    {
+      "epoch": 0.6704416761041903,
+      "grad_norm": 2.430046796798706,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 1.3292,
+      "step": 148
+    },
+    {
+      "epoch": 0.6749716874292185,
+      "grad_norm": 2.0234296321868896,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 1.3348,
+      "step": 149
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "grad_norm": 2.2200522422790527,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 1.3524,
+      "step": 150
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "eval_loss": 1.0218840837478638,
+      "eval_runtime": 28.1145,
+      "eval_samples_per_second": 13.232,
+      "eval_steps_per_second": 3.308,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.262770368118784e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null