Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77629671e1e70cb7e19ba919e5f37751074e68b0d669f1e9458fdd2fabd16581
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:9867b8ba462b121acd0706c5a9ec25cb85ef9190afc97e6a0639e0511d9dc13d
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92a1ee233f3495ac433f1fe72c2693f8a9a2368733bf584c4d62cc44786d199f
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bcc348de9a22e6628e55f182536dcce50cf970a68bfe15d586906805640b472
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:937da879d13eabe13f4a7cefbc6d3ebd228b5bbc52ad52b284f9ed094e7af25a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e180d6796c8af6bc7321e47607382b7af34e2afec042075a684d7e4ff4dae0e4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b2ff91019f251b72cdf781986424ccdfd5ceb7ae633fedb2bccce31d3f61847
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:970068ebf9c0dc6a40c93653c563bb0b2ba5296a6c46496b504a3f1343bf3a62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.49504950495049505,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 4.026,
       "eval_steps_per_second": 1.006,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7350850858975232e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.7425742574257426,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.026,
       "eval_steps_per_second": 1.006,
       "step": 100
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": NaN,
+      "learning_rate": 5.8634982137913465e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.504950495049505,
+      "grad_norm": NaN,
+      "learning_rate": 5.772710650702723e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.5099009900990099,
+      "grad_norm": NaN,
+      "learning_rate": 5.681848531245195e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.5148514851485149,
+      "grad_norm": NaN,
+      "learning_rate": 5.590936696214972e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.5198019801980198,
+      "grad_norm": NaN,
+      "learning_rate": 5.5e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.5247524752475248,
+      "grad_norm": NaN,
+      "learning_rate": 5.409063303785029e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.5297029702970297,
+      "grad_norm": NaN,
+      "learning_rate": 5.318151468754805e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.5346534653465347,
+      "grad_norm": NaN,
+      "learning_rate": 5.227289349297277e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.5396039603960396,
+      "grad_norm": NaN,
+      "learning_rate": 5.136501786208654e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.5445544554455446,
+      "grad_norm": NaN,
+      "learning_rate": 5.045813599902173e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.5495049504950495,
+      "grad_norm": NaN,
+      "learning_rate": 4.955249583622455e-05,
+      "loss": 2.2827,
+      "step": 111
+    },
+    {
+      "epoch": 0.5544554455445545,
+      "grad_norm": 6.830944538116455,
+      "learning_rate": 4.8648344966672767e-05,
+      "loss": 2.7697,
+      "step": 112
+    },
+    {
+      "epoch": 0.5594059405940595,
+      "grad_norm": 6.300211429595947,
+      "learning_rate": 4.774593057618621e-05,
+      "loss": 2.8706,
+      "step": 113
+    },
+    {
+      "epoch": 0.5643564356435643,
+      "grad_norm": 6.06986141204834,
+      "learning_rate": 4.6845499375848686e-05,
+      "loss": 2.5056,
+      "step": 114
+    },
+    {
+      "epoch": 0.5693069306930693,
+      "grad_norm": 5.525240421295166,
+      "learning_rate": 4.5947297534559625e-05,
+      "loss": 2.5763,
+      "step": 115
+    },
+    {
+      "epoch": 0.5742574257425742,
+      "grad_norm": 5.942731857299805,
+      "learning_rate": 4.5051570611733976e-05,
+      "loss": 2.5812,
+      "step": 116
+    },
+    {
+      "epoch": 0.5792079207920792,
+      "grad_norm": NaN,
+      "learning_rate": 4.415856349016859e-05,
+      "loss": 5.42,
+      "step": 117
+    },
+    {
+      "epoch": 0.5841584158415841,
+      "grad_norm": NaN,
+      "learning_rate": 4.326852030909393e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.5891089108910891,
+      "grad_norm": NaN,
+      "learning_rate": 4.238168439742867e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.594059405940594,
+      "grad_norm": NaN,
+      "learning_rate": 4.149829820725605e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.599009900990099,
+      "grad_norm": NaN,
+      "learning_rate": 4.0618603247539916e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.6039603960396039,
+      "grad_norm": NaN,
+      "learning_rate": 3.9742840018098564e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.6089108910891089,
+      "grad_norm": NaN,
+      "learning_rate": 3.887124794385445e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.6138613861386139,
+      "grad_norm": NaN,
+      "learning_rate": 3.80040653093779e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.6188118811881188,
+      "grad_norm": NaN,
+      "learning_rate": 3.714152919374241e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.6237623762376238,
+      "grad_norm": NaN,
+      "learning_rate": 3.628387540570963e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.6287128712871287,
+      "grad_norm": NaN,
+      "learning_rate": 3.543133841926159e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.6336633663366337,
+      "grad_norm": NaN,
+      "learning_rate": 3.458415130949785e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.6386138613861386,
+      "grad_norm": NaN,
+      "learning_rate": 3.374254568891514e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.6435643564356436,
+      "grad_norm": NaN,
+      "learning_rate": 3.290675164408669e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.6485148514851485,
+      "grad_norm": NaN,
+      "learning_rate": 3.207699767275904e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.6534653465346535,
+      "grad_norm": NaN,
+      "learning_rate": 3.12535106213829e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.6584158415841584,
+      "grad_norm": NaN,
+      "learning_rate": 3.0436515623095647e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.6633663366336634,
+      "grad_norm": NaN,
+      "learning_rate": 2.962623603617218e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.6683168316831684,
+      "grad_norm": NaN,
+      "learning_rate": 2.8822893382960955e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.6732673267326733,
+      "grad_norm": NaN,
+      "learning_rate": 2.802670728932207e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.6782178217821783,
+      "grad_norm": NaN,
+      "learning_rate": 2.723789542458361e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.6831683168316832,
+      "grad_norm": NaN,
+      "learning_rate": 2.6456673442033183e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.6881188118811881,
+      "grad_norm": NaN,
+      "learning_rate": 2.5683254919960356e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.693069306930693,
+      "grad_norm": NaN,
+      "learning_rate": 2.4917851303266533e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.698019801980198,
+      "grad_norm": NaN,
+      "learning_rate": 2.4160671845658007e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.7029702970297029,
+      "grad_norm": NaN,
+      "learning_rate": 2.3411923552438105e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.7079207920792079,
+      "grad_norm": NaN,
+      "learning_rate": 2.2671811123913983e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.7128712871287128,
+      "grad_norm": NaN,
+      "learning_rate": 2.194053689943362e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.7178217821782178,
+      "grad_norm": NaN,
+      "learning_rate": 2.121830080206827e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.7227722772277227,
+      "grad_norm": NaN,
+      "learning_rate": 2.0505300283955464e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.7277227722772277,
+      "grad_norm": NaN,
+      "learning_rate": 1.9801730272317585e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.7326732673267327,
+      "grad_norm": NaN,
+      "learning_rate": 1.910778311617072e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.7376237623762376,
+      "grad_norm": NaN,
+      "learning_rate": 1.8423648533738342e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.7425742574257426,
+      "grad_norm": NaN,
+      "learning_rate": 1.7749513560584252e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.7425742574257426,
+      "eval_loss": NaN,
+      "eval_runtime": 80.2602,
+      "eval_samples_per_second": 4.236,
+      "eval_steps_per_second": 1.059,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.597261386312581e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null