Training in progress, step 150, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4bf72258a03885a3a6eb693be113c4f14c49ef2cb5ef4e9dcc2e4fc30af0c41
 size 559894228

 version https://git-lfs.github.com/spec/v1
+oid sha256:d51e7e4b5a29805edfbbaf5bae4262348805a8118ecb765aa8783246269bd884
 size 559894228

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01fa333064af9807e2ffc4731a13d7fd7c3f70b2b59eb96f5c5fea37f68236ca
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc5700ac1646c430df1f8ecbe17ca23e853cec6365bfad6578c5b4cbcb9947ec
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c5525f1d8420ca8a81a7fd2ec397a508131d03210dfd36c7ac5758b0e6313b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.00843775049571784,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 5.141,
       "eval_steps_per_second": 1.286,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.047438714431078e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.012656625743576762,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.141,
       "eval_steps_per_second": 1.286,
       "step": 100
+    },
+    {
+      "epoch": 0.00852212800067502,
+      "grad_norm": NaN,
+      "learning_rate": 5.231368421052631e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.008606505505632198,
+      "grad_norm": NaN,
+      "learning_rate": 5.178526315789474e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.008690883010589377,
+      "grad_norm": NaN,
+      "learning_rate": 5.1256842105263165e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.008775260515546555,
+      "grad_norm": NaN,
+      "learning_rate": 5.072842105263158e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.008859638020503734,
+      "grad_norm": NaN,
+      "learning_rate": 5.02e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.008944015525460912,
+      "grad_norm": NaN,
+      "learning_rate": 4.967157894736842e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.00902839303041809,
+      "grad_norm": NaN,
+      "learning_rate": 4.914315789473684e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.00911277053537527,
+      "grad_norm": NaN,
+      "learning_rate": 4.861473684210526e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.009197148040332448,
+      "grad_norm": NaN,
+      "learning_rate": 4.8086315789473686e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.009281525545289626,
+      "grad_norm": NaN,
+      "learning_rate": 4.7557894736842104e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.009365903050246805,
+      "grad_norm": NaN,
+      "learning_rate": 4.702947368421053e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.009450280555203982,
+      "grad_norm": NaN,
+      "learning_rate": 4.6501052631578946e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.00953465806016116,
+      "grad_norm": NaN,
+      "learning_rate": 4.5972631578947364e-05,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.009619035565118339,
+      "grad_norm": NaN,
+      "learning_rate": 4.544421052631579e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.009703413070075518,
+      "grad_norm": NaN,
+      "learning_rate": 4.4915789473684213e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.009787790575032696,
+      "grad_norm": NaN,
+      "learning_rate": 4.438736842105263e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.009872168079989875,
+      "grad_norm": NaN,
+      "learning_rate": 4.3858947368421056e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.009956545584947053,
+      "grad_norm": NaN,
+      "learning_rate": 4.3330526315789474e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.010040923089904232,
+      "grad_norm": NaN,
+      "learning_rate": 4.280210526315789e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.01012530059486141,
+      "grad_norm": NaN,
+      "learning_rate": 4.2273684210526317e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.010209678099818589,
+      "grad_norm": NaN,
+      "learning_rate": 4.174526315789474e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.010294055604775768,
+      "grad_norm": NaN,
+      "learning_rate": 4.121684210526316e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.010378433109732944,
+      "grad_norm": NaN,
+      "learning_rate": 4.068842105263158e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.010462810614690123,
+      "grad_norm": NaN,
+      "learning_rate": 4.016e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.010547188119647301,
+      "grad_norm": NaN,
+      "learning_rate": 3.963157894736842e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.01063156562460448,
+      "grad_norm": NaN,
+      "learning_rate": 3.9103157894736844e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.010715943129561659,
+      "grad_norm": NaN,
+      "learning_rate": 3.857473684210526e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.010800320634518837,
+      "grad_norm": NaN,
+      "learning_rate": 3.804631578947369e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.010884698139476016,
+      "grad_norm": NaN,
+      "learning_rate": 3.7517894736842105e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.010969075644433194,
+      "grad_norm": NaN,
+      "learning_rate": 3.698947368421052e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.011053453149390373,
+      "grad_norm": NaN,
+      "learning_rate": 3.646105263157895e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.011137830654347551,
+      "grad_norm": NaN,
+      "learning_rate": 3.593263157894737e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.01122220815930473,
+      "grad_norm": NaN,
+      "learning_rate": 3.540421052631579e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.011306585664261909,
+      "grad_norm": NaN,
+      "learning_rate": 3.4875789473684215e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.011390963169219085,
+      "grad_norm": NaN,
+      "learning_rate": 3.434736842105263e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.011475340674176264,
+      "grad_norm": NaN,
+      "learning_rate": 3.381894736842105e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.011559718179133443,
+      "grad_norm": NaN,
+      "learning_rate": 3.329052631578947e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.011644095684090621,
+      "grad_norm": NaN,
+      "learning_rate": 3.27621052631579e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.0117284731890478,
+      "grad_norm": NaN,
+      "learning_rate": 3.223368421052632e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.011812850694004978,
+      "grad_norm": NaN,
+      "learning_rate": 3.1705263157894736e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.011897228198962157,
+      "grad_norm": NaN,
+      "learning_rate": 3.117684210526316e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.011981605703919335,
+      "grad_norm": NaN,
+      "learning_rate": 3.064842105263158e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.012065983208876514,
+      "grad_norm": NaN,
+      "learning_rate": 3.012e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.012150360713833692,
+      "grad_norm": NaN,
+      "learning_rate": 2.9591578947368418e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.012234738218790871,
+      "grad_norm": NaN,
+      "learning_rate": 2.9063157894736842e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.01231911572374805,
+      "grad_norm": NaN,
+      "learning_rate": 2.8534736842105264e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.012403493228705226,
+      "grad_norm": NaN,
+      "learning_rate": 2.800631578947368e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.012487870733662405,
+      "grad_norm": NaN,
+      "learning_rate": 2.7477894736842106e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.012572248238619584,
+      "grad_norm": NaN,
+      "learning_rate": 2.6949473684210527e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.012656625743576762,
+      "grad_norm": NaN,
+      "learning_rate": 2.6421052631578945e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.012656625743576762,
+      "eval_loss": NaN,
+      "eval_runtime": 970.289,
+      "eval_samples_per_second": 5.143,
+      "eval_steps_per_second": 1.286,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0553627129570918e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null