Training in progress, step 100, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79b1b14a46bb66418b97ab0cd7d43145e9fba0abd63d7bccf95bdf4bc469c9f1
 size 559894228

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4bf72258a03885a3a6eb693be113c4f14c49ef2cb5ef4e9dcc2e4fc30af0c41
 size 559894228

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c33c4191e4b5e2b908e731e52034b12d21b2bdab6d98e635118fef6bb7803cb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:01fa333064af9807e2ffc4731a13d7fd7c3f70b2b59eb96f5c5fea37f68236ca
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6626a958c42744f62f15b40b71145564a751f3973a73662e664e23d40b38c82
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.00421887524785892,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 5.142,
       "eval_steps_per_second": 1.286,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -387,7 +745,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5412502992912384e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.00843775049571784,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.142,
       "eval_steps_per_second": 1.286,
       "step": 50
+    },
+    {
+      "epoch": 0.004303252752816099,
+      "grad_norm": NaN,
+      "learning_rate": 7.873473684210526e-05,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.0043876302577732776,
+      "grad_norm": NaN,
+      "learning_rate": 7.820631578947369e-05,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.004472007762730456,
+      "grad_norm": NaN,
+      "learning_rate": 7.76778947368421e-05,
+      "loss": 0.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.004556385267687635,
+      "grad_norm": NaN,
+      "learning_rate": 7.714947368421052e-05,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.004640762772644813,
+      "grad_norm": NaN,
+      "learning_rate": 7.662105263157896e-05,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.004725140277601991,
+      "grad_norm": NaN,
+      "learning_rate": 7.609263157894737e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.0048095177825591695,
+      "grad_norm": NaN,
+      "learning_rate": 7.556421052631579e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.004893895287516348,
+      "grad_norm": NaN,
+      "learning_rate": 7.503578947368421e-05,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.004978272792473527,
+      "grad_norm": NaN,
+      "learning_rate": 7.450736842105263e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.005062650297430705,
+      "grad_norm": NaN,
+      "learning_rate": 7.397894736842105e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.005147027802387884,
+      "grad_norm": NaN,
+      "learning_rate": 7.345052631578948e-05,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.0052314053073450615,
+      "grad_norm": NaN,
+      "learning_rate": 7.29221052631579e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.00531578281230224,
+      "grad_norm": NaN,
+      "learning_rate": 7.239368421052631e-05,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.005400160317259419,
+      "grad_norm": NaN,
+      "learning_rate": 7.186526315789474e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.005484537822216597,
+      "grad_norm": NaN,
+      "learning_rate": 7.133684210526316e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.005568915327173776,
+      "grad_norm": NaN,
+      "learning_rate": 7.080842105263158e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.005653292832130954,
+      "grad_norm": NaN,
+      "learning_rate": 7.028e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.005737670337088132,
+      "grad_norm": NaN,
+      "learning_rate": 6.975157894736843e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.0058220478420453105,
+      "grad_norm": NaN,
+      "learning_rate": 6.922315789473685e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.005906425347002489,
+      "grad_norm": NaN,
+      "learning_rate": 6.869473684210527e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.005990802851959668,
+      "grad_norm": NaN,
+      "learning_rate": 6.816631578947368e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.006075180356916846,
+      "grad_norm": NaN,
+      "learning_rate": 6.76378947368421e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.006159557861874025,
+      "grad_norm": NaN,
+      "learning_rate": 6.710947368421052e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.0062439353668312025,
+      "grad_norm": NaN,
+      "learning_rate": 6.658105263157894e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.006328312871788381,
+      "grad_norm": NaN,
+      "learning_rate": 6.605263157894737e-05,
+      "loss": 0.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.00641269037674556,
+      "grad_norm": NaN,
+      "learning_rate": 6.55242105263158e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.006497067881702738,
+      "grad_norm": NaN,
+      "learning_rate": 6.499578947368422e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.006581445386659917,
+      "grad_norm": NaN,
+      "learning_rate": 6.446736842105264e-05,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.0066658228916170945,
+      "grad_norm": NaN,
+      "learning_rate": 6.393894736842105e-05,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.006750200396574273,
+      "grad_norm": NaN,
+      "learning_rate": 6.341052631578947e-05,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.006834577901531452,
+      "grad_norm": NaN,
+      "learning_rate": 6.288210526315789e-05,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.00691895540648863,
+      "grad_norm": NaN,
+      "learning_rate": 6.235368421052632e-05,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.007003332911445809,
+      "grad_norm": NaN,
+      "learning_rate": 6.182526315789474e-05,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.007087710416402987,
+      "grad_norm": NaN,
+      "learning_rate": 6.129684210526316e-05,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.007172087921360165,
+      "grad_norm": NaN,
+      "learning_rate": 6.076842105263158e-05,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.0072564654263173435,
+      "grad_norm": NaN,
+      "learning_rate": 6.024e-05,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.007340842931274522,
+      "grad_norm": NaN,
+      "learning_rate": 5.971157894736842e-05,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.007425220436231701,
+      "grad_norm": NaN,
+      "learning_rate": 5.9183157894736835e-05,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.007509597941188879,
+      "grad_norm": NaN,
+      "learning_rate": 5.8654736842105267e-05,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.007593975446146058,
+      "grad_norm": NaN,
+      "learning_rate": 5.8126315789473684e-05,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.0076783529511032355,
+      "grad_norm": NaN,
+      "learning_rate": 5.759789473684211e-05,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.007762730456060414,
+      "grad_norm": NaN,
+      "learning_rate": 5.706947368421053e-05,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.007847107961017593,
+      "grad_norm": NaN,
+      "learning_rate": 5.6541052631578945e-05,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.007931485465974771,
+      "grad_norm": NaN,
+      "learning_rate": 5.601263157894736e-05,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.00801586297093195,
+      "grad_norm": NaN,
+      "learning_rate": 5.5484210526315794e-05,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.008100240475889128,
+      "grad_norm": NaN,
+      "learning_rate": 5.495578947368421e-05,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.008184617980846307,
+      "grad_norm": NaN,
+      "learning_rate": 5.442736842105264e-05,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.008268995485803485,
+      "grad_norm": NaN,
+      "learning_rate": 5.3898947368421055e-05,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.008353372990760664,
+      "grad_norm": NaN,
+      "learning_rate": 5.337052631578947e-05,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.00843775049571784,
+      "grad_norm": NaN,
+      "learning_rate": 5.284210526315789e-05,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.00843775049571784,
+      "eval_loss": NaN,
+      "eval_runtime": 970.5833,
+      "eval_samples_per_second": 5.141,
+      "eval_steps_per_second": 1.286,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 7.047438714431078e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null