Training in progress, step 150, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d3fec0bde17c329485a0fa9e7f8f2e147220e5a5406fc99f5b7f314dc52684c
 size 151106

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e52ae39cbd09e4fda25981cd9aced1509545206647e0db85aad816fbd6e8a4a
 size 151106

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dbeeff614ba8e70a77c70e8d0c78eb949b7444ce61c6bdb79d50f3f5747256d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7bf7f8913ac73cfb3a8cd3add41f3b6013c618c3b32d937689bc5bde10fe41c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c5525f1d8420ca8a81a7fd2ec397a508131d03210dfd36c7ac5758b0e6313b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.03769317753486619,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 10.707,
       "eval_steps_per_second": 2.684,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 192833126400.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.05653976630229928,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.707,
       "eval_steps_per_second": 2.684,
       "step": 100
+    },
+    {
+      "epoch": 0.03807010931021485,
+      "grad_norm": NaN,
+      "learning_rate": 5.231368421052631e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.038447041085563516,
+      "grad_norm": NaN,
+      "learning_rate": 5.178526315789474e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.03882397286091217,
+      "grad_norm": NaN,
+      "learning_rate": 5.1256842105263165e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.03920090463626084,
+      "grad_norm": NaN,
+      "learning_rate": 5.072842105263158e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.0395778364116095,
+      "grad_norm": NaN,
+      "learning_rate": 5.02e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.03995476818695816,
+      "grad_norm": NaN,
+      "learning_rate": 4.967157894736842e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.04033169996230682,
+      "grad_norm": NaN,
+      "learning_rate": 4.914315789473684e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.04070863173765549,
+      "grad_norm": NaN,
+      "learning_rate": 4.861473684210526e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.041085563513004145,
+      "grad_norm": NaN,
+      "learning_rate": 4.8086315789473686e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.04146249528835281,
+      "grad_norm": NaN,
+      "learning_rate": 4.7557894736842104e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.04183942706370147,
+      "grad_norm": NaN,
+      "learning_rate": 4.702947368421053e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.04221635883905013,
+      "grad_norm": NaN,
+      "learning_rate": 4.6501052631578946e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.042593290614398795,
+      "grad_norm": NaN,
+      "learning_rate": 4.5972631578947364e-05,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.04297022238974746,
+      "grad_norm": NaN,
+      "learning_rate": 4.544421052631579e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.043347154165096116,
+      "grad_norm": NaN,
+      "learning_rate": 4.4915789473684213e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.04372408594044478,
+      "grad_norm": NaN,
+      "learning_rate": 4.438736842105263e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.044101017715793445,
+      "grad_norm": NaN,
+      "learning_rate": 4.3858947368421056e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.0444779494911421,
+      "grad_norm": NaN,
+      "learning_rate": 4.3330526315789474e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.044854881266490766,
+      "grad_norm": NaN,
+      "learning_rate": 4.280210526315789e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.04523181304183943,
+      "grad_norm": NaN,
+      "learning_rate": 4.2273684210526317e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.04560874481718809,
+      "grad_norm": NaN,
+      "learning_rate": 4.174526315789474e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.04598567659253675,
+      "grad_norm": NaN,
+      "learning_rate": 4.121684210526316e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.046362608367885416,
+      "grad_norm": NaN,
+      "learning_rate": 4.068842105263158e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.04673954014323407,
+      "grad_norm": NaN,
+      "learning_rate": 4.016e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.04711647191858274,
+      "grad_norm": NaN,
+      "learning_rate": 3.963157894736842e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.047493403693931395,
+      "grad_norm": NaN,
+      "learning_rate": 3.9103157894736844e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.04787033546928006,
+      "grad_norm": NaN,
+      "learning_rate": 3.857473684210526e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.04824726724462872,
+      "grad_norm": NaN,
+      "learning_rate": 3.804631578947369e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.04862419901997738,
+      "grad_norm": NaN,
+      "learning_rate": 3.7517894736842105e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.049001130795326045,
+      "grad_norm": NaN,
+      "learning_rate": 3.698947368421052e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.04937806257067471,
+      "grad_norm": NaN,
+      "learning_rate": 3.646105263157895e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.049754994346023367,
+      "grad_norm": NaN,
+      "learning_rate": 3.593263157894737e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.05013192612137203,
+      "grad_norm": NaN,
+      "learning_rate": 3.540421052631579e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.050508857896720695,
+      "grad_norm": NaN,
+      "learning_rate": 3.4875789473684215e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.05088578967206935,
+      "grad_norm": NaN,
+      "learning_rate": 3.434736842105263e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.051262721447418017,
+      "grad_norm": NaN,
+      "learning_rate": 3.381894736842105e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.05163965322276668,
+      "grad_norm": NaN,
+      "learning_rate": 3.329052631578947e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.05201658499811534,
+      "grad_norm": NaN,
+      "learning_rate": 3.27621052631579e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.052393516773464,
+      "grad_norm": NaN,
+      "learning_rate": 3.223368421052632e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.052770448548812667,
+      "grad_norm": NaN,
+      "learning_rate": 3.1705263157894736e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.053147380324161324,
+      "grad_norm": NaN,
+      "learning_rate": 3.117684210526316e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.05352431209950999,
+      "grad_norm": NaN,
+      "learning_rate": 3.064842105263158e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.05390124387485865,
+      "grad_norm": NaN,
+      "learning_rate": 3.012e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.05427817565020731,
+      "grad_norm": NaN,
+      "learning_rate": 2.9591578947368418e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.054655107425555974,
+      "grad_norm": NaN,
+      "learning_rate": 2.9063157894736842e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.05503203920090464,
+      "grad_norm": NaN,
+      "learning_rate": 2.8534736842105264e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.055408970976253295,
+      "grad_norm": NaN,
+      "learning_rate": 2.800631578947368e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.05578590275160196,
+      "grad_norm": NaN,
+      "learning_rate": 2.7477894736842106e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.056162834526950624,
+      "grad_norm": NaN,
+      "learning_rate": 2.6949473684210527e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.05653976630229928,
+      "grad_norm": NaN,
+      "learning_rate": 2.6421052631578945e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.05653976630229928,
+      "eval_loss": NaN,
+      "eval_runtime": 104.3131,
+      "eval_samples_per_second": 10.708,
+      "eval_steps_per_second": 2.684,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 289249689600.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null