Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +126 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12e3610da58e43e0f2a9f4156ca8ebaada30b635f51c0f6310e6978b2b5ed72f
 size 289452128

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ddc849bf8ae73f1ef410a5af4cefebef25c850fe6aa64a3f099970407e2077b
 size 289452128

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49adb29cf6e99c3760e2ad945fb0eba8101db3d8ba04983aa536935ed5241e4c
 size 147359892

 version https://git-lfs.github.com/spec/v1
+oid sha256:16b789a0109a6a31dacb65e122ed1c2ce24a37ee63b5056a129685229e31f5a0
 size 147359892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:768cd160fa083b37830a0600d568078861196b9d1fda07c2aeb8b0ad5633a1f5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e11decd5f298735b9407ac7e8ae78c4fb93c680e395c292f13e18c63910f07b2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2d754412c61116546142914503e7369d0cc35d3c380a07e5218f595d76b6d96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.2837798595428467,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.41899441340782123,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -389,6 +389,126 @@
       "eval_samples_per_second": 35.25,
       "eval_steps_per_second": 8.827,
       "step": 150
     }
   ],
   "logging_steps": 3,
@@ -412,12 +532,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.96356015734784e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.22296833992004395,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.5586592178770949,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.25,
       "eval_steps_per_second": 8.827,
       "step": 150
+    },
+    {
+      "epoch": 0.4273743016759777,
+      "grad_norm": 1.305745244026184,
+      "learning_rate": 1.435357758543015e-05,
+      "loss": 0.5962,
+      "step": 153
+    },
+    {
+      "epoch": 0.43575418994413406,
+      "grad_norm": 0.8109059929847717,
+      "learning_rate": 1.2658926150792322e-05,
+      "loss": 0.2629,
+      "step": 156
+    },
+    {
+      "epoch": 0.4441340782122905,
+      "grad_norm": 1.5648621320724487,
+      "learning_rate": 1.1056136061894384e-05,
+      "loss": 0.2267,
+      "step": 159
+    },
+    {
+      "epoch": 0.45251396648044695,
+      "grad_norm": 1.0514497756958008,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.2514,
+      "step": 162
+    },
+    {
+      "epoch": 0.46089385474860334,
+      "grad_norm": 0.6054957509040833,
+      "learning_rate": 8.141676086873572e-06,
+      "loss": 0.1733,
+      "step": 165
+    },
+    {
+      "epoch": 0.4692737430167598,
+      "grad_norm": 0.910860538482666,
+      "learning_rate": 6.837175952121306e-06,
+      "loss": 0.2035,
+      "step": 168
+    },
+    {
+      "epoch": 0.4776536312849162,
+      "grad_norm": 1.2614514827728271,
+      "learning_rate": 5.6388590278194096e-06,
+      "loss": 0.2135,
+      "step": 171
+    },
+    {
+      "epoch": 0.4860335195530726,
+      "grad_norm": 0.7164639234542847,
+      "learning_rate": 4.549673247541875e-06,
+      "loss": 0.1844,
+      "step": 174
+    },
+    {
+      "epoch": 0.49441340782122906,
+      "grad_norm": 0.6105827689170837,
+      "learning_rate": 3.5722980755146517e-06,
+      "loss": 0.2386,
+      "step": 177
+    },
+    {
+      "epoch": 0.5027932960893855,
+      "grad_norm": 0.95228511095047,
+      "learning_rate": 2.7091379149682685e-06,
+      "loss": 0.2286,
+      "step": 180
+    },
+    {
+      "epoch": 0.5111731843575419,
+      "grad_norm": 0.7105367183685303,
+      "learning_rate": 1.962316193157593e-06,
+      "loss": 0.1992,
+      "step": 183
+    },
+    {
+      "epoch": 0.5195530726256983,
+      "grad_norm": 0.7583916187286377,
+      "learning_rate": 1.333670137599713e-06,
+      "loss": 0.2144,
+      "step": 186
+    },
+    {
+      "epoch": 0.5279329608938548,
+      "grad_norm": 0.7920324206352234,
+      "learning_rate": 8.247462563808817e-07,
+      "loss": 0.2418,
+      "step": 189
+    },
+    {
+      "epoch": 0.5363128491620112,
+      "grad_norm": 0.847964346408844,
+      "learning_rate": 4.367965336512403e-07,
+      "loss": 0.259,
+      "step": 192
+    },
+    {
+      "epoch": 0.5446927374301676,
+      "grad_norm": 0.6220384836196899,
+      "learning_rate": 1.7077534966650766e-07,
+      "loss": 0.282,
+      "step": 195
+    },
+    {
+      "epoch": 0.553072625698324,
+      "grad_norm": 0.7298959493637085,
+      "learning_rate": 2.7337132953697554e-08,
+      "loss": 0.2359,
+      "step": 198
+    },
+    {
+      "epoch": 0.5586592178770949,
+      "eval_loss": 0.22296833992004395,
+      "eval_runtime": 17.0705,
+      "eval_samples_per_second": 35.324,
+      "eval_steps_per_second": 8.846,
+      "step": 200
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.61808020979712e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null