Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf826939788dc064dbc4653920c4a877ca11c3ec1ec0b4f3a33404dbae2fb8e1
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c460c795486334879fe7cf479e29c7cb2036d0f38277ddd3b7d880eafb7b340
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be081ba6ceff145ec98fb1bca393a8e3d901e39b1e5894b3cf4e7e0b7eb7546f
 size 198011700

 version https://git-lfs.github.com/spec/v1
+oid sha256:b602487d2d0edbaee18d88ee52a377d0fb838b663687b0ce9b565652381fe1b0
 size 198011700

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e59313879bfdb97fb21c0d59e8e1de21b47ac7172e45d4592225c2ecc4649572
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd60e931e8b1cd48273897c56fa931b9635d29b2d344c46bfe0ed5e5e81df16d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e3407292f65425c0593f095883f5f3c050baccb28fc15b3c1ad88090d6c23ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9aefa5c0989fb1076f44dee5ec81119730caab480902e567590e4c3defecd81d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5473635196685791,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.056417489421720736,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,49 @@
       "eval_samples_per_second": 20.494,
       "eval_steps_per_second": 5.126,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -301,7 +344,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2535313083531264e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5349125862121582,
+  "best_model_checkpoint": "miner_id_24/checkpoint-350",
+  "epoch": 0.06582040432534085,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.494,
       "eval_steps_per_second": 5.126,
       "step": 300
+    },
+    {
+      "epoch": 0.05829807240244476,
+      "grad_norm": 0.7474403977394104,
+      "learning_rate": 8.263051337963623e-05,
+      "loss": 0.7482,
+      "step": 310
+    },
+    {
+      "epoch": 0.06017865538316878,
+      "grad_norm": 0.824717104434967,
+      "learning_rate": 7.531714761313074e-05,
+      "loss": 0.5858,
+      "step": 320
+    },
+    {
+      "epoch": 0.06205923836389281,
+      "grad_norm": 0.6236701011657715,
+      "learning_rate": 6.816788131766559e-05,
+      "loss": 0.5217,
+      "step": 330
+    },
+    {
+      "epoch": 0.06393982134461683,
+      "grad_norm": 0.8206383585929871,
+      "learning_rate": 6.121754499999055e-05,
+      "loss": 0.4875,
+      "step": 340
+    },
+    {
+      "epoch": 0.06582040432534085,
+      "grad_norm": 0.7857638001441956,
+      "learning_rate": 5.450000000000003e-05,
+      "loss": 0.4591,
+      "step": 350
+    },
+    {
+      "epoch": 0.06582040432534085,
+      "eval_loss": 0.5349125862121582,
+      "eval_runtime": 110.1428,
+      "eval_samples_per_second": 20.328,
+      "eval_steps_per_second": 5.084,
+      "step": 350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.791008947398246e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null