Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e24aabddf40843a162afb813ceac2af6f75d160d89a331c309fcc411148f32
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5fcf398ddc43f0fe7947aa0d7aae1b256bd586becea6681fdccb5a7e4e80988
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:413f8f0dba780c2795c8c5f425624b1677480e26c5854f7d3ae1159de63a58a7
 size 325340244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd7bbffab31ef85189df5831ae75df244cb9474d0b73348218ee6536aec9194b
 size 325340244

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f209ebe6b7ad32497f4bcecad7acd9f307fe601e3a12883130313e5fe53bf40
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:23256fad5379319057ee2de813112433282d29716614f53ca9775f247ed76254
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fce8e677bb7386f80f19f2b52163f28d827949784afc431a846b58d7c09959b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4c15c93e093cba090b2f3583592294b602741c9988a1980b16636e603079f25
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.23859120905399323,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.2660753880266075,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,49 @@
       "eval_samples_per_second": 12.428,
       "eval_steps_per_second": 3.114,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -301,7 +344,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.515427619576218e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.17829522490501404,
+  "best_model_checkpoint": "miner_id_24/checkpoint-350",
+  "epoch": 0.31042128603104213,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.428,
       "eval_steps_per_second": 3.114,
       "step": 300
+    },
+    {
+      "epoch": 0.2749445676274945,
+      "grad_norm": 0.5670942068099976,
+      "learning_rate": 7.618684949223341e-05,
+      "loss": 0.2459,
+      "step": 310
+    },
+    {
+      "epoch": 0.2838137472283814,
+      "grad_norm": 0.9786374568939209,
+      "learning_rate": 6.94437920653178e-05,
+      "loss": 0.2879,
+      "step": 320
+    },
+    {
+      "epoch": 0.2926829268292683,
+      "grad_norm": 0.6507399082183838,
+      "learning_rate": 6.285203736170084e-05,
+      "loss": 0.1876,
+      "step": 330
+    },
+    {
+      "epoch": 0.30155210643015523,
+      "grad_norm": 0.4873329699039459,
+      "learning_rate": 5.6443699747697714e-05,
+      "loss": 0.1806,
+      "step": 340
+    },
+    {
+      "epoch": 0.31042128603104213,
+      "grad_norm": 1.1811214685440063,
+      "learning_rate": 5.025000000000002e-05,
+      "loss": 0.1805,
+      "step": 350
+    },
+    {
+      "epoch": 0.31042128603104213,
+      "eval_loss": 0.17829522490501404,
+      "eval_runtime": 38.3654,
+      "eval_samples_per_second": 12.381,
+      "eval_steps_per_second": 3.102,
+      "step": 350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.765202971492352e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null