Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a2f5dacad9e643e3111202e8da6cbb000ee0d02f836c7137abce8695d0b95e3
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:d005130bbd79f63ed3576d1fb5bde54f18c3f8002c2569b44bdd45c4dfa32a2e
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00f026b1a2fd6ad0b196a5e8b6d969154739d312e4ffad36b61e1ee1004d316c
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:88148e0e8f3d7719ea166dae64c36638701c6fcf4624688705dc0786ae94a247
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0233142f8a03e66bb48544179782708459094384dd42895597bcdc509d989f7e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bec849e25acd8dd93c6dc0cc1f78247dec56dc50df0766dc1fb28a024ff6966
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d618e72555a9c2fdcc9a6d8a15da7779669af7b5e00bbe111e68822be4539346
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d48e757787bf7fc889c741def8f67efb8c383ce859146812f7dbd958398696a3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.49462634325027466,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.02829121086382497,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -241,6 +241,119 @@
       "eval_samples_per_second": 23.843,
       "eval_steps_per_second": 5.969,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -269,7 +382,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.56173970292736e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4766067862510681,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.04243681629573746,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.843,
       "eval_steps_per_second": 5.969,
       "step": 300
+    },
+    {
+      "epoch": 0.02923425122595247,
+      "grad_norm": 1.1752290725708008,
+      "learning_rate": 2.4554044110755066e-05,
+      "loss": 0.5023,
+      "step": 310
+    },
+    {
+      "epoch": 0.03017729158807997,
+      "grad_norm": 1.613908290863037,
+      "learning_rate": 2.3279186236030468e-05,
+      "loss": 0.452,
+      "step": 320
+    },
+    {
+      "epoch": 0.03112033195020747,
+      "grad_norm": 1.15360426902771,
+      "learning_rate": 2.2e-05,
+      "loss": 0.4926,
+      "step": 330
+    },
+    {
+      "epoch": 0.03206337231233497,
+      "grad_norm": 0.985500693321228,
+      "learning_rate": 2.072081376396953e-05,
+      "loss": 0.5447,
+      "step": 340
+    },
+    {
+      "epoch": 0.033006412674462464,
+      "grad_norm": 0.9483439922332764,
+      "learning_rate": 1.9445955889244933e-05,
+      "loss": 0.5562,
+      "step": 350
+    },
+    {
+      "epoch": 0.033949453036589965,
+      "grad_norm": 1.3792706727981567,
+      "learning_rate": 1.8179740091327534e-05,
+      "loss": 0.5402,
+      "step": 360
+    },
+    {
+      "epoch": 0.034892493398717465,
+      "grad_norm": 0.8846226334571838,
+      "learning_rate": 1.6926450843666314e-05,
+      "loss": 0.5073,
+      "step": 370
+    },
+    {
+      "epoch": 0.035835533760844966,
+      "grad_norm": 1.1274725198745728,
+      "learning_rate": 1.569032888035602e-05,
+      "loss": 0.4089,
+      "step": 380
+    },
+    {
+      "epoch": 0.03677857412297246,
+      "grad_norm": 1.4087094068527222,
+      "learning_rate": 1.447555684683529e-05,
+      "loss": 0.5137,
+      "step": 390
+    },
+    {
+      "epoch": 0.03772161448509996,
+      "grad_norm": 1.4227954149246216,
+      "learning_rate": 1.3286245147138549e-05,
+      "loss": 0.4764,
+      "step": 400
+    },
+    {
+      "epoch": 0.03866465484722746,
+      "grad_norm": 1.189937710762024,
+      "learning_rate": 1.2126418035589831e-05,
+      "loss": 0.4483,
+      "step": 410
+    },
+    {
+      "epoch": 0.03960769520935496,
+      "grad_norm": 1.5125129222869873,
+      "learning_rate": 1.1000000000000005e-05,
+      "loss": 0.3932,
+      "step": 420
+    },
+    {
+      "epoch": 0.040550735571482456,
+      "grad_norm": 1.0411937236785889,
+      "learning_rate": 9.910802482442268e-06,
+      "loss": 0.47,
+      "step": 430
+    },
+    {
+      "epoch": 0.04149377593360996,
+      "grad_norm": 2.2022852897644043,
+      "learning_rate": 8.86251098253871e-06,
+      "loss": 0.5126,
+      "step": 440
+    },
+    {
+      "epoch": 0.04243681629573746,
+      "grad_norm": 1.1059151887893677,
+      "learning_rate": 7.858672586896134e-06,
+      "loss": 0.4136,
+      "step": 450
+    },
+    {
+      "epoch": 0.04243681629573746,
+      "eval_loss": 0.4766067862510681,
+      "eval_runtime": 93.545,
+      "eval_samples_per_second": 23.871,
+      "eval_steps_per_second": 5.976,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.834345877929984e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null