Training in progress, step 374, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2d25b88e084ebd1782d201ceb195fe6db0730594ab101aeca0c6eef087fe8aa
 size 692136856

 version https://git-lfs.github.com/spec/v1
+oid sha256:8451e588a45163d61a250025d9fe1becefe5afb2ebefc4d027e4e03754fa2eb3
 size 692136856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2450dc03895aa4a5edc22e7d6710bfb27b0462b4e19005486a1604c4a7f4ceee
 size 85723732

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d4f6611287b070b2030de06a9d530bcbb55107b364b6ac4e1e5598f37ed1871
 size 85723732

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd3ee42edb81b08784cce5af0d531cc06157d25956a649c4a46b5f301140f33b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:852b4f618a18afb719aa9c5d0ac61182c6a8e953aadb45c389358df7f1d84b41
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6999f9aad8d44fbf7db1d80d56ad86630abb8e28a7187e80ed24f8546462146
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:51094b5d327949483be134a2a7ce82f120d34a302bf097e81122d94eff7cf8c6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.022909507445589918,
   "eval_steps": 34,
-  "global_step": 340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -886,6 +886,91 @@
       "eval_samples_per_second": 14.028,
       "eval_steps_per_second": 1.754,
       "step": 340
     }
   ],
   "logging_steps": 3,
@@ -905,7 +990,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.7812833290747904e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.025200458190148912,
   "eval_steps": 34,
+  "global_step": 374,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.028,
       "eval_steps_per_second": 1.754,
       "step": 340
+    },
+    {
+      "epoch": 0.02304426925409339,
+      "grad_norm": 0.6962878108024597,
+      "learning_rate": 2.679304450853401e-06,
+      "loss": 0.9048,
+      "step": 342
+    },
+    {
+      "epoch": 0.023246411966848596,
+      "grad_norm": 0.6920527219772339,
+      "learning_rate": 2.4137391347404476e-06,
+      "loss": 0.8219,
+      "step": 345
+    },
+    {
+      "epoch": 0.0234485546796038,
+      "grad_norm": 0.7300416827201843,
+      "learning_rate": 2.1613635589349756e-06,
+      "loss": 0.8256,
+      "step": 348
+    },
+    {
+      "epoch": 0.023650697392359005,
+      "grad_norm": 0.6342306137084961,
+      "learning_rate": 1.922325103666281e-06,
+      "loss": 0.8223,
+      "step": 351
+    },
+    {
+      "epoch": 0.02385284010511421,
+      "grad_norm": 0.6507661938667297,
+      "learning_rate": 1.696763360660808e-06,
+      "loss": 0.8241,
+      "step": 354
+    },
+    {
+      "epoch": 0.024054982817869417,
+      "grad_norm": 0.7264770269393921,
+      "learning_rate": 1.4848100516245717e-06,
+      "loss": 0.8538,
+      "step": 357
+    },
+    {
+      "epoch": 0.02425712553062462,
+      "grad_norm": 0.8372617363929749,
+      "learning_rate": 1.286588951321363e-06,
+      "loss": 0.8162,
+      "step": 360
+    },
+    {
+      "epoch": 0.024459268243379826,
+      "grad_norm": 0.7067350149154663,
+      "learning_rate": 1.102215815291774e-06,
+      "loss": 0.7685,
+      "step": 363
+    },
+    {
+      "epoch": 0.02466141095613503,
+      "grad_norm": 0.7689423561096191,
+      "learning_rate": 9.317983122552332e-07,
+      "loss": 0.8076,
+      "step": 366
+    },
+    {
+      "epoch": 0.024863553668890235,
+      "grad_norm": 0.6847316026687622,
+      "learning_rate": 7.754359612344859e-07,
+      "loss": 0.8129,
+      "step": 369
+    },
+    {
+      "epoch": 0.025065696381645443,
+      "grad_norm": 0.7521365880966187,
+      "learning_rate": 6.332200734393057e-07,
+      "loss": 0.8118,
+      "step": 372
+    },
+    {
+      "epoch": 0.025200458190148912,
+      "eval_loss": 0.8087900876998901,
+      "eval_runtime": 1779.996,
+      "eval_samples_per_second": 14.042,
+      "eval_steps_per_second": 1.756,
+      "step": 374
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 5.2594116619822694e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null