Training in progress, step 99, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +61 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eb2a7d1cd209b09e519aebd5c504a2bb79a6c247a725137edfba7e1054921c9
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1219f5894cdc662327e89dff0679318fa3da5e1878889f123cd2b73e79af67b
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:681afb8fbb04b1289b320a58f2525c41f018444605d64eca984a764854b64345
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:f428f6095473bd81a123b2f9d1618581ac1d7e2ecd929aaf93b581b053326f64
 size 85723284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaef23ad6b9358048cfa2eb81866d8f39693a1c7df686b619cd9d9ea3051d3a5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ca5ed7077b7e80b15b5b40bb67c00bb6aeb10626f97d2892620cc3f79d1da45
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90f7a57653bcfdeb8d3e27706e79cc5f6e1f14bbd0ff72a8e33edaaa89ef8274
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:43444b0a2aaeda40531bf13a694e8a3eeeb489f81435e9521c012609a5be4dc4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.014322341083900628,
   "eval_steps": 9,
-  "global_step": 81,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -276,6 +276,64 @@
       "eval_samples_per_second": 14.066,
       "eval_steps_per_second": 1.759,
       "step": 81
     }
   ],
   "logging_steps": 3,
@@ -295,7 +353,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1390710924600934e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.017505083546989656,
   "eval_steps": 9,
+  "global_step": 99,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.066,
       "eval_steps_per_second": 1.759,
       "step": 81
+    },
+    {
+      "epoch": 0.014852798161082132,
+      "grad_norm": 3.490804672241211,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 2.6716,
+      "step": 84
+    },
+    {
+      "epoch": 0.015383255238263636,
+      "grad_norm": 3.8302175998687744,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 2.7132,
+      "step": 87
+    },
+    {
+      "epoch": 0.015913712315445142,
+      "grad_norm": 4.030756950378418,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 2.7684,
+      "step": 90
+    },
+    {
+      "epoch": 0.015913712315445142,
+      "eval_loss": 0.6902585625648499,
+      "eval_runtime": 677.2291,
+      "eval_samples_per_second": 14.065,
+      "eval_steps_per_second": 1.759,
+      "step": 90
+    },
+    {
+      "epoch": 0.016444169392626648,
+      "grad_norm": 3.537766218185425,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 2.7386,
+      "step": 93
+    },
+    {
+      "epoch": 0.01697462646980815,
+      "grad_norm": 3.5246758460998535,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 2.8188,
+      "step": 96
+    },
+    {
+      "epoch": 0.017505083546989656,
+      "grad_norm": 3.6730434894561768,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 2.7731,
+      "step": 99
+    },
+    {
+      "epoch": 0.017505083546989656,
+      "eval_loss": 0.6894702911376953,
+      "eval_runtime": 676.8252,
+      "eval_samples_per_second": 14.073,
+      "eval_steps_per_second": 1.76,
+      "step": 99
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.3921980018956698e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null