Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +46 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fbb8c76055052ddbf6ff844f41e3628e262ae81230b661cd81e54f0a413ae47
 size 109009752

 version https://git-lfs.github.com/spec/v1
+oid sha256:54ebc1bc56647d16e2ba7a0521ea1caf5bdfbe306346caef694004ac0115b2cf
 size 109009752

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a554d16044173d6086404aa65dea2de093e1742fce471dbdd28f60e1fdfa2dad
 size 56088148

 version https://git-lfs.github.com/spec/v1
+oid sha256:88da9b473d35427cb5db357a999680df67efb85e98750298ba28c16c41905764
 size 56088148

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:628fcfb0f7355f39edcb547fdd44ebd63890caba4c1eaf343c1fea624940db68
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:38c142131baef1355b873a2c67e4c735b6209235a2e80b579d174b88c74e83cc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9e02dc10b7239989ab9b4418ee704e53fad611ad6b77ad633028bb8eb5238dd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fc7800513a1b4dd006c457152c700dd768bb49ee4ed8e4d9665a4e42095b054
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.010265359544218037,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -58,6 +58,49 @@
       "eval_samples_per_second": 23.748,
       "eval_steps_per_second": 11.88,
       "step": 50
     }
   ],
   "logging_steps": 10,
@@ -77,7 +120,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.140578662219776e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.020530719088436074,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.748,
       "eval_steps_per_second": 11.88,
       "step": 50
+    },
+    {
+      "epoch": 0.012318431453061643,
+      "grad_norm": 0.49055156111717224,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 0.3168,
+      "step": 60
+    },
+    {
+      "epoch": 0.014371503361905251,
+      "grad_norm": 0.5417104363441467,
+      "learning_rate": 0.00015469481581224272,
+      "loss": 0.3073,
+      "step": 70
+    },
+    {
+      "epoch": 0.016424575270748858,
+      "grad_norm": 0.681601345539093,
+      "learning_rate": 0.00014016954246529696,
+      "loss": 0.3046,
+      "step": 80
+    },
+    {
+      "epoch": 0.018477647179592466,
+      "grad_norm": 0.581589937210083,
+      "learning_rate": 0.00012454854871407994,
+      "loss": 0.3075,
+      "step": 90
+    },
+    {
+      "epoch": 0.020530719088436074,
+      "grad_norm": 0.5185021758079529,
+      "learning_rate": 0.00010825793454723325,
+      "loss": 0.295,
+      "step": 100
+    },
+    {
+      "epoch": 0.020530719088436074,
+      "eval_loss": 0.2953387498855591,
+      "eval_runtime": 86.335,
+      "eval_samples_per_second": 23.756,
+      "eval_steps_per_second": 11.884,
+      "step": 100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.254755040591872e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null