Training in progress, step 260, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76ac24fa03f98de7b59e79abba929f3aeb5e048bbbf55f2e8d0d38cd880bdbf1
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9b8cba78091a1e79978910e21798429ef88cf6bc423846f62a31e9a53d69c18
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ccba65a6d0400b5d70f2f8e84b9e15fe386318055df0d775c3714c89441b72f
-size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:f78a2c758e1a8ad106a78487e5b08224663b24d72d1f9765848b8ef224e1738e
+size 857338

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b79bdfeb2e849b31d0483fff8a99da1b342901bd79b8b6a533accea74829d81
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b587cda8fb42849f8f93a8df320fec083bf8b13c0ae106b51876fc1af3b04ea
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7988081c02e6f2fc7261042902ac98ffd02e6974000f01aefc8230feec810a81
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:982bf3fd7aeed34e3ad4f725e738ae280a74686f38971dfd5b53c022a7b5da3a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.15847468119351243,
   "eval_steps": 20,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1791,6 +1791,154 @@
       "eval_samples_per_second": 111.158,
       "eval_steps_per_second": 111.158,
       "step": 240
     }
   ],
   "logging_steps": 1,
@@ -1810,7 +1958,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 158384630267904.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.17168090462630514,
   "eval_steps": 20,
+  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 111.158,
       "eval_steps_per_second": 111.158,
       "step": 240
+    },
+    {
+      "epoch": 0.15913499236515208,
+      "grad_norm": 81202.03125,
+      "learning_rate": 0.00029999310547054866,
+      "loss": 152.5614,
+      "step": 241
+    },
+    {
+      "epoch": 0.15979530353679172,
+      "grad_norm": 44808.3828125,
+      "learning_rate": 0.00029999304564890986,
+      "loss": 129.6364,
+      "step": 242
+    },
+    {
+      "epoch": 0.16045561470843134,
+      "grad_norm": 43636.87109375,
+      "learning_rate": 0.0002999929855688702,
+      "loss": 113.3872,
+      "step": 243
+    },
+    {
+      "epoch": 0.16111592588007098,
+      "grad_norm": 61974.05859375,
+      "learning_rate": 0.0002999929252304299,
+      "loss": 104.6228,
+      "step": 244
+    },
+    {
+      "epoch": 0.16177623705171063,
+      "grad_norm": 78535.4375,
+      "learning_rate": 0.0002999928646335889,
+      "loss": 116.442,
+      "step": 245
+    },
+    {
+      "epoch": 0.16243654822335024,
+      "grad_norm": 86542.1796875,
+      "learning_rate": 0.00029999280377834755,
+      "loss": 133.5997,
+      "step": 246
+    },
+    {
+      "epoch": 0.16309685939498988,
+      "grad_norm": 115709.4375,
+      "learning_rate": 0.00029999274266470573,
+      "loss": 156.246,
+      "step": 247
+    },
+    {
+      "epoch": 0.16375717056662953,
+      "grad_norm": 134934.859375,
+      "learning_rate": 0.0002999926812926636,
+      "loss": 157.7942,
+      "step": 248
+    },
+    {
+      "epoch": 0.16441748173826917,
+      "grad_norm": 100172.1328125,
+      "learning_rate": 0.00029999261966222134,
+      "loss": 143.3987,
+      "step": 249
+    },
+    {
+      "epoch": 0.1650777929099088,
+      "grad_norm": 307228.875,
+      "learning_rate": 0.00029999255777337904,
+      "loss": 153.6041,
+      "step": 250
+    },
+    {
+      "epoch": 0.16573810408154843,
+      "grad_norm": 30510.705078125,
+      "learning_rate": 0.0002999924956261367,
+      "loss": 202.106,
+      "step": 251
+    },
+    {
+      "epoch": 0.16639841525318808,
+      "grad_norm": 38848.8671875,
+      "learning_rate": 0.0002999924332204946,
+      "loss": 138.0028,
+      "step": 252
+    },
+    {
+      "epoch": 0.1670587264248277,
+      "grad_norm": 47215.265625,
+      "learning_rate": 0.0002999923705564527,
+      "loss": 117.989,
+      "step": 253
+    },
+    {
+      "epoch": 0.16771903759646734,
+      "grad_norm": 43520.44921875,
+      "learning_rate": 0.00029999230763401116,
+      "loss": 145.8618,
+      "step": 254
+    },
+    {
+      "epoch": 0.16837934876810698,
+      "grad_norm": 60958.9453125,
+      "learning_rate": 0.0002999922444531701,
+      "loss": 168.5038,
+      "step": 255
+    },
+    {
+      "epoch": 0.1690396599397466,
+      "grad_norm": 58285.34765625,
+      "learning_rate": 0.0002999921810139296,
+      "loss": 169.5175,
+      "step": 256
+    },
+    {
+      "epoch": 0.16969997111138624,
+      "grad_norm": 62326.203125,
+      "learning_rate": 0.0002999921173162898,
+      "loss": 156.6914,
+      "step": 257
+    },
+    {
+      "epoch": 0.17036028228302588,
+      "grad_norm": 27963.5078125,
+      "learning_rate": 0.0002999920533602508,
+      "loss": 139.1583,
+      "step": 258
+    },
+    {
+      "epoch": 0.1710205934546655,
+      "grad_norm": 28827.8359375,
+      "learning_rate": 0.0002999919891458127,
+      "loss": 142.2265,
+      "step": 259
+    },
+    {
+      "epoch": 0.17168090462630514,
+      "grad_norm": 24848.3828125,
+      "learning_rate": 0.00029999192467297566,
+      "loss": 122.2599,
+      "step": 260
+    },
+    {
+      "epoch": 0.17168090462630514,
+      "eval_loss": 7.328362941741943,
+      "eval_runtime": 4.5883,
+      "eval_samples_per_second": 107.883,
+      "eval_steps_per_second": 107.883,
+      "step": 260
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 170213574180864.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null