Training in progress, step 140, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:393273cdca286ccb40e14205ea36723e7c5c1240080ed35a78dbeb665d070ee9
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:b583587d17c6c7a97a11c9e59c5d69ae6878502971c7d00024d35410cc8bc4ab
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d54a2e2580a8617019d978feb2d6817db3c1af9507f0f49fc2ef229fd5ccdce
 size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:a855e5c8ec97ac48e47fa165986806e7c257deeed8f91cad3e04ecdca2ca02a2
 size 857274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eed95f9b60d673089274be5847cbb94c802446b0a76989fa02d0940d21190b7e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8bec8ada3d1dd406d9aa43c4a27a47f026c1e315b02eae7d5bc447ebde9bea
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a705acd53999263a453e7147fb79a4ea1e0e69c6cfafd3b3b9170876c31d6d7f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50bdc92009888fc74192f19079ad05c940764efafef78e70a576eb66733f4db5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07923734059675622,
   "eval_steps": 20,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -903,6 +903,154 @@
       "eval_samples_per_second": 75.145,
       "eval_steps_per_second": 75.145,
       "step": 120
     }
   ],
   "logging_steps": 1,
@@ -922,7 +1070,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 81003622170624.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09244356402954892,
   "eval_steps": 20,
+  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 75.145,
       "eval_steps_per_second": 75.145,
       "step": 120
+    },
+    {
+      "epoch": 0.07989765176839586,
+      "grad_norm": 10677.837890625,
+      "learning_rate": 0.0002040079434189748,
+      "loss": 90.3255,
+      "step": 121
+    },
+    {
+      "epoch": 0.08055796294003549,
+      "grad_norm": 13001.4951171875,
+      "learning_rate": 0.00020248882546534326,
+      "loss": 94.9763,
+      "step": 122
+    },
+    {
+      "epoch": 0.08121827411167512,
+      "grad_norm": 88364.6875,
+      "learning_rate": 0.00020096354771531976,
+      "loss": 210.5573,
+      "step": 123
+    },
+    {
+      "epoch": 0.08187858528331476,
+      "grad_norm": 314990.40625,
+      "learning_rate": 0.00019943228916701104,
+      "loss": 602.6875,
+      "step": 124
+    },
+    {
+      "epoch": 0.0825388964549544,
+      "grad_norm": 264931.5,
+      "learning_rate": 0.00019789522952039695,
+      "loss": 513.6562,
+      "step": 125
+    },
+    {
+      "epoch": 0.08319920762659404,
+      "grad_norm": 157227.640625,
+      "learning_rate": 0.0001963525491562421,
+      "loss": 511.8125,
+      "step": 126
+    },
+    {
+      "epoch": 0.08385951879823367,
+      "grad_norm": 537004.0625,
+      "learning_rate": 0.00019480442911492702,
+      "loss": 268.8125,
+      "step": 127
+    },
+    {
+      "epoch": 0.0845198299698733,
+      "grad_norm": 1529112.375,
+      "learning_rate": 0.00019325105107520263,
+      "loss": 257.3359,
+      "step": 128
+    },
+    {
+      "epoch": 0.08518014114151294,
+      "grad_norm": 231625.046875,
+      "learning_rate": 0.00019169259733286913,
+      "loss": 202.3438,
+      "step": 129
+    },
+    {
+      "epoch": 0.08584045231315257,
+      "grad_norm": 306631.5625,
+      "learning_rate": 0.00019012925077938314,
+      "loss": 181.8047,
+      "step": 130
+    },
+    {
+      "epoch": 0.08650076348479221,
+      "grad_norm": 118856.3203125,
+      "learning_rate": 0.0001885611948803941,
+      "loss": 179.7969,
+      "step": 131
+    },
+    {
+      "epoch": 0.08716107465643184,
+      "grad_norm": 98292.1796875,
+      "learning_rate": 0.0001869886136542143,
+      "loss": 392.7283,
+      "step": 132
+    },
+    {
+      "epoch": 0.08782138582807147,
+      "grad_norm": 89386.7734375,
+      "learning_rate": 0.00018541169165022298,
+      "loss": 318.7403,
+      "step": 133
+    },
+    {
+      "epoch": 0.08848169699971112,
+      "grad_norm": 137117.296875,
+      "learning_rate": 0.00018383061392720913,
+      "loss": 245.4405,
+      "step": 134
+    },
+    {
+      "epoch": 0.08914200817135075,
+      "grad_norm": 150909.71875,
+      "learning_rate": 0.0001822455660316536,
+      "loss": 156.249,
+      "step": 135
+    },
+    {
+      "epoch": 0.08980231934299038,
+      "grad_norm": 60323.1875,
+      "learning_rate": 0.00018065673397595473,
+      "loss": 113.9602,
+      "step": 136
+    },
+    {
+      "epoch": 0.09046263051463002,
+      "grad_norm": 42032.9921875,
+      "learning_rate": 0.00017906430421659876,
+      "loss": 107.9544,
+      "step": 137
+    },
+    {
+      "epoch": 0.09112294168626965,
+      "grad_norm": 33694.890625,
+      "learning_rate": 0.00017746846363227842,
+      "loss": 111.8,
+      "step": 138
+    },
+    {
+      "epoch": 0.0917832528579093,
+      "grad_norm": 34851.86328125,
+      "learning_rate": 0.00017586939950196186,
+      "loss": 103.5465,
+      "step": 139
+    },
+    {
+      "epoch": 0.09244356402954892,
+      "grad_norm": 24885.861328125,
+      "learning_rate": 0.00017426729948291474,
+      "loss": 101.8808,
+      "step": 140
+    },
+    {
+      "epoch": 0.09244356402954892,
+      "eval_loss": 10.751233100891113,
+      "eval_runtime": 6.5882,
+      "eval_samples_per_second": 75.135,
+      "eval_steps_per_second": 75.135,
+      "step": 140
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 93374726012928.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null