Training in progress, step 160, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b583587d17c6c7a97a11c9e59c5d69ae6878502971c7d00024d35410cc8bc4ab
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:189a826c21fcc12d4d822272c9376eb9989b7d2c52eae6a814ab821e7de631b0
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a855e5c8ec97ac48e47fa165986806e7c257deeed8f91cad3e04ecdca2ca02a2
 size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:d19d42888a784db5d3792889b6d90f80c505a9dbce4098d0ae5d04ef2168686c
 size 857274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a8bec8ada3d1dd406d9aa43c4a27a47f026c1e315b02eae7d5bc447ebde9bea
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f97b059151fb3e9951195534ddd111a9c4803b6431cdba0bb72c51bd50ade686
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50bdc92009888fc74192f19079ad05c940764efafef78e70a576eb66733f4db5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d554bdcf1252a9ad2f8bf8ecd99330af5af219432c92d1857da98ea0ae84e1df
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09244356402954892,
   "eval_steps": 20,
-  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1051,6 +1051,154 @@
       "eval_samples_per_second": 75.135,
       "eval_steps_per_second": 75.135,
       "step": 140
     }
   ],
   "logging_steps": 1,
@@ -1070,7 +1218,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 93374726012928.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.10564978746234163,
   "eval_steps": 20,
+  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 75.135,
       "eval_steps_per_second": 75.135,
       "step": 140
+    },
+    {
+      "epoch": 0.09310387520118855,
+      "grad_norm": 50641.609375,
+      "learning_rate": 0.00017266235158867752,
+      "loss": 91.73,
+      "step": 141
+    },
+    {
+      "epoch": 0.0937641863728282,
+      "grad_norm": 31302.37109375,
+      "learning_rate": 0.00017105474416700164,
+      "loss": 101.3363,
+      "step": 142
+    },
+    {
+      "epoch": 0.09442449754446783,
+      "grad_norm": 25933.974609375,
+      "learning_rate": 0.0001694446658777458,
+      "loss": 94.2955,
+      "step": 143
+    },
+    {
+      "epoch": 0.09508480871610747,
+      "grad_norm": 28032.328125,
+      "learning_rate": 0.00016783230567073596,
+      "loss": 98.1662,
+      "step": 144
+    },
+    {
+      "epoch": 0.0957451198877471,
+      "grad_norm": 25707.517578125,
+      "learning_rate": 0.00016621785276359127,
+      "loss": 96.4839,
+      "step": 145
+    },
+    {
+      "epoch": 0.09640543105938673,
+      "grad_norm": 59317.1875,
+      "learning_rate": 0.0001646014966195185,
+      "loss": 97.2288,
+      "step": 146
+    },
+    {
+      "epoch": 0.09706574223102638,
+      "grad_norm": 115944.59375,
+      "learning_rate": 0.00016298342692507763,
+      "loss": 99.3989,
+      "step": 147
+    },
+    {
+      "epoch": 0.097726053402666,
+      "grad_norm": 166985.421875,
+      "learning_rate": 0.00016136383356792156,
+      "loss": 108.0774,
+      "step": 148
+    },
+    {
+      "epoch": 0.09838636457430563,
+      "grad_norm": 136255.21875,
+      "learning_rate": 0.0001597429066145116,
+      "loss": 132.089,
+      "step": 149
+    },
+    {
+      "epoch": 0.09904667574594528,
+      "grad_norm": 69448.328125,
+      "learning_rate": 0.0001581208362878126,
+      "loss": 129.43,
+      "step": 150
+    },
+    {
+      "epoch": 0.09970698691758491,
+      "grad_norm": 11727.447265625,
+      "learning_rate": 0.00015649781294496933,
+      "loss": 101.6987,
+      "step": 151
+    },
+    {
+      "epoch": 0.10036729808922455,
+      "grad_norm": 19763.63671875,
+      "learning_rate": 0.00015487402705496707,
+      "loss": 97.9096,
+      "step": 152
+    },
+    {
+      "epoch": 0.10102760926086418,
+      "grad_norm": 32434.076171875,
+      "learning_rate": 0.0001532496691762796,
+      "loss": 101.298,
+      "step": 153
+    },
+    {
+      "epoch": 0.10168792043250381,
+      "grad_norm": 22052.291015625,
+      "learning_rate": 0.00015162492993450597,
+      "loss": 100.8446,
+      "step": 154
+    },
+    {
+      "epoch": 0.10234823160414346,
+      "grad_norm": 12854.66796875,
+      "learning_rate": 0.00015,
+      "loss": 108.0937,
+      "step": 155
+    },
+    {
+      "epoch": 0.10300854277578309,
+      "grad_norm": 18811.01953125,
+      "learning_rate": 0.00014837507006549403,
+      "loss": 99.9735,
+      "step": 156
+    },
+    {
+      "epoch": 0.10366885394742273,
+      "grad_norm": 12819.19140625,
+      "learning_rate": 0.00014675033082372038,
+      "loss": 108.136,
+      "step": 157
+    },
+    {
+      "epoch": 0.10432916511906236,
+      "grad_norm": 33140.94140625,
+      "learning_rate": 0.00014512597294503293,
+      "loss": 100.7064,
+      "step": 158
+    },
+    {
+      "epoch": 0.10498947629070199,
+      "grad_norm": 12379.7744140625,
+      "learning_rate": 0.00014350218705503067,
+      "loss": 108.1111,
+      "step": 159
+    },
+    {
+      "epoch": 0.10564978746234163,
+      "grad_norm": 15650.5546875,
+      "learning_rate": 0.00014187916371218736,
+      "loss": 98.0636,
+      "step": 160
+    },
+    {
+      "epoch": 0.10564978746234163,
+      "eval_loss": 11.360566139221191,
+      "eval_runtime": 6.5542,
+      "eval_samples_per_second": 75.524,
+      "eval_steps_per_second": 75.524,
+      "step": 160
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 105203669925888.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null