Training in progress, step 180, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:189a826c21fcc12d4d822272c9376eb9989b7d2c52eae6a814ab821e7de631b0
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:799556006953c73a45e90e797b58f63be6f530d019bb09a777b7155cf57980bb
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d19d42888a784db5d3792889b6d90f80c505a9dbce4098d0ae5d04ef2168686c
 size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f7bacefd93d57704a5538284a108f017622551a8d596a1be59020121599ae7f
 size 857274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f97b059151fb3e9951195534ddd111a9c4803b6431cdba0bb72c51bd50ade686
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7829b1f33d7acc9a2062209cdbdfebc987f17f530b32db2490f0d144949302ef
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d554bdcf1252a9ad2f8bf8ecd99330af5af219432c92d1857da98ea0ae84e1df
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddea288df3ceca5e83f8bb3470637ce8a6718abdc75c29562146104222fc96c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10564978746234163,
   "eval_steps": 20,
-  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1199,6 +1199,154 @@
       "eval_samples_per_second": 75.524,
       "eval_steps_per_second": 75.524,
       "step": 160
     }
   ],
   "logging_steps": 1,
@@ -1218,7 +1366,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 105203669925888.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11885601089513433,
   "eval_steps": 20,
+  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 75.524,
       "eval_steps_per_second": 75.524,
       "step": 160
+    },
+    {
+      "epoch": 0.10631009863398126,
+      "grad_norm": 17918.177734375,
+      "learning_rate": 0.00014025709338548836,
+      "loss": 90.484,
+      "step": 161
+    },
+    {
+      "epoch": 0.1069704098056209,
+      "grad_norm": 16031.154296875,
+      "learning_rate": 0.00013863616643207844,
+      "loss": 100.7584,
+      "step": 162
+    },
+    {
+      "epoch": 0.10763072097726054,
+      "grad_norm": 12420.103515625,
+      "learning_rate": 0.00013701657307492235,
+      "loss": 94.4867,
+      "step": 163
+    },
+    {
+      "epoch": 0.10829103214890017,
+      "grad_norm": 47068.62109375,
+      "learning_rate": 0.00013539850338048154,
+      "loss": 103.3284,
+      "step": 164
+    },
+    {
+      "epoch": 0.10895134332053981,
+      "grad_norm": 9929.9248046875,
+      "learning_rate": 0.00013378214723640876,
+      "loss": 86.4407,
+      "step": 165
+    },
+    {
+      "epoch": 0.10961165449217944,
+      "grad_norm": 11515.26171875,
+      "learning_rate": 0.00013216769432926404,
+      "loss": 90.3954,
+      "step": 166
+    },
+    {
+      "epoch": 0.11027196566381907,
+      "grad_norm": 18805.5,
+      "learning_rate": 0.00013055533412225422,
+      "loss": 87.9701,
+      "step": 167
+    },
+    {
+      "epoch": 0.11093227683545871,
+      "grad_norm": 11308.2529296875,
+      "learning_rate": 0.00012894525583299833,
+      "loss": 85.8245,
+      "step": 168
+    },
+    {
+      "epoch": 0.11159258800709834,
+      "grad_norm": 13893.7822265625,
+      "learning_rate": 0.0001273376484113225,
+      "loss": 91.9876,
+      "step": 169
+    },
+    {
+      "epoch": 0.11225289917873799,
+      "grad_norm": 13449.5009765625,
+      "learning_rate": 0.0001257327005170853,
+      "loss": 95.4308,
+      "step": 170
+    },
+    {
+      "epoch": 0.11291321035037762,
+      "grad_norm": 26069.693359375,
+      "learning_rate": 0.00012413060049803814,
+      "loss": 91.0174,
+      "step": 171
+    },
+    {
+      "epoch": 0.11357352152201725,
+      "grad_norm": 36458.125,
+      "learning_rate": 0.00012253153636772156,
+      "loss": 104.676,
+      "step": 172
+    },
+    {
+      "epoch": 0.11423383269365689,
+      "grad_norm": 235943.09375,
+      "learning_rate": 0.00012093569578340124,
+      "loss": 402.9973,
+      "step": 173
+    },
+    {
+      "epoch": 0.11489414386529652,
+      "grad_norm": 85501.4453125,
+      "learning_rate": 0.00011934326602404528,
+      "loss": 432.0625,
+      "step": 174
+    },
+    {
+      "epoch": 0.11555445503693616,
+      "grad_norm": 311014.3125,
+      "learning_rate": 0.00011775443396834638,
+      "loss": 491.4307,
+      "step": 175
+    },
+    {
+      "epoch": 0.11621476620857579,
+      "grad_norm": 644604.875,
+      "learning_rate": 0.00011616938607279086,
+      "loss": 401.1875,
+      "step": 176
+    },
+    {
+      "epoch": 0.11687507738021542,
+      "grad_norm": 140106.71875,
+      "learning_rate": 0.00011458830834977698,
+      "loss": 451.2969,
+      "step": 177
+    },
+    {
+      "epoch": 0.11753538855185507,
+      "grad_norm": 374728.0,
+      "learning_rate": 0.0001130113863457857,
+      "loss": 370.6055,
+      "step": 178
+    },
+    {
+      "epoch": 0.1181956997234947,
+      "grad_norm": 1075288.75,
+      "learning_rate": 0.00011143880511960584,
+      "loss": 460.9453,
+      "step": 179
+    },
+    {
+      "epoch": 0.11885601089513433,
+      "grad_norm": 139839.53125,
+      "learning_rate": 0.00010987074922061689,
+      "loss": 257.9727,
+      "step": 180
+    },
+    {
+      "epoch": 0.11885601089513433,
+      "eval_loss": 9.81284236907959,
+      "eval_runtime": 6.5972,
+      "eval_samples_per_second": 75.032,
+      "eval_steps_per_second": 75.032,
+      "step": 180
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 120975595143168.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null