Training in progress, step 170, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +122 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d95728915b1a394ce434bdab126026dc91a8c0cfe1828df436c3542e7b8ca363
 size 97728

 version https://git-lfs.github.com/spec/v1
+oid sha256:83fc03decf24c551f881ea371d2fc633c54f2d89682e39a733be683677fdd1e4
 size 97728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc85074e0a2def2208651d7aade37ecfc07595bf637d37454f6fd978cc2b7550
 size 212298

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6fa2042ba45af7848b2d2638ee0ba70d95e13987922ca7c2234efa8226baeaa
 size 212298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56d39fb12ea6f2c20be6b5f3a72a7252abad25cc5b58318a939a5ab64512566d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:732562efa57057e9106da0ada8229f2e13dca05c703e75c7e3d2c742b55e2e3b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e76ff8614026ec7c5c2d9793615ca4e2f707e550ce0b5a4376af475431afe3f1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9a138d58efee4722b14f409e14731dcd0935c0eaa8a6078a4918744b9529bab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5183695076760191,
   "eval_steps": 50,
-  "global_step": 153,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1110,6 +1110,125 @@
       "learning_rate": 2.385012299531262e-05,
       "loss": 10.3456,
       "step": 153
     }
   ],
   "logging_steps": 1,
@@ -1129,7 +1248,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 65528686313472.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5759661196400212,
   "eval_steps": 50,
+  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.385012299531262e-05,
       "loss": 10.3456,
       "step": 153
+    },
+    {
+      "epoch": 0.5217575436739015,
+      "grad_norm": 0.01631753146648407,
+      "learning_rate": 2.2900622215575197e-05,
+      "loss": 10.3453,
+      "step": 154
+    },
+    {
+      "epoch": 0.525145579671784,
+      "grad_norm": 0.02035635896027088,
+      "learning_rate": 2.1966991411008938e-05,
+      "loss": 10.3455,
+      "step": 155
+    },
+    {
+      "epoch": 0.5285336156696665,
+      "grad_norm": 0.02124161832034588,
+      "learning_rate": 2.1049514974601175e-05,
+      "loss": 10.3443,
+      "step": 156
+    },
+    {
+      "epoch": 0.531921651667549,
+      "grad_norm": 0.020465832203626633,
+      "learning_rate": 2.0148472378562215e-05,
+      "loss": 10.3438,
+      "step": 157
+    },
+    {
+      "epoch": 0.5353096876654314,
+      "grad_norm": 0.022870277985930443,
+      "learning_rate": 1.926413808919542e-05,
+      "loss": 10.3436,
+      "step": 158
+    },
+    {
+      "epoch": 0.5386977236633139,
+      "grad_norm": 0.02524011954665184,
+      "learning_rate": 1.8396781483292098e-05,
+      "loss": 10.3448,
+      "step": 159
+    },
+    {
+      "epoch": 0.5420857596611964,
+      "grad_norm": 0.019947601482272148,
+      "learning_rate": 1.7546666766076655e-05,
+      "loss": 10.3449,
+      "step": 160
+    },
+    {
+      "epoch": 0.5454737956590788,
+      "grad_norm": 0.058847565203905106,
+      "learning_rate": 1.671405289072718e-05,
+      "loss": 10.3437,
+      "step": 161
+    },
+    {
+      "epoch": 0.5488618316569613,
+      "grad_norm": 0.022570470348000526,
+      "learning_rate": 1.5899193479495857e-05,
+      "loss": 10.3451,
+      "step": 162
+    },
+    {
+      "epoch": 0.5522498676548439,
+      "grad_norm": 0.019783953204751015,
+      "learning_rate": 1.5102336746453053e-05,
+      "loss": 10.3431,
+      "step": 163
+    },
+    {
+      "epoch": 0.5556379036527264,
+      "grad_norm": 0.017986372113227844,
+      "learning_rate": 1.4323725421878949e-05,
+      "loss": 10.344,
+      "step": 164
+    },
+    {
+      "epoch": 0.5590259396506088,
+      "grad_norm": 0.02159409038722515,
+      "learning_rate": 1.3563596678325606e-05,
+      "loss": 10.3442,
+      "step": 165
+    },
+    {
+      "epoch": 0.5624139756484913,
+      "grad_norm": 0.020207397639751434,
+      "learning_rate": 1.2822182058371878e-05,
+      "loss": 10.344,
+      "step": 166
+    },
+    {
+      "epoch": 0.5658020116463738,
+      "grad_norm": 0.02228572405874729,
+      "learning_rate": 1.2099707404093203e-05,
+      "loss": 10.343,
+      "step": 167
+    },
+    {
+      "epoch": 0.5691900476442562,
+      "grad_norm": 0.02297716587781906,
+      "learning_rate": 1.1396392788268052e-05,
+      "loss": 10.3455,
+      "step": 168
+    },
+    {
+      "epoch": 0.5725780836421387,
+      "grad_norm": 0.019231807440519333,
+      "learning_rate": 1.0712452447341582e-05,
+      "loss": 10.3439,
+      "step": 169
+    },
+    {
+      "epoch": 0.5759661196400212,
+      "grad_norm": 0.02405407838523388,
+      "learning_rate": 1.0048094716167095e-05,
+      "loss": 10.344,
+      "step": 170
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 72825986482176.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null