Training in progress, step 153, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +130 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5aa9f9271e49eb861079866208618baaab7b7d3de962c114cc41a783fb00b37
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:a288529085e85aa2a2b58c37011dd16b7750557b7f069f97f1bcb476e9141825
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bed79e89e8e6580c15caa81b1e7c98e4a6124d56f11fb92ea2f800dde6ddc40
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:89d5536243cdc3bdfd284d91f65637bbf5ab03984fe38ebed05dcf439569ea11
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1f2394615adf7a2cb7801d62c2302d9fa5f947b6a2b4286eb85a36a8c5e0bd0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:630b121fadd21d13ee17a86473b928204282dffbb81941a61c173dd06a7af5f0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aeb1fbb5e964bbc83fa43b049054867ad1faca8f43271132d241ae074069d5d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e76ff8614026ec7c5c2d9793615ca4e2f707e550ce0b5a4376af475431afe3f1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20023004370830458,
   "eval_steps": 50,
-  "global_step": 136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -983,6 +983,133 @@
       "learning_rate": 4.212216399081918e-05,
       "loss": 0.0341,
       "step": 136
     }
   ],
   "logging_steps": 1,
@@ -1002,7 +1129,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4388676596124877e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.22525879917184266,
   "eval_steps": 50,
+  "global_step": 153,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.212216399081918e-05,
       "loss": 0.0341,
       "step": 136
+    },
+    {
+      "epoch": 0.20170232344145386,
+      "grad_norm": 0.18119709193706512,
+      "learning_rate": 4.095071251953399e-05,
+      "loss": 0.0831,
+      "step": 137
+    },
+    {
+      "epoch": 0.20317460317460317,
+      "grad_norm": 0.09372559934854507,
+      "learning_rate": 3.978963279105821e-05,
+      "loss": 0.0261,
+      "step": 138
+    },
+    {
+      "epoch": 0.2046468829077525,
+      "grad_norm": 0.08984406292438507,
+      "learning_rate": 3.863927848152472e-05,
+      "loss": 0.0399,
+      "step": 139
+    },
+    {
+      "epoch": 0.20611916264090177,
+      "grad_norm": 0.0921633318066597,
+      "learning_rate": 3.750000000000001e-05,
+      "loss": 0.0189,
+      "step": 140
+    },
+    {
+      "epoch": 0.20759144237405108,
+      "grad_norm": 0.11086931824684143,
+      "learning_rate": 3.637214438174593e-05,
+      "loss": 0.0431,
+      "step": 141
+    },
+    {
+      "epoch": 0.20906372210720037,
+      "grad_norm": 0.1010395959019661,
+      "learning_rate": 3.525605518250964e-05,
+      "loss": 0.0696,
+      "step": 142
+    },
+    {
+      "epoch": 0.21053600184034968,
+      "grad_norm": 0.07738685607910156,
+      "learning_rate": 3.415207237387297e-05,
+      "loss": 0.0134,
+      "step": 143
+    },
+    {
+      "epoch": 0.21200828157349896,
+      "grad_norm": 0.08697827160358429,
+      "learning_rate": 3.3060532239693994e-05,
+      "loss": 0.0294,
+      "step": 144
+    },
+    {
+      "epoch": 0.21348056130664828,
+      "grad_norm": 0.13390277326107025,
+      "learning_rate": 3.198176727367156e-05,
+      "loss": 0.064,
+      "step": 145
+    },
+    {
+      "epoch": 0.21495284103979756,
+      "grad_norm": 0.12035319209098816,
+      "learning_rate": 3.091610607806452e-05,
+      "loss": 0.0378,
+      "step": 146
+    },
+    {
+      "epoch": 0.21642512077294687,
+      "grad_norm": 0.09978077560663223,
+      "learning_rate": 2.986387326359637e-05,
+      "loss": 0.0356,
+      "step": 147
+    },
+    {
+      "epoch": 0.21789740050609616,
+      "grad_norm": 0.09956356137990952,
+      "learning_rate": 2.8825389350575624e-05,
+      "loss": 0.0476,
+      "step": 148
+    },
+    {
+      "epoch": 0.21936968023924547,
+      "grad_norm": 0.09759137779474258,
+      "learning_rate": 2.78009706712622e-05,
+      "loss": 0.0383,
+      "step": 149
+    },
+    {
+      "epoch": 0.22084195997239475,
+      "grad_norm": 0.06408429890871048,
+      "learning_rate": 2.6790929273509545e-05,
+      "loss": 0.0172,
+      "step": 150
+    },
+    {
+      "epoch": 0.22084195997239475,
+      "eval_loss": 0.04416579380631447,
+      "eval_runtime": 1045.846,
+      "eval_samples_per_second": 2.188,
+      "eval_steps_per_second": 1.094,
+      "step": 150
+    },
+    {
+      "epoch": 0.22231423970554406,
+      "grad_norm": 0.07642810791730881,
+      "learning_rate": 2.579557282571196e-05,
+      "loss": 0.0281,
+      "step": 151
+    },
+    {
+      "epoch": 0.22378651943869335,
+      "grad_norm": 0.06974484771490097,
+      "learning_rate": 2.4815204523085654e-05,
+      "loss": 0.0204,
+      "step": 152
+    },
+    {
+      "epoch": 0.22525879917184266,
+      "grad_norm": 0.0952039286494255,
+      "learning_rate": 2.385012299531262e-05,
+      "loss": 0.0515,
+      "step": 153
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.6162316446146232e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null