Training in progress, step 153, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +130 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5fcff8219bc1ba7c5267761e9d8e58b26e76bd77b4498ffe3eb4be61d378e5a
 size 97728

 version https://git-lfs.github.com/spec/v1
+oid sha256:d95728915b1a394ce434bdab126026dc91a8c0cfe1828df436c3542e7b8ca363
 size 97728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f9cc90d01583459809b77feb1f6a0bc3c1c8d2e63c24f720751cb3d88d193fe
 size 212298

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc85074e0a2def2208651d7aade37ecfc07595bf637d37454f6fd978cc2b7550
 size 212298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9288f3ba37e7c624f2b8517ced4aae32ee804313f3587dcfb02d5f13209458f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:56d39fb12ea6f2c20be6b5f3a72a7252abad25cc5b58318a939a5ab64512566d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aeb1fbb5e964bbc83fa43b049054867ad1faca8f43271132d241ae074069d5d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e76ff8614026ec7c5c2d9793615ca4e2f707e550ce0b5a4376af475431afe3f1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.46077289571201696,
   "eval_steps": 50,
-  "global_step": 136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -983,6 +983,133 @@
       "learning_rate": 4.212216399081918e-05,
       "loss": 10.3439,
       "step": 136
     }
   ],
   "logging_steps": 1,
@@ -1002,7 +1129,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 58258116182016.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5183695076760191,
   "eval_steps": 50,
+  "global_step": 153,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.212216399081918e-05,
       "loss": 10.3439,
       "step": 136
+    },
+    {
+      "epoch": 0.4641609317098994,
+      "grad_norm": 0.026069054380059242,
+      "learning_rate": 4.095071251953399e-05,
+      "loss": 10.3461,
+      "step": 137
+    },
+    {
+      "epoch": 0.46754896770778187,
+      "grad_norm": 0.020276112481951714,
+      "learning_rate": 3.978963279105821e-05,
+      "loss": 10.3445,
+      "step": 138
+    },
+    {
+      "epoch": 0.4709370037056644,
+      "grad_norm": 0.021585950627923012,
+      "learning_rate": 3.863927848152472e-05,
+      "loss": 10.3442,
+      "step": 139
+    },
+    {
+      "epoch": 0.47432503970354684,
+      "grad_norm": 0.025700606405735016,
+      "learning_rate": 3.750000000000001e-05,
+      "loss": 10.3458,
+      "step": 140
+    },
+    {
+      "epoch": 0.47771307570142935,
+      "grad_norm": 0.020632240921258926,
+      "learning_rate": 3.637214438174593e-05,
+      "loss": 10.3446,
+      "step": 141
+    },
+    {
+      "epoch": 0.4811011116993118,
+      "grad_norm": 0.020391074940562248,
+      "learning_rate": 3.525605518250964e-05,
+      "loss": 10.3442,
+      "step": 142
+    },
+    {
+      "epoch": 0.48448914769719426,
+      "grad_norm": 0.021430406719446182,
+      "learning_rate": 3.415207237387297e-05,
+      "loss": 10.3444,
+      "step": 143
+    },
+    {
+      "epoch": 0.48787718369507677,
+      "grad_norm": 0.01741032488644123,
+      "learning_rate": 3.3060532239693994e-05,
+      "loss": 10.3448,
+      "step": 144
+    },
+    {
+      "epoch": 0.4912652196929592,
+      "grad_norm": 0.026816904544830322,
+      "learning_rate": 3.198176727367156e-05,
+      "loss": 10.3467,
+      "step": 145
+    },
+    {
+      "epoch": 0.49465325569084173,
+      "grad_norm": 0.0245627723634243,
+      "learning_rate": 3.091610607806452e-05,
+      "loss": 10.3448,
+      "step": 146
+    },
+    {
+      "epoch": 0.4980412916887242,
+      "grad_norm": 0.024026039987802505,
+      "learning_rate": 2.986387326359637e-05,
+      "loss": 10.3459,
+      "step": 147
+    },
+    {
+      "epoch": 0.5014293276866066,
+      "grad_norm": 0.023174704983830452,
+      "learning_rate": 2.8825389350575624e-05,
+      "loss": 10.3454,
+      "step": 148
+    },
+    {
+      "epoch": 0.5048173636844892,
+      "grad_norm": 0.029328398406505585,
+      "learning_rate": 2.78009706712622e-05,
+      "loss": 10.3446,
+      "step": 149
+    },
+    {
+      "epoch": 0.5082053996823717,
+      "grad_norm": 0.021034657955169678,
+      "learning_rate": 2.6790929273509545e-05,
+      "loss": 10.344,
+      "step": 150
+    },
+    {
+      "epoch": 0.5082053996823717,
+      "eval_loss": 10.344643592834473,
+      "eval_runtime": 3.8713,
+      "eval_samples_per_second": 257.02,
+      "eval_steps_per_second": 128.639,
+      "step": 150
+    },
+    {
+      "epoch": 0.5115934356802541,
+      "grad_norm": 0.02339405193924904,
+      "learning_rate": 2.579557282571196e-05,
+      "loss": 10.3449,
+      "step": 151
+    },
+    {
+      "epoch": 0.5149814716781366,
+      "grad_norm": 0.02014802023768425,
+      "learning_rate": 2.4815204523085654e-05,
+      "loss": 10.3447,
+      "step": 152
+    },
+    {
+      "epoch": 0.5183695076760191,
+      "grad_norm": 0.02366970293223858,
+      "learning_rate": 2.385012299531262e-05,
+      "loss": 10.3456,
+      "step": 153
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 65528686313472.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null