Training in progress, step 272, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f9fbcddc5470d728295fa3156e8cc8e85bdb3e075c721f1a6f3de138e6afd3f
 size 692136856

 version https://git-lfs.github.com/spec/v1
+oid sha256:88a03878f231ac4f2358b60bf20d360b61603d0bb56e3e2f9850289b513afff8
 size 692136856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6828c635537ff06d969e1f45a0902d6456cd737e4146dcf425fbba25e04bed82
-size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fff1faaf9379ceb848ff70a702d34c2578307cb69867f7f0f71e26ac5eb84b0
+size 85723732

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:872fb8e64e364c7f25bf0433e726bc19c70aafc58093b42c433869870b0988fd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:57f4bf658c60e52b9df3eae773aa32b69c9f388c2f92794862084b3c8ac4cabd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbcef9424696e41c7961bd91f0570d39d59ef33af28ed19a0eb9e4f50ed1b09a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3520b6e9bfde48b403dd6f4096e526132e910f4d92bd802fb2e831d46f8ad41f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.016036655211912942,
   "eval_steps": 34,
-  "global_step": 238,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -624,6 +624,91 @@
       "eval_samples_per_second": 14.027,
       "eval_steps_per_second": 1.754,
       "step": 238
     }
   ],
   "logging_steps": 3,
@@ -643,7 +728,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.346898330352353e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.018327605956471937,
   "eval_steps": 34,
+  "global_step": 272,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.027,
       "eval_steps_per_second": 1.754,
       "step": 238
+    },
+    {
+      "epoch": 0.016171417020416416,
+      "grad_norm": 0.7089824676513672,
+      "learning_rate": 1.8044563402088684e-05,
+      "loss": 0.8143,
+      "step": 240
+    },
+    {
+      "epoch": 0.01637355973317162,
+      "grad_norm": 0.6729727983474731,
+      "learning_rate": 1.746635141803761e-05,
+      "loss": 0.7973,
+      "step": 243
+    },
+    {
+      "epoch": 0.016575702445926824,
+      "grad_norm": 0.7322119474411011,
+      "learning_rate": 1.6892538872607937e-05,
+      "loss": 0.8065,
+      "step": 246
+    },
+    {
+      "epoch": 0.01677784515868203,
+      "grad_norm": 0.7230767607688904,
+      "learning_rate": 1.6323460856167426e-05,
+      "loss": 0.8034,
+      "step": 249
+    },
+    {
+      "epoch": 0.016979987871437233,
+      "grad_norm": 0.6473975777626038,
+      "learning_rate": 1.5759449694252226e-05,
+      "loss": 0.7781,
+      "step": 252
+    },
+    {
+      "epoch": 0.01718213058419244,
+      "grad_norm": 0.7108025550842285,
+      "learning_rate": 1.5200834753498128e-05,
+      "loss": 0.8175,
+      "step": 255
+    },
+    {
+      "epoch": 0.017384273296947646,
+      "grad_norm": 0.672478199005127,
+      "learning_rate": 1.4647942249299707e-05,
+      "loss": 0.8328,
+      "step": 258
+    },
+    {
+      "epoch": 0.01758641600970285,
+      "grad_norm": 0.7066530585289001,
+      "learning_rate": 1.4101095055309746e-05,
+      "loss": 0.7698,
+      "step": 261
+    },
+    {
+      "epoch": 0.017788558722458055,
+      "grad_norm": 0.7493249773979187,
+      "learning_rate": 1.356061251489012e-05,
+      "loss": 0.8237,
+      "step": 264
+    },
+    {
+      "epoch": 0.01799070143521326,
+      "grad_norm": 0.6934426426887512,
+      "learning_rate": 1.302681025462424e-05,
+      "loss": 0.82,
+      "step": 267
+    },
+    {
+      "epoch": 0.018192844147968467,
+      "grad_norm": 0.6936736106872559,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 0.8079,
+      "step": 270
+    },
+    {
+      "epoch": 0.018327605956471937,
+      "eval_loss": 0.8106825351715088,
+      "eval_runtime": 1782.0227,
+      "eval_samples_per_second": 14.026,
+      "eval_steps_per_second": 1.754,
+      "step": 272
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 3.825026663259832e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null