Training in progress, step 39, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +201 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1edda37b77e09c65dadd70982378d9b89f7ef00bff0e828c2ea60555bffdc92
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1404bf396016b00b6afb70e65d42e59cbafdc03c1f10969650b62bf34fb5272
 size 5752

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81275cee971198c261cd04a776f2e1a338c06ad3f4a310159a9b52f4d3c6b143
 size 15814

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e244bd392f4cf38d7baf8eeeb4a0e14862938b6c70f4319110a558f402e0fca
 size 15814

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adc65900b1800458289c8c21bab3eeedd0bb320c47305aa0de9c35ef282f5293
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:46c784a60f4659800f3c4472f150d377d77a69d88547c6e5e024a7e54b3ef12b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea3a68034a6fca5f7c1565a9344e41aadbdff3752a8799ae94336c8c84c6d63d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:28418a35cb7e15ebbce37743b08fd366c25ee320167b307a3e449a74781d02de
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006150206978119456,
   "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,204 @@
       "eval_samples_per_second": 171.209,
       "eval_steps_per_second": 85.604,
       "step": 13
     }
   ],
   "logging_steps": 1,
@@ -133,7 +331,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 258997420032.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01845062093435837,
   "eval_steps": 13,
+  "global_step": 39,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 171.209,
       "eval_steps_per_second": 85.604,
       "step": 13
+    },
+    {
+      "epoch": 0.0066232998225901835,
+      "grad_norm": 2.1742762328358367e-05,
+      "learning_rate": 4.877641290737884e-05,
+      "loss": 46.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.007096392667060911,
+      "grad_norm": 1.4797076801187359e-05,
+      "learning_rate": 4.8096988312782174e-05,
+      "loss": 46.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.007569485511531638,
+      "grad_norm": 1.5231895304168575e-05,
+      "learning_rate": 4.72751631047092e-05,
+      "loss": 46.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.008042578356002365,
+      "grad_norm": 2.458369272062555e-05,
+      "learning_rate": 4.6316004108852305e-05,
+      "loss": 46.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.008515671200473094,
+      "grad_norm": 1.2718664038402494e-05,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 46.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.008988764044943821,
+      "grad_norm": 1.5974657799233682e-05,
+      "learning_rate": 4.401014914000078e-05,
+      "loss": 46.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.009461856889414548,
+      "grad_norm": 3.0415745641221292e-05,
+      "learning_rate": 4.267766952966369e-05,
+      "loss": 46.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.009934949733885276,
+      "grad_norm": 1.9348108253325336e-05,
+      "learning_rate": 4.123620120825459e-05,
+      "loss": 46.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.010408042578356003,
+      "grad_norm": 1.3663358004123438e-05,
+      "learning_rate": 3.969463130731183e-05,
+      "loss": 46.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.01088113542282673,
+      "grad_norm": 1.756561869115103e-05,
+      "learning_rate": 3.8062464117898724e-05,
+      "loss": 46.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.011354228267297458,
+      "grad_norm": 2.2179930965648964e-05,
+      "learning_rate": 3.634976249348867e-05,
+      "loss": 46.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.011827321111768185,
+      "grad_norm": 2.113797381753102e-05,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 46.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.012300413956238912,
+      "grad_norm": 1.855083610280417e-05,
+      "learning_rate": 3.272542485937369e-05,
+      "loss": 46.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.012300413956238912,
+      "eval_loss": 11.5,
+      "eval_runtime": 5.2117,
+      "eval_samples_per_second": 170.768,
+      "eval_steps_per_second": 85.384,
+      "step": 26
+    },
+    {
+      "epoch": 0.01277350680070964,
+      "grad_norm": 1.3803406545775943e-05,
+      "learning_rate": 3.083613409639764e-05,
+      "loss": 46.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.013246599645180367,
+      "grad_norm": 2.3478232833440416e-05,
+      "learning_rate": 2.8910861626005776e-05,
+      "loss": 46.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.013719692489651094,
+      "grad_norm": 1.98438428924419e-05,
+      "learning_rate": 2.6961477393196126e-05,
+      "loss": 46.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.014192785334121822,
+      "grad_norm": 2.25297571887495e-05,
+      "learning_rate": 2.5e-05,
+      "loss": 46.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.014665878178592549,
+      "grad_norm": 1.207178138429299e-05,
+      "learning_rate": 2.303852260680388e-05,
+      "loss": 46.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.015138971023063276,
+      "grad_norm": 1.4021999959368259e-05,
+      "learning_rate": 2.1089138373994223e-05,
+      "loss": 46.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.015612063867534004,
+      "grad_norm": 1.9971143046859652e-05,
+      "learning_rate": 1.9163865903602374e-05,
+      "loss": 46.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.01608515671200473,
+      "grad_norm": 4.2581421439535916e-05,
+      "learning_rate": 1.7274575140626318e-05,
+      "loss": 46.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.01655824955647546,
+      "grad_norm": 1.9293125660624355e-05,
+      "learning_rate": 1.5432914190872757e-05,
+      "loss": 46.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.017031342400946187,
+      "grad_norm": 1.5501349480473436e-05,
+      "learning_rate": 1.3650237506511331e-05,
+      "loss": 46.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.017504435245416915,
+      "grad_norm": 1.3064404811302666e-05,
+      "learning_rate": 1.1937535882101281e-05,
+      "loss": 46.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.017977528089887642,
+      "grad_norm": 1.8389657270745374e-05,
+      "learning_rate": 1.0305368692688174e-05,
+      "loss": 46.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.01845062093435837,
+      "grad_norm": 1.2204222912259866e-05,
+      "learning_rate": 8.763798791745411e-06,
+      "loss": 46.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.01845062093435837,
+      "eval_loss": 11.5,
+      "eval_runtime": 5.2142,
+      "eval_samples_per_second": 170.688,
+      "eval_steps_per_second": 85.344,
+      "step": 39
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 776992260096.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null