Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b5e84935b5b544def9ef7a858eaebce433df68573150a2941bbd0c451c03de6
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1bc49b3bd151ab2b684e0b48dfe698e7f45a1f69fa881bc0d5df05530d14f2a
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea4e997a88108d480481b629e402e9bf39b2064d13b8ecf4b8395a31674545ea
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bd71a5aeeaf2708f374258c314c32a0e886b9bdf07131843fa621388895a6de
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5e6329a7ac58193ffda34259cbba30da009b3f24336535b40572dae8581db6b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe2d1f17f515861ab3650cb0c5fed78612b35b2fe3fb71adbeedc239ee7bb79
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99fc9c0ec571f76cf9b6d1229601c5173899cd18104e487c5627f5f4c56c6e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.020648358455502787,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 4.141,
       "eval_steps_per_second": 2.071,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.553948699774157e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.041296716911005574,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.141,
       "eval_steps_per_second": 2.071,
       "step": 25
+    },
+    {
+      "epoch": 0.0214742927937229,
+      "grad_norm": 6.69602959533222e-05,
+      "learning_rate": 7.68649804173412e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.02230022713194301,
+      "grad_norm": 5.6196640798589215e-05,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.023126161470163123,
+      "grad_norm": 4.406289372127503e-05,
+      "learning_rate": 7.308743066175172e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.023952095808383235,
+      "grad_norm": 6.054918412701227e-05,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.024778030146603344,
+      "grad_norm": 3.9682545320829377e-05,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.025603964484823456,
+      "grad_norm": 4.490738865570165e-05,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.026429898823043568,
+      "grad_norm": 3.491883762762882e-05,
+      "learning_rate": 6.503528997521366e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.02725583316126368,
+      "grad_norm": 3.7224541301839054e-05,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.02808176749948379,
+      "grad_norm": 3.5606222809292376e-05,
+      "learning_rate": 6.0821980696905146e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.028907701837703904,
+      "grad_norm": 3.647877383627929e-05,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.029733636175924016,
+      "grad_norm": 4.453373549040407e-05,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.030559570514144124,
+      "grad_norm": 3.978102540713735e-05,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.031385504852364236,
+      "grad_norm": 3.958147135563195e-05,
+      "learning_rate": 5.218096936826681e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.03221143919058435,
+      "grad_norm": 4.5364879042608663e-05,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.03303737352880446,
+      "grad_norm": 4.673544754041359e-05,
+      "learning_rate": 4.781903063173321e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.03386330786702457,
+      "grad_norm": 4.447162427823059e-05,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.034689242205244684,
+      "grad_norm": 4.427820385899395e-05,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.035515176543464796,
+      "grad_norm": 4.0053564589470625e-05,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.03634111088168491,
+      "grad_norm": 4.3088726670248434e-05,
+      "learning_rate": 3.917801930309486e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.03716704521990502,
+      "grad_norm": 4.5698117901338264e-05,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.037992979558125126,
+      "grad_norm": 5.060286639491096e-05,
+      "learning_rate": 3.4964710024786354e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.03881891389634524,
+      "grad_norm": 5.1584192988229915e-05,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.03964484823456535,
+      "grad_norm": 5.470534597407095e-05,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.04047078257278546,
+      "grad_norm": 5.4673917475156486e-05,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.041296716911005574,
+      "grad_norm": 5.439592860057019e-05,
+      "learning_rate": 2.6912569338248315e-05,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.041296716911005574,
+      "eval_loss": 2.423142397844913e-08,
+      "eval_runtime": 245.9876,
+      "eval_samples_per_second": 4.147,
+      "eval_steps_per_second": 2.073,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.090216062733517e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null