Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c859930b93c834494fb5a0e773a4528f1ca7c807d09fde0b5565a6be4e2c157c
 size 159712

 version https://git-lfs.github.com/spec/v1
+oid sha256:13b612a7965f275dc5396b23fd0bd952952c11c2200906b97934bf059371a7f7
 size 159712

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19d8d1c2939b6ee8ea097b8e17b2731447b332ef12e5fc804634bb891febf1e8
 size 336202

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c3770920a8fd14d121f571323bd06444bc617f6d9c5508d08f99888c54f4d79
 size 336202

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0c59790f2e3ba0a4714a087914c6124ed7398fe25ca94de6ab9e0301a8e585f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a080d3277fb6ccb5ed989cb90ca2c5dbb10923ca8748d5a82c16ca3dd1e9dbd3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef7bf070e527a9b5896b7711e9e6af634052f75dbe8f4acb6da29f40d856bc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04081632653061224,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 1.866025403784439e-05,
       "loss": 10.8198,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8250929971200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08163265306122448,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.866025403784439e-05,
       "loss": 10.8198,
       "step": 25
+    },
+    {
+      "epoch": 0.04244897959183674,
+      "grad_norm": 0.3424922525882721,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 10.8348,
+      "step": 26
+    },
+    {
+      "epoch": 0.044081632653061226,
+      "grad_norm": 0.3574340045452118,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 10.8349,
+      "step": 27
+    },
+    {
+      "epoch": 0.044081632653061226,
+      "eval_loss": 10.831016540527344,
+      "eval_runtime": 3.4598,
+      "eval_samples_per_second": 149.142,
+      "eval_steps_per_second": 18.787,
+      "step": 27
+    },
+    {
+      "epoch": 0.045714285714285714,
+      "grad_norm": 0.3660375475883484,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 10.8281,
+      "step": 28
+    },
+    {
+      "epoch": 0.0473469387755102,
+      "grad_norm": 0.32365602254867554,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 10.8315,
+      "step": 29
+    },
+    {
+      "epoch": 0.04897959183673469,
+      "grad_norm": 0.33584338426589966,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 10.8286,
+      "step": 30
+    },
+    {
+      "epoch": 0.05061224489795919,
+      "grad_norm": 0.3296101987361908,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 10.8286,
+      "step": 31
+    },
+    {
+      "epoch": 0.052244897959183675,
+      "grad_norm": 0.3298373222351074,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 10.8353,
+      "step": 32
+    },
+    {
+      "epoch": 0.053877551020408164,
+      "grad_norm": 0.3714967966079712,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 10.8333,
+      "step": 33
+    },
+    {
+      "epoch": 0.05551020408163265,
+      "grad_norm": 0.3229416608810425,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 10.8228,
+      "step": 34
+    },
+    {
+      "epoch": 0.05714285714285714,
+      "grad_norm": 0.3475908935070038,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 10.8243,
+      "step": 35
+    },
+    {
+      "epoch": 0.05877551020408163,
+      "grad_norm": 0.34832385182380676,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 10.8361,
+      "step": 36
+    },
+    {
+      "epoch": 0.05877551020408163,
+      "eval_loss": 10.82837200164795,
+      "eval_runtime": 3.6261,
+      "eval_samples_per_second": 142.303,
+      "eval_steps_per_second": 17.926,
+      "step": 36
+    },
+    {
+      "epoch": 0.060408163265306125,
+      "grad_norm": 0.38585156202316284,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 10.8349,
+      "step": 37
+    },
+    {
+      "epoch": 0.062040816326530614,
+      "grad_norm": 0.3679266571998596,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 10.8248,
+      "step": 38
+    },
+    {
+      "epoch": 0.0636734693877551,
+      "grad_norm": 0.3592005670070648,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 10.8294,
+      "step": 39
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.40437984466552734,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 10.815,
+      "step": 40
+    },
+    {
+      "epoch": 0.06693877551020408,
+      "grad_norm": 0.3061695098876953,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 10.8288,
+      "step": 41
+    },
+    {
+      "epoch": 0.06857142857142857,
+      "grad_norm": 0.3776490390300751,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 10.8317,
+      "step": 42
+    },
+    {
+      "epoch": 0.07020408163265306,
+      "grad_norm": 0.32111433148384094,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 10.8274,
+      "step": 43
+    },
+    {
+      "epoch": 0.07183673469387755,
+      "grad_norm": 0.3298783004283905,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 10.8297,
+      "step": 44
+    },
+    {
+      "epoch": 0.07346938775510205,
+      "grad_norm": 0.3214799463748932,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 10.8207,
+      "step": 45
+    },
+    {
+      "epoch": 0.07346938775510205,
+      "eval_loss": 10.8258638381958,
+      "eval_runtime": 3.92,
+      "eval_samples_per_second": 131.632,
+      "eval_steps_per_second": 16.582,
+      "step": 45
+    },
+    {
+      "epoch": 0.07510204081632653,
+      "grad_norm": 0.38677850365638733,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 10.8341,
+      "step": 46
+    },
+    {
+      "epoch": 0.07673469387755102,
+      "grad_norm": 0.4923776686191559,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 10.8146,
+      "step": 47
+    },
+    {
+      "epoch": 0.0783673469387755,
+      "grad_norm": 0.313905268907547,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 10.8348,
+      "step": 48
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.4023575186729431,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 10.8258,
+      "step": 49
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 0.2993476390838623,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 10.8299,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 16501859942400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null