Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b88031b9c9424eca48c879fdefc714de2989e04e00d6d77a8a069a434674acb
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:6adfe329f21cb2b6ee7a247e6e2cd9d8cbbf1d924714e24318722e54d871f371
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4273c57e70dd5ea89db14ebd8011418c00cfa27bab8a8adc0808191c43589f9c
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:8289d44338e341bb7cc973d90e7ba5dc97cf48adfc97f2262c0b86f66fb23105
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f2f0092cfd333d336a5f6c33416eee91036f6503ead1663dc65849b67f1c8e2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fb53a88c7f354580801381bf9f9cb68ea799947ddde7ac68dff170181f21647
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0024904119141305973,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.5535,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.237393280794624e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0049808238282611945,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.5535,
       "step": 25
+    },
+    {
+      "epoch": 0.002590028390695821,
+      "grad_norm": 0.7197738289833069,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.5874,
+      "step": 26
+    },
+    {
+      "epoch": 0.002689644867261045,
+      "grad_norm": 0.6915492415428162,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.4368,
+      "step": 27
+    },
+    {
+      "epoch": 0.002689644867261045,
+      "eval_loss": 0.8158602118492126,
+      "eval_runtime": 1982.4997,
+      "eval_samples_per_second": 4.264,
+      "eval_steps_per_second": 0.533,
+      "step": 27
+    },
+    {
+      "epoch": 0.002789261343826269,
+      "grad_norm": 0.7694994211196899,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.4071,
+      "step": 28
+    },
+    {
+      "epoch": 0.002888877820391493,
+      "grad_norm": 0.6930390000343323,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.2322,
+      "step": 29
+    },
+    {
+      "epoch": 0.0029884942969567166,
+      "grad_norm": 0.8376277089118958,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.7066,
+      "step": 30
+    },
+    {
+      "epoch": 0.0030881107735219403,
+      "grad_norm": 0.8401179313659668,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.4075,
+      "step": 31
+    },
+    {
+      "epoch": 0.0031877272500871645,
+      "grad_norm": 0.6120941638946533,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.2898,
+      "step": 32
+    },
+    {
+      "epoch": 0.0032873437266523883,
+      "grad_norm": 0.7408422231674194,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.4385,
+      "step": 33
+    },
+    {
+      "epoch": 0.003386960203217612,
+      "grad_norm": 0.8187410831451416,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.6469,
+      "step": 34
+    },
+    {
+      "epoch": 0.0034865766797828363,
+      "grad_norm": 0.9299861788749695,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 1.8522,
+      "step": 35
+    },
+    {
+      "epoch": 0.00358619315634806,
+      "grad_norm": 0.6361233592033386,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 1.801,
+      "step": 36
+    },
+    {
+      "epoch": 0.00358619315634806,
+      "eval_loss": 0.7981658577919006,
+      "eval_runtime": 1981.0,
+      "eval_samples_per_second": 4.268,
+      "eval_steps_per_second": 0.534,
+      "step": 36
+    },
+    {
+      "epoch": 0.003685809632913284,
+      "grad_norm": 0.6598179936408997,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.5102,
+      "step": 37
+    },
+    {
+      "epoch": 0.0037854261094785076,
+      "grad_norm": 0.7499687075614929,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 1.657,
+      "step": 38
+    },
+    {
+      "epoch": 0.0038850425860437318,
+      "grad_norm": 0.9739256501197815,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 1.8125,
+      "step": 39
+    },
+    {
+      "epoch": 0.003984659062608955,
+      "grad_norm": 0.7461879253387451,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.5476,
+      "step": 40
+    },
+    {
+      "epoch": 0.004084275539174179,
+      "grad_norm": 0.6482231616973877,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.6514,
+      "step": 41
+    },
+    {
+      "epoch": 0.0041838920157394035,
+      "grad_norm": 0.6921175718307495,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.7081,
+      "step": 42
+    },
+    {
+      "epoch": 0.004283508492304627,
+      "grad_norm": 0.6822366714477539,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.4533,
+      "step": 43
+    },
+    {
+      "epoch": 0.004383124968869851,
+      "grad_norm": 0.7140436768531799,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.6157,
+      "step": 44
+    },
+    {
+      "epoch": 0.004482741445435075,
+      "grad_norm": 0.7993573546409607,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.5638,
+      "step": 45
+    },
+    {
+      "epoch": 0.004482741445435075,
+      "eval_loss": 0.7814497351646423,
+      "eval_runtime": 1981.9691,
+      "eval_samples_per_second": 4.265,
+      "eval_steps_per_second": 0.533,
+      "step": 45
+    },
+    {
+      "epoch": 0.004582357922000299,
+      "grad_norm": 0.8172252774238586,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.6437,
+      "step": 46
+    },
+    {
+      "epoch": 0.004681974398565523,
+      "grad_norm": 0.7211968302726746,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.4087,
+      "step": 47
+    },
+    {
+      "epoch": 0.004781590875130747,
+      "grad_norm": 0.5860567092895508,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 1.3838,
+      "step": 48
+    },
+    {
+      "epoch": 0.00488120735169597,
+      "grad_norm": 0.8529565334320068,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.8087,
+      "step": 49
+    },
+    {
+      "epoch": 0.0049808238282611945,
+      "grad_norm": 0.722075879573822,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 1.6567,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.411308261965824e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null