Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5d1a32d3f3e46d7cbc31a77545ef63fec79537825875fbcbd9edd251c746883
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f4444ebbb67ab20ea1af9c6f7eaa1e27624aab4e7f302205fcc95e7f94c758f
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b479723400fc0944483e9109ca480ee911688c472bc26e248a668f6eb755171
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7323b00f0fe61e2f4da405752d199db3de799989b7c4fdfd6f92e97533c7305
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52d31179bc5d1762a031831bcb1c9b6e1688894a2d82366a2cb2821eadc9bee1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0764a95d6a4996b2142121079c5acac1ec8f001608b22cdf861c3d230973e530
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006639224538573895,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.7809,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2019451893252096e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01327844907714779,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.7809,
       "step": 25
+    },
+    {
+      "epoch": 0.00690479352011685,
+      "grad_norm": 12.756429672241211,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.8468,
+      "step": 26
+    },
+    {
+      "epoch": 0.007170362501659806,
+      "grad_norm": 12.496906280517578,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.7602,
+      "step": 27
+    },
+    {
+      "epoch": 0.007170362501659806,
+      "eval_loss": 0.20372115075588226,
+      "eval_runtime": 559.8065,
+      "eval_samples_per_second": 5.664,
+      "eval_steps_per_second": 0.709,
+      "step": 27
+    },
+    {
+      "epoch": 0.007435931483202762,
+      "grad_norm": 6.117914199829102,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.4319,
+      "step": 28
+    },
+    {
+      "epoch": 0.007701500464745718,
+      "grad_norm": 10.269083976745605,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.3816,
+      "step": 29
+    },
+    {
+      "epoch": 0.007967069446288673,
+      "grad_norm": 8.173473358154297,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.3573,
+      "step": 30
+    },
+    {
+      "epoch": 0.00823263842783163,
+      "grad_norm": 7.133336544036865,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.1658,
+      "step": 31
+    },
+    {
+      "epoch": 0.008498207409374585,
+      "grad_norm": 4.3148298263549805,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.1436,
+      "step": 32
+    },
+    {
+      "epoch": 0.00876377639091754,
+      "grad_norm": 12.986287117004395,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.4481,
+      "step": 33
+    },
+    {
+      "epoch": 0.009029345372460496,
+      "grad_norm": 8.799443244934082,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.2404,
+      "step": 34
+    },
+    {
+      "epoch": 0.009294914354003453,
+      "grad_norm": 6.142348289489746,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.1254,
+      "step": 35
+    },
+    {
+      "epoch": 0.009560483335546408,
+      "grad_norm": 5.877281665802002,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.1166,
+      "step": 36
+    },
+    {
+      "epoch": 0.009560483335546408,
+      "eval_loss": 0.07145125418901443,
+      "eval_runtime": 559.908,
+      "eval_samples_per_second": 5.663,
+      "eval_steps_per_second": 0.709,
+      "step": 36
+    },
+    {
+      "epoch": 0.009826052317089363,
+      "grad_norm": 5.168353080749512,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0559,
+      "step": 37
+    },
+    {
+      "epoch": 0.01009162129863232,
+      "grad_norm": 5.736714839935303,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.1733,
+      "step": 38
+    },
+    {
+      "epoch": 0.010357190280175276,
+      "grad_norm": 1.031773328781128,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.019,
+      "step": 39
+    },
+    {
+      "epoch": 0.010622759261718231,
+      "grad_norm": 0.3790012300014496,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0093,
+      "step": 40
+    },
+    {
+      "epoch": 0.010888328243261186,
+      "grad_norm": 9.644392967224121,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.4539,
+      "step": 41
+    },
+    {
+      "epoch": 0.011153897224804143,
+      "grad_norm": 20.26791763305664,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.1645,
+      "step": 42
+    },
+    {
+      "epoch": 0.011419466206347099,
+      "grad_norm": 24.0386962890625,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.9467,
+      "step": 43
+    },
+    {
+      "epoch": 0.011685035187890054,
+      "grad_norm": 9.300283432006836,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.3329,
+      "step": 44
+    },
+    {
+      "epoch": 0.01195060416943301,
+      "grad_norm": 8.567636489868164,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.1665,
+      "step": 45
+    },
+    {
+      "epoch": 0.01195060416943301,
+      "eval_loss": 0.07661288231611252,
+      "eval_runtime": 559.8843,
+      "eval_samples_per_second": 5.664,
+      "eval_steps_per_second": 0.709,
+      "step": 45
+    },
+    {
+      "epoch": 0.012216173150975966,
+      "grad_norm": 3.942033052444458,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0614,
+      "step": 46
+    },
+    {
+      "epoch": 0.012481742132518922,
+      "grad_norm": 3.180799722671509,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.0409,
+      "step": 47
+    },
+    {
+      "epoch": 0.012747311114061877,
+      "grad_norm": 10.57024097442627,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.5203,
+      "step": 48
+    },
+    {
+      "epoch": 0.013012880095604834,
+      "grad_norm": 24.475112915039062,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.144,
+      "step": 49
+    },
+    {
+      "epoch": 0.01327844907714779,
+      "grad_norm": 12.837873458862305,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.8704,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.46923619884073e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null