Training in progress, step 60, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e326cab99b9185673026663619315b66fbc144ff1c4a4cc0f73758d0a7e97df
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:02c6a02a38beb7dea41136c4d1a17953ef3ab09e2f49fa4c1f40e845d6fb77b7
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acb1b63fea4a66c08312e4978f73870c35ab3335f4b1705b84dcf6d655978dc5
 size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:a65e6dfa03b98ef71b5e0aaa1ab80ad33f2c75979e27bb12757b7cfc567a33a9
 size 857274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f720d721c792d0a9412a85ed8fc6e2eb685bfd50ae210c270b08af2ed177b79e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:084f32ddd70fbc2c6c255d9cdf7853d5ed9830616f8380ca99fe57f35f8837a8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a75dcc5ec09eada6641b366eac390a2a47e7ec4306b94cfdb718bc9a73ac9b0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2601abf854b6be8698cb0f6fe00b6f4cb5b0fb02bcdf39c9a58443d971d2cfbf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.026412446865585408,
   "eval_steps": 20,
-  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,154 @@
       "eval_samples_per_second": 75.597,
       "eval_steps_per_second": 75.597,
       "step": 40
     }
   ],
   "logging_steps": 1,
@@ -330,7 +478,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 28561970823168.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03961867029837811,
   "eval_steps": 20,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 75.597,
       "eval_steps_per_second": 75.597,
       "step": 40
+    },
+    {
+      "epoch": 0.02707275803722504,
+      "grad_norm": 166313.5,
+      "learning_rate": 0.00029162079221537,
+      "loss": 178.7949,
+      "step": 41
+    },
+    {
+      "epoch": 0.027733069208864678,
+      "grad_norm": 135891.28125,
+      "learning_rate": 0.0002910769889254386,
+      "loss": 201.0785,
+      "step": 42
+    },
+    {
+      "epoch": 0.02839338038050431,
+      "grad_norm": 64060.7890625,
+      "learning_rate": 0.0002905166296253533,
+      "loss": 163.5094,
+      "step": 43
+    },
+    {
+      "epoch": 0.029053691552143948,
+      "grad_norm": 96362.4921875,
+      "learning_rate": 0.0002899397800757626,
+      "loss": 140.6384,
+      "step": 44
+    },
+    {
+      "epoch": 0.02971400272378358,
+      "grad_norm": 166254.203125,
+      "learning_rate": 0.0002893465079725187,
+      "loss": 139.1684,
+      "step": 45
+    },
+    {
+      "epoch": 0.030374313895423218,
+      "grad_norm": 161925.5625,
+      "learning_rate": 0.0002887368829387333,
+      "loss": 140.9152,
+      "step": 46
+    },
+    {
+      "epoch": 0.031034625067062855,
+      "grad_norm": 637966.3125,
+      "learning_rate": 0.0002881109765166071,
+      "loss": 131.3419,
+      "step": 47
+    },
+    {
+      "epoch": 0.03169493623870249,
+      "grad_norm": 367775.03125,
+      "learning_rate": 0.00028746886215903387,
+      "loss": 155.0525,
+      "step": 48
+    },
+    {
+      "epoch": 0.032355247410342125,
+      "grad_norm": 307120.84375,
+      "learning_rate": 0.00028681061522098047,
+      "loss": 148.0313,
+      "step": 49
+    },
+    {
+      "epoch": 0.03301555858198176,
+      "grad_norm": 164428.203125,
+      "learning_rate": 0.0002861363129506435,
+      "loss": 139.0605,
+      "step": 50
+    },
+    {
+      "epoch": 0.03367586975362139,
+      "grad_norm": 56655.140625,
+      "learning_rate": 0.0002854460344803842,
+      "loss": 105.2498,
+      "step": 51
+    },
+    {
+      "epoch": 0.03433618092526103,
+      "grad_norm": 110095.71875,
+      "learning_rate": 0.00028473986081744163,
+      "loss": 107.1039,
+      "step": 52
+    },
+    {
+      "epoch": 0.034996492096900665,
+      "grad_norm": 84727.8125,
+      "learning_rate": 0.000284017874834426,
+      "loss": 114.7597,
+      "step": 53
+    },
+    {
+      "epoch": 0.0356568032685403,
+      "grad_norm": 108558.9140625,
+      "learning_rate": 0.0002832801612595937,
+      "loss": 131.0451,
+      "step": 54
+    },
+    {
+      "epoch": 0.03631711444017993,
+      "grad_norm": 35595.47265625,
+      "learning_rate": 0.0002825268066669034,
+      "loss": 135.1516,
+      "step": 55
+    },
+    {
+      "epoch": 0.03697742561181957,
+      "grad_norm": 54421.08203125,
+      "learning_rate": 0.00028175789946585693,
+      "loss": 116.2731,
+      "step": 56
+    },
+    {
+      "epoch": 0.037637736783459205,
+      "grad_norm": 72844.515625,
+      "learning_rate": 0.0002809735298911234,
+      "loss": 101.419,
+      "step": 57
+    },
+    {
+      "epoch": 0.03829804795509884,
+      "grad_norm": 58473.41015625,
+      "learning_rate": 0.00028017378999195015,
+      "loss": 101.8432,
+      "step": 58
+    },
+    {
+      "epoch": 0.03895835912673848,
+      "grad_norm": 41094.68359375,
+      "learning_rate": 0.0002793587736213603,
+      "loss": 114.5148,
+      "step": 59
+    },
+    {
+      "epoch": 0.03961867029837811,
+      "grad_norm": 75345.5234375,
+      "learning_rate": 0.00027852857642513836,
+      "loss": 119.3659,
+      "step": 60
+    },
+    {
+      "epoch": 0.03961867029837811,
+      "eval_loss": 16.175268173217773,
+      "eval_runtime": 6.5722,
+      "eval_samples_per_second": 75.317,
+      "eval_steps_per_second": 75.317,
+      "step": 60
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 40390914736128.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null