Training in progress, step 91, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e79db61b8a67b267ecd2022ebb47d0ced0f0386e603532a1a146bee55843d85
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca0b8fa886b701ae9b83245d91dca14a4ae89fb20ff76e025c30669227f69b61
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6207d124702d19d5800f70cc9d2ff5c405cbcac003b4b0d5d47ce21d443298a
 size 640009682

 version https://git-lfs.github.com/spec/v1
+oid sha256:348f29fb9df9b9eec2348b93560b583266a82d218ade71b7553f114e0f883df6
 size 640009682

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48523dd1312a134256c6c76e541956b189e760ea17cbadfffbe6acae6afe1b0c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c72dedb2dc4931fa8d6b976c4421dfe3726c461103475f4c2e5fbbda6f4d034e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f67903029bd03962cd576ce98fdf2051c9d1f3ac8313e78e1fcac70600c55ded
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9f056dd40c8c1415b0e9ddd654f5e86244de032aa74a96ad4901970d9bab358
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10380536494073613,
   "eval_steps": 50,
-  "global_step": 78,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -569,6 +569,97 @@
       "learning_rate": 8.762677810102787e-05,
       "loss": 44.5024,
       "step": 78
     }
   ],
   "logging_steps": 1,
@@ -588,7 +679,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.4045434141802496e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.12110625909752547,
   "eval_steps": 50,
+  "global_step": 91,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.762677810102787e-05,
       "loss": 44.5024,
       "step": 78
+    },
+    {
+      "epoch": 0.10513620295279684,
+      "grad_norm": 4.580371379852295,
+      "learning_rate": 8.583667871769158e-05,
+      "loss": 45.4198,
+      "step": 79
+    },
+    {
+      "epoch": 0.10646704096485755,
+      "grad_norm": 5.361691951751709,
+      "learning_rate": 8.404025101914921e-05,
+      "loss": 46.9717,
+      "step": 80
+    },
+    {
+      "epoch": 0.10779787897691828,
+      "grad_norm": 5.872640609741211,
+      "learning_rate": 8.223854406858862e-05,
+      "loss": 46.8967,
+      "step": 81
+    },
+    {
+      "epoch": 0.109128716988979,
+      "grad_norm": 4.439775466918945,
+      "learning_rate": 8.043261001213218e-05,
+      "loss": 45.777,
+      "step": 82
+    },
+    {
+      "epoch": 0.11045955500103971,
+      "grad_norm": 4.8212056159973145,
+      "learning_rate": 7.862350346441302e-05,
+      "loss": 46.7968,
+      "step": 83
+    },
+    {
+      "epoch": 0.11179039301310044,
+      "grad_norm": 4.29143762588501,
+      "learning_rate": 7.681228089270991e-05,
+      "loss": 44.3015,
+      "step": 84
+    },
+    {
+      "epoch": 0.11312123102516115,
+      "grad_norm": 4.222655773162842,
+      "learning_rate": 7.5e-05,
+      "loss": 45.1899,
+      "step": 85
+    },
+    {
+      "epoch": 0.11445206903722188,
+      "grad_norm": 4.317388534545898,
+      "learning_rate": 7.318771910729009e-05,
+      "loss": 45.5435,
+      "step": 86
+    },
+    {
+      "epoch": 0.1157829070492826,
+      "grad_norm": 4.136228561401367,
+      "learning_rate": 7.137649653558697e-05,
+      "loss": 47.2873,
+      "step": 87
+    },
+    {
+      "epoch": 0.11711374506134331,
+      "grad_norm": 4.299015998840332,
+      "learning_rate": 6.956738998786783e-05,
+      "loss": 47.1202,
+      "step": 88
+    },
+    {
+      "epoch": 0.11844458307340404,
+      "grad_norm": 5.2958784103393555,
+      "learning_rate": 6.776145593141136e-05,
+      "loss": 48.6786,
+      "step": 89
+    },
+    {
+      "epoch": 0.11977542108546475,
+      "grad_norm": 4.868504524230957,
+      "learning_rate": 6.595974898085078e-05,
+      "loss": 45.666,
+      "step": 90
+    },
+    {
+      "epoch": 0.12110625909752547,
+      "grad_norm": 5.617905139923096,
+      "learning_rate": 6.416332128230842e-05,
+      "loss": 44.0781,
+      "step": 91
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.130964380250276e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null