Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01e58838627f9ecc5f2c6bbb7e84c0d94fc7aa13ba6d9cf9de077b7b47d61fa0
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:941fd280f1c7b7fbb8f4366f948956403b4d097624348ab00e7026ede311467f
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eacec176a7b4d8becefc17ca1a0e16494513d6925ba67e346674b8f2d5286e8b
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:753f8eb938073fd2df9c9a8c1a8634fa996870ae17c8740efb95ace032c234a3
 size 85723284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8313a0c92bda54b2c63292000e2def5b56aa74bdf1d1230f75f63582a0ed130e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9be4ab83c0a009bd571affde02a6e55899c606bc36857d7fa20242b0dba84560
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0051c53bcb92b7c913136d782f625b409707ede35cdcc9bbc83a63d788098e04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:596785cc644037bdf9b1374ba5340995054de5f4bde563878d8bc4f03a7aa10e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.1572701930999756,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.02730561813093044,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,49 @@
       "eval_samples_per_second": 25.17,
       "eval_steps_per_second": 6.293,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -129,7 +172,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.03129498681344e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.1126084327697754,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.040958427196395655,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.17,
       "eval_steps_per_second": 6.293,
       "step": 100
+    },
+    {
+      "epoch": 0.030036179944023484,
+      "grad_norm": 10.612593650817871,
+      "learning_rate": 0.0001861554081393806,
+      "loss": 7.8833,
+      "step": 110
+    },
+    {
+      "epoch": 0.032766741757116524,
+      "grad_norm": 10.446393966674805,
+      "learning_rate": 0.0001833313919082515,
+      "loss": 8.3278,
+      "step": 120
+    },
+    {
+      "epoch": 0.03549730357020957,
+      "grad_norm": 14.34956169128418,
+      "learning_rate": 0.00018027116379309638,
+      "loss": 8.2577,
+      "step": 130
+    },
+    {
+      "epoch": 0.03822786538330261,
+      "grad_norm": 14.526724815368652,
+      "learning_rate": 0.00017698339834299061,
+      "loss": 7.8844,
+      "step": 140
+    },
+    {
+      "epoch": 0.040958427196395655,
+      "grad_norm": 37.110965728759766,
+      "learning_rate": 0.00017347741508630672,
+      "loss": 8.4204,
+      "step": 150
+    },
+    {
+      "epoch": 0.040958427196395655,
+      "eval_loss": 2.1126084327697754,
+      "eval_runtime": 244.2124,
+      "eval_samples_per_second": 25.257,
+      "eval_steps_per_second": 6.314,
+      "step": 150
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.054694248022016e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null