Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:941fd280f1c7b7fbb8f4366f948956403b4d097624348ab00e7026ede311467f
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e6ba3b6faf4c1f3e3e8609684969ad2b0d323a8f392e9f06c720aa12b2ba0eb
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:753f8eb938073fd2df9c9a8c1a8634fa996870ae17c8740efb95ace032c234a3
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b353c711bd613e42ee15c87b4b4e9b4a6f99263b60c857c0f206c2c804d52ce
 size 85723284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9be4ab83c0a009bd571affde02a6e55899c606bc36857d7fa20242b0dba84560
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdf5305789d6ebecb96d6be885a9f3663bb8ec35160cd9fb1ba3c4b58b48d8cc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596785cc644037bdf9b1374ba5340995054de5f4bde563878d8bc4f03a7aa10e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d10d0fa96665f6b4af4824faec3d1d9f4e8b4343723a14d86cab932da6ce3225
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.1126084327697754,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.040958427196395655,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,49 @@
       "eval_samples_per_second": 25.257,
       "eval_steps_per_second": 6.314,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.054694248022016e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.1126017570495605,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.05461123626186088,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.257,
       "eval_steps_per_second": 6.314,
       "step": 150
+    },
+    {
+      "epoch": 0.0436889890094887,
+      "grad_norm": 12.598857879638672,
+      "learning_rate": 0.0001697631521134985,
+      "loss": 7.9538,
+      "step": 160
+    },
+    {
+      "epoch": 0.04641955082258175,
+      "grad_norm": 11.983827590942383,
+      "learning_rate": 0.00016585113790650388,
+      "loss": 8.1731,
+      "step": 170
+    },
+    {
+      "epoch": 0.04915011263567479,
+      "grad_norm": 13.680892944335938,
+      "learning_rate": 0.0001617524614946192,
+      "loss": 7.9786,
+      "step": 180
+    },
+    {
+      "epoch": 0.05188067444876784,
+      "grad_norm": 16.39923858642578,
+      "learning_rate": 0.0001574787410214407,
+      "loss": 7.8267,
+      "step": 190
+    },
+    {
+      "epoch": 0.05461123626186088,
+      "grad_norm": 35.790550231933594,
+      "learning_rate": 0.00015304209081197425,
+      "loss": 7.9481,
+      "step": 200
+    },
+    {
+      "epoch": 0.05461123626186088,
+      "eval_loss": 2.1126017570495605,
+      "eval_runtime": 244.847,
+      "eval_samples_per_second": 25.191,
+      "eval_steps_per_second": 6.298,
+      "step": 200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.406258997362688e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null