Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7f918c26d69f33331d37b75b868e141ca18d1cdd93f49fde57032a9c8ee4c15
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:9894f4e130ceba8e360f75920d312b51e983d2f01a2cd31d0cd1b331577f06ce
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44afee9e69378b5db64658d6fbab28fed6f648f9009b03a36a1c8afab726f091
 size 51418196

 version https://git-lfs.github.com/spec/v1
+oid sha256:183195870a6827892ba1e7e0f681ac6e54431d35097d3ada59699d70826c5b08
 size 51418196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92841b692d803cc88356b7ad5ae13429ba7f74f4dcb983a5058e2275b1e31d52
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c46d4aa8a39b760feb2ece556f0543b4b9f6c3fd4315fd4ddccefb37d238482f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596785cc644037bdf9b1374ba5340995054de5f4bde563878d8bc4f03a7aa10e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d10d0fa96665f6b4af4824faec3d1d9f4e8b4343723a14d86cab932da6ce3225
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8176446557044983,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.176522506619594,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,49 @@
       "eval_samples_per_second": 22.059,
       "eval_steps_per_second": 5.515,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.010387192339497e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7979318499565125,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.23536334215945867,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.059,
       "eval_steps_per_second": 5.515,
       "step": 150
+    },
+    {
+      "epoch": 0.18829067372756694,
+      "grad_norm": 0.7749770283699036,
+      "learning_rate": 0.0001697631521134985,
+      "loss": 5.9457,
+      "step": 160
+    },
+    {
+      "epoch": 0.20005884083553988,
+      "grad_norm": 0.843367338180542,
+      "learning_rate": 0.00016585113790650388,
+      "loss": 4.737,
+      "step": 170
+    },
+    {
+      "epoch": 0.2118270079435128,
+      "grad_norm": 0.7175513505935669,
+      "learning_rate": 0.0001617524614946192,
+      "loss": 2.8268,
+      "step": 180
+    },
+    {
+      "epoch": 0.22359517505148574,
+      "grad_norm": 0.8358870148658752,
+      "learning_rate": 0.0001574787410214407,
+      "loss": 1.3233,
+      "step": 190
+    },
+    {
+      "epoch": 0.23536334215945867,
+      "grad_norm": 2.047827959060669,
+      "learning_rate": 0.00015304209081197425,
+      "loss": 1.4239,
+      "step": 200
+    },
+    {
+      "epoch": 0.23536334215945867,
+      "eval_loss": 0.7979318499565125,
+      "eval_runtime": 64.8822,
+      "eval_samples_per_second": 22.071,
+      "eval_steps_per_second": 5.518,
+      "step": 200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3447268011081728e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null