Training in progress, step 314, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aaf1ffc8743b661c24ffddf27f33c30d0bf873fa43be1a656ab249520615e8d
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0f39368f135c9559d4295ae28ed2bbd25c473808fb5a2e6393a51fd4c627c8c
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13906c1d2d1874c052a2dffaa33cc5553f8bc05ff44ccdbf8cbb8eda90e2875f
 size 150487412

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd509530684de3d7fb8f946689241b94c7faad18cf8c5938ef5f4cdd2ab85016
 size 150487412

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc8c82c87fe80ee509f889329bd2c1f33412a2618800882fa3ef31712bbae899
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a0fe62b5ce4fa26deccbcf8596f226f5ec4cccd3f13880f8be34b81ff0861e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e56605411c75d4f5d10e2119513fb3cbc4f1b7f0d9a95ce7a12185ef30e8d070
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5304cf14ef62a028101f5aad80a675689064bce29890c1269eb16b7d46d866d9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.6946364641189575,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 2.8708133971291865,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2163,6 +2163,104 @@
       "eval_samples_per_second": 30.901,
       "eval_steps_per_second": 7.856,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2186,12 +2284,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.361646850310144e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.6946364641189575,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 3.0047846889952154,
   "eval_steps": 50,
+  "global_step": 314,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.901,
       "eval_steps_per_second": 7.856,
       "step": 300
+    },
+    {
+      "epoch": 2.8803827751196174,
+      "grad_norm": 0.6223769783973694,
+      "learning_rate": 4.505323691412711e-07,
+      "loss": 1.3203,
+      "step": 301
+    },
+    {
+      "epoch": 2.889952153110048,
+      "grad_norm": 0.6258677244186401,
+      "learning_rate": 3.839710131477492e-07,
+      "loss": 1.1759,
+      "step": 302
+    },
+    {
+      "epoch": 2.8995215311004783,
+      "grad_norm": 0.6979731321334839,
+      "learning_rate": 3.2270837404318464e-07,
+      "loss": 1.541,
+      "step": 303
+    },
+    {
+      "epoch": 2.909090909090909,
+      "grad_norm": 0.7176746129989624,
+      "learning_rate": 2.667509943378721e-07,
+      "loss": 1.3922,
+      "step": 304
+    },
+    {
+      "epoch": 2.9186602870813396,
+      "grad_norm": 0.7628390789031982,
+      "learning_rate": 2.161048499698115e-07,
+      "loss": 1.3605,
+      "step": 305
+    },
+    {
+      "epoch": 2.92822966507177,
+      "grad_norm": 0.785723865032196,
+      "learning_rate": 1.7077534966650766e-07,
+      "loss": 1.3788,
+      "step": 306
+    },
+    {
+      "epoch": 2.937799043062201,
+      "grad_norm": 0.8244166374206543,
+      "learning_rate": 1.3076733436734322e-07,
+      "loss": 1.323,
+      "step": 307
+    },
+    {
+      "epoch": 2.9473684210526314,
+      "grad_norm": 0.9065255522727966,
+      "learning_rate": 9.60850767065924e-08,
+      "loss": 1.2804,
+      "step": 308
+    },
+    {
+      "epoch": 2.9569377990430623,
+      "grad_norm": 1.011901617050171,
+      "learning_rate": 6.673228055715241e-08,
+      "loss": 1.2738,
+      "step": 309
+    },
+    {
+      "epoch": 2.9665071770334928,
+      "grad_norm": 1.1093995571136475,
+      "learning_rate": 4.2712080634949024e-08,
+      "loss": 1.1685,
+      "step": 310
+    },
+    {
+      "epoch": 2.9760765550239237,
+      "grad_norm": 1.3170857429504395,
+      "learning_rate": 2.4027042164198598e-08,
+      "loss": 0.9393,
+      "step": 311
+    },
+    {
+      "epoch": 2.985645933014354,
+      "grad_norm": 1.4136571884155273,
+      "learning_rate": 1.0679160603449534e-08,
+      "loss": 0.8915,
+      "step": 312
+    },
+    {
+      "epoch": 2.9952153110047846,
+      "grad_norm": 2.444126844406128,
+      "learning_rate": 2.669861432463838e-09,
+      "loss": 0.636,
+      "step": 313
+    },
+    {
+      "epoch": 3.0047846889952154,
+      "grad_norm": 0.7383264303207397,
+      "learning_rate": 0.0,
+      "loss": 1.9637,
+      "step": 314
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.763060328071168e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null