Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dd9852c74de32adb6a77906b82caaed269f2ca9f53c0f0781a7738ef3366bac
 size 1001465824

 version https://git-lfs.github.com/spec/v1
+oid sha256:07b3217ceb4ed446a420f0b7ceaa201f45b73b6da102a1036df143e3a5b60f8e
 size 1001465824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:921013ee7103e94041fefde644bc206151bfdf422b39ac5eb54f385135e99596
-size 509176980

 version https://git-lfs.github.com/spec/v1
+oid sha256:f22417531fea34ad6afd23b8f904952d9c38c862c92572ab80be8efe5db7fda9
+size 509177556

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bade1e9aa034973e99b5d7924a7d98faf3dcd0eb3d5b95fad6f98cb29320cb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d230510295da1f64005a06168f586c9f134604ac39afd46be52c1ac6c1ac8e2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b764a7feea336c9409f04ca3df4d8b4349bea019384446d21739ad3565001bd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd9465ef056e04d3fe99197d208af63980ee5111d270db49fe259e43c05f827d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.601406216621399,
-  "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 0.0422225975342003,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,49 @@
       "eval_samples_per_second": 11.01,
       "eval_steps_per_second": 2.755,
       "step": 250
     }
   ],
   "logging_steps": 10,
@@ -258,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.050147590144e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5676641464233398,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.05066711704104036,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.01,
       "eval_steps_per_second": 2.755,
       "step": 250
+    },
+    {
+      "epoch": 0.043911501435568316,
+      "grad_norm": 3.127474546432495,
+      "learning_rate": 0.00011818454556963892,
+      "loss": 2.9031,
+      "step": 260
+    },
+    {
+      "epoch": 0.04560040533693633,
+      "grad_norm": 3.238449811935425,
+      "learning_rate": 0.00011073424614716762,
+      "loss": 3.1569,
+      "step": 270
+    },
+    {
+      "epoch": 0.04728930923830434,
+      "grad_norm": 4.280186653137207,
+      "learning_rate": 0.00010326575385283242,
+      "loss": 3.2566,
+      "step": 280
+    },
+    {
+      "epoch": 0.04897821313967235,
+      "grad_norm": 3.685248613357544,
+      "learning_rate": 9.58154544303611e-05,
+      "loss": 3.2076,
+      "step": 290
+    },
+    {
+      "epoch": 0.05066711704104036,
+      "grad_norm": 7.450679302215576,
+      "learning_rate": 8.841964498963846e-05,
+      "loss": 3.3199,
+      "step": 300
+    },
+    {
+      "epoch": 0.05066711704104036,
+      "eval_loss": 1.5676641464233398,
+      "eval_runtime": 224.0674,
+      "eval_samples_per_second": 11.131,
+      "eval_steps_per_second": 2.785,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.6601771081728e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null