Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72361d404d4850cb691ee6ade80a85b7485b669a049f09cb21e147ca03acecce
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bcbd2c3aa79fcf58562a7c97751ca13237bddbee7b9f2aa234cf765151d7458
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28552a3b476370ecfdf6dc0d49636c0700f503d7b561e13761cc5f5f171a5586
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb13b360cc23c2a6bf0abb1df006e6e613c0801cc55a782b5f159bdafd8748e0
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a91fffc8df782f562756d916c0b8f6e91aa81b70efe85e833738936b99742dc7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c29f9a80fc9e04fe0da8a1256f2be375ed9e3c30cca1fcffff357c281ae570d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb15fdd4c0ab874f4afa0ea95fae119cbc74554df5fbe92ab825fe27063eaa04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.8619909286499023,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.07524454477050414,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 23.846,
       "eval_steps_per_second": 2.981,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.149631849712845e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.820805311203003,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.1504890895410083,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.846,
       "eval_steps_per_second": 2.981,
       "step": 25
+    },
+    {
+      "epoch": 0.0782543265613243,
+      "grad_norm": 1.0002057552337646,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.8563,
+      "step": 26
+    },
+    {
+      "epoch": 0.08126410835214447,
+      "grad_norm": 1.1107908487319946,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.8463,
+      "step": 27
+    },
+    {
+      "epoch": 0.08427389014296463,
+      "grad_norm": 1.072805404663086,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.6508,
+      "step": 28
+    },
+    {
+      "epoch": 0.0872836719337848,
+      "grad_norm": 1.0106879472732544,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 2.5251,
+      "step": 29
+    },
+    {
+      "epoch": 0.09029345372460497,
+      "grad_norm": 1.2027719020843506,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.8327,
+      "step": 30
+    },
+    {
+      "epoch": 0.09330323551542513,
+      "grad_norm": 1.1394113302230835,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.7757,
+      "step": 31
+    },
+    {
+      "epoch": 0.0963130173062453,
+      "grad_norm": 1.2820569276809692,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.8451,
+      "step": 32
+    },
+    {
+      "epoch": 0.09932279909706546,
+      "grad_norm": 1.2121508121490479,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 2.8283,
+      "step": 33
+    },
+    {
+      "epoch": 0.10233258088788563,
+      "grad_norm": 1.4197814464569092,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.8322,
+      "step": 34
+    },
+    {
+      "epoch": 0.1053423626787058,
+      "grad_norm": 1.1734874248504639,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.8426,
+      "step": 35
+    },
+    {
+      "epoch": 0.10835214446952596,
+      "grad_norm": 1.4363727569580078,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.7893,
+      "step": 36
+    },
+    {
+      "epoch": 0.11136192626034612,
+      "grad_norm": 1.4023809432983398,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 3.0376,
+      "step": 37
+    },
+    {
+      "epoch": 0.1143717080511663,
+      "grad_norm": 1.2818490266799927,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 2.9798,
+      "step": 38
+    },
+    {
+      "epoch": 0.11738148984198646,
+      "grad_norm": 1.3507646322250366,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 3.0428,
+      "step": 39
+    },
+    {
+      "epoch": 0.12039127163280662,
+      "grad_norm": 1.582718014717102,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 3.0075,
+      "step": 40
+    },
+    {
+      "epoch": 0.12340105342362678,
+      "grad_norm": 1.3366882801055908,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 2.8668,
+      "step": 41
+    },
+    {
+      "epoch": 0.12641083521444696,
+      "grad_norm": 1.5277765989303589,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 3.021,
+      "step": 42
+    },
+    {
+      "epoch": 0.1294206170052671,
+      "grad_norm": 1.4966776371002197,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 3.0298,
+      "step": 43
+    },
+    {
+      "epoch": 0.13243039879608728,
+      "grad_norm": 1.516334056854248,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 3.0934,
+      "step": 44
+    },
+    {
+      "epoch": 0.13544018058690746,
+      "grad_norm": 1.5727485418319702,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 2.9893,
+      "step": 45
+    },
+    {
+      "epoch": 0.1384499623777276,
+      "grad_norm": 1.6935365200042725,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 2.8765,
+      "step": 46
+    },
+    {
+      "epoch": 0.14145974416854779,
+      "grad_norm": 1.9638950824737549,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 3.0016,
+      "step": 47
+    },
+    {
+      "epoch": 0.14446952595936793,
+      "grad_norm": 1.6884702444076538,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 3.1636,
+      "step": 48
+    },
+    {
+      "epoch": 0.1474793077501881,
+      "grad_norm": 2.420992136001587,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 3.5223,
+      "step": 49
+    },
+    {
+      "epoch": 0.1504890895410083,
+      "grad_norm": 2.9017465114593506,
+      "learning_rate": 0.0,
+      "loss": 3.3745,
+      "step": 50
+    },
+    {
+      "epoch": 0.1504890895410083,
+      "eval_loss": 2.820805311203003,
+      "eval_runtime": 23.745,
+      "eval_samples_per_second": 23.584,
+      "eval_steps_per_second": 2.948,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.035273823145165e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null