Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:697d162fa2dbe32097fb5b80d3847f2ea26a478491fd8368a542ea905b293250
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:12544515ccd7d317af38345a7943b500761ef9e7214296d471ae9f8c8f58a122
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27acbf30ecc16678f201b1b72b4bc4791656be678bd58c2e1a085153248ffc00
 size 1279641042

 version https://git-lfs.github.com/spec/v1
+oid sha256:97f0c1daccf22b58f4a83e254562ad68fae8724ad207344d1d50cc88d0055654
 size 1279641042

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:498c17de409a3b9deb8302be29a53fc9e16b2c8ca43f274792b3a5966771b400
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:184a0e99461028aa661e839c7448c1fd95e3c978211b4ff9fc646517dc2ed9ce
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d90116c540b4ff0066495fbccc9c914a568905fb44c6564f227952cc4231b00
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:03ad66011cfc1fc727a51190602a41adc332b48eeef62a5ee87c2ca9f9b90b2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5612907409667969,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0648508430609598,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 7.345,
       "eval_steps_per_second": 1.853,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -396,12 +754,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.66313582395392e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.10878434032201767,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.1297016861219196,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.345,
       "eval_steps_per_second": 1.853,
       "step": 50
+    },
+    {
+      "epoch": 0.06614785992217899,
+      "grad_norm": 20.423954010009766,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 2.997,
+      "step": 51
+    },
+    {
+      "epoch": 0.06744487678339818,
+      "grad_norm": 17.79172134399414,
+      "learning_rate": 2.3263454721781537e-05,
+      "loss": 1.577,
+      "step": 52
+    },
+    {
+      "epoch": 0.06874189364461739,
+      "grad_norm": 6.911210060119629,
+      "learning_rate": 2.2693489161088592e-05,
+      "loss": 0.398,
+      "step": 53
+    },
+    {
+      "epoch": 0.07003891050583658,
+      "grad_norm": 12.149227142333984,
+      "learning_rate": 2.210802993709498e-05,
+      "loss": 0.9617,
+      "step": 54
+    },
+    {
+      "epoch": 0.07133592736705577,
+      "grad_norm": 8.559869766235352,
+      "learning_rate": 2.1508256086763372e-05,
+      "loss": 0.432,
+      "step": 55
+    },
+    {
+      "epoch": 0.07263294422827497,
+      "grad_norm": 5.802802562713623,
+      "learning_rate": 2.0895375474808857e-05,
+      "loss": 0.3059,
+      "step": 56
+    },
+    {
+      "epoch": 0.07392996108949416,
+      "grad_norm": 5.68005895614624,
+      "learning_rate": 2.0270622361220143e-05,
+      "loss": 0.2853,
+      "step": 57
+    },
+    {
+      "epoch": 0.07522697795071336,
+      "grad_norm": 2.1309173107147217,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 0.1154,
+      "step": 58
+    },
+    {
+      "epoch": 0.07652399481193256,
+      "grad_norm": 12.48730182647705,
+      "learning_rate": 1.8990552683500128e-05,
+      "loss": 0.3949,
+      "step": 59
+    },
+    {
+      "epoch": 0.07782101167315175,
+      "grad_norm": 13.918665885925293,
+      "learning_rate": 1.8337814009344716e-05,
+      "loss": 0.5255,
+      "step": 60
+    },
+    {
+      "epoch": 0.07911802853437094,
+      "grad_norm": 10.23596477508545,
+      "learning_rate": 1.767835342197955e-05,
+      "loss": 0.4977,
+      "step": 61
+    },
+    {
+      "epoch": 0.08041504539559015,
+      "grad_norm": 6.709722518920898,
+      "learning_rate": 1.7013498987264832e-05,
+      "loss": 0.1514,
+      "step": 62
+    },
+    {
+      "epoch": 0.08171206225680934,
+      "grad_norm": 5.081240177154541,
+      "learning_rate": 1.6344589633551502e-05,
+      "loss": 0.165,
+      "step": 63
+    },
+    {
+      "epoch": 0.08300907911802853,
+      "grad_norm": 26.20868492126465,
+      "learning_rate": 1.5672972455257726e-05,
+      "loss": 1.1272,
+      "step": 64
+    },
+    {
+      "epoch": 0.08430609597924774,
+      "grad_norm": 22.001665115356445,
+      "learning_rate": 1.5e-05,
+      "loss": 0.71,
+      "step": 65
+    },
+    {
+      "epoch": 0.08560311284046693,
+      "grad_norm": 8.501405715942383,
+      "learning_rate": 1.4327027544742281e-05,
+      "loss": 0.2905,
+      "step": 66
+    },
+    {
+      "epoch": 0.08690012970168612,
+      "grad_norm": 7.549007892608643,
+      "learning_rate": 1.36554103664485e-05,
+      "loss": 0.2497,
+      "step": 67
+    },
+    {
+      "epoch": 0.08819714656290532,
+      "grad_norm": 16.637163162231445,
+      "learning_rate": 1.2986501012735174e-05,
+      "loss": 0.3425,
+      "step": 68
+    },
+    {
+      "epoch": 0.08949416342412451,
+      "grad_norm": 45.87193298339844,
+      "learning_rate": 1.2321646578020452e-05,
+      "loss": 0.4744,
+      "step": 69
+    },
+    {
+      "epoch": 0.0907911802853437,
+      "grad_norm": 11.191590309143066,
+      "learning_rate": 1.1662185990655285e-05,
+      "loss": 0.3808,
+      "step": 70
+    },
+    {
+      "epoch": 0.09208819714656291,
+      "grad_norm": 11.546527862548828,
+      "learning_rate": 1.1009447316499875e-05,
+      "loss": 0.5787,
+      "step": 71
+    },
+    {
+      "epoch": 0.0933852140077821,
+      "grad_norm": 4.363774299621582,
+      "learning_rate": 1.036474508437579e-05,
+      "loss": 0.0979,
+      "step": 72
+    },
+    {
+      "epoch": 0.0946822308690013,
+      "grad_norm": 27.667964935302734,
+      "learning_rate": 9.729377638779859e-06,
+      "loss": 0.1371,
+      "step": 73
+    },
+    {
+      "epoch": 0.0959792477302205,
+      "grad_norm": 6.752371788024902,
+      "learning_rate": 9.104624525191147e-06,
+      "loss": 0.1615,
+      "step": 74
+    },
+    {
+      "epoch": 0.09727626459143969,
+      "grad_norm": 5.200261116027832,
+      "learning_rate": 8.491743913236629e-06,
+      "loss": 0.1498,
+      "step": 75
+    },
+    {
+      "epoch": 0.09857328145265888,
+      "grad_norm": 11.683087348937988,
+      "learning_rate": 7.89197006290502e-06,
+      "loss": 0.1882,
+      "step": 76
+    },
+    {
+      "epoch": 0.09987029831387809,
+      "grad_norm": 10.970105171203613,
+      "learning_rate": 7.30651083891141e-06,
+      "loss": 0.3211,
+      "step": 77
+    },
+    {
+      "epoch": 0.10116731517509728,
+      "grad_norm": 9.882152557373047,
+      "learning_rate": 6.736545278218464e-06,
+      "loss": 0.2548,
+      "step": 78
+    },
+    {
+      "epoch": 0.10246433203631647,
+      "grad_norm": 7.567006587982178,
+      "learning_rate": 6.1832212156129045e-06,
+      "loss": 0.2546,
+      "step": 79
+    },
+    {
+      "epoch": 0.10376134889753567,
+      "grad_norm": 8.493035316467285,
+      "learning_rate": 5.647652972118998e-06,
+      "loss": 0.2932,
+      "step": 80
+    },
+    {
+      "epoch": 0.10505836575875487,
+      "grad_norm": 5.506453990936279,
+      "learning_rate": 5.130919110904311e-06,
+      "loss": 0.1486,
+      "step": 81
+    },
+    {
+      "epoch": 0.10635538261997406,
+      "grad_norm": 0.8174970149993896,
+      "learning_rate": 4.6340602651970304e-06,
+      "loss": 0.017,
+      "step": 82
+    },
+    {
+      "epoch": 0.10765239948119326,
+      "grad_norm": 3.514220714569092,
+      "learning_rate": 4.158077042589129e-06,
+      "loss": 0.0581,
+      "step": 83
+    },
+    {
+      "epoch": 0.10894941634241245,
+      "grad_norm": 0.8819956183433533,
+      "learning_rate": 3.7039280099458373e-06,
+      "loss": 0.0219,
+      "step": 84
+    },
+    {
+      "epoch": 0.11024643320363164,
+      "grad_norm": 17.65021514892578,
+      "learning_rate": 3.272527762979553e-06,
+      "loss": 1.1424,
+      "step": 85
+    },
+    {
+      "epoch": 0.11154345006485085,
+      "grad_norm": 2.7677478790283203,
+      "learning_rate": 2.86474508437579e-06,
+      "loss": 0.0682,
+      "step": 86
+    },
+    {
+      "epoch": 0.11284046692607004,
+      "grad_norm": 9.2994966506958,
+      "learning_rate": 2.4814011941804603e-06,
+      "loss": 0.3074,
+      "step": 87
+    },
+    {
+      "epoch": 0.11413748378728923,
+      "grad_norm": 5.88765811920166,
+      "learning_rate": 2.1232680959720085e-06,
+      "loss": 0.2075,
+      "step": 88
+    },
+    {
+      "epoch": 0.11543450064850844,
+      "grad_norm": 8.574594497680664,
+      "learning_rate": 1.79106702214893e-06,
+      "loss": 0.247,
+      "step": 89
+    },
+    {
+      "epoch": 0.11673151750972763,
+      "grad_norm": 3.277462959289551,
+      "learning_rate": 1.4854669814637145e-06,
+      "loss": 0.0624,
+      "step": 90
+    },
+    {
+      "epoch": 0.11802853437094682,
+      "grad_norm": 12.124244689941406,
+      "learning_rate": 1.2070834117282414e-06,
+      "loss": 0.3679,
+      "step": 91
+    },
+    {
+      "epoch": 0.11932555123216602,
+      "grad_norm": 2.1732170581817627,
+      "learning_rate": 9.56476940403942e-07,
+      "loss": 0.0485,
+      "step": 92
+    },
+    {
+      "epoch": 0.12062256809338522,
+      "grad_norm": 4.28770112991333,
+      "learning_rate": 7.341522555726971e-07,
+      "loss": 0.1238,
+      "step": 93
+    },
+    {
+      "epoch": 0.1219195849546044,
+      "grad_norm": 2.6389272212982178,
+      "learning_rate": 5.405570895622014e-07,
+      "loss": 0.0633,
+      "step": 94
+    },
+    {
+      "epoch": 0.12321660181582361,
+      "grad_norm": 7.191143989562988,
+      "learning_rate": 3.760813172726457e-07,
+      "loss": 0.1797,
+      "step": 95
+    },
+    {
+      "epoch": 0.1245136186770428,
+      "grad_norm": 10.877296447753906,
+      "learning_rate": 2.41056171020555e-07,
+      "loss": 0.2109,
+      "step": 96
+    },
+    {
+      "epoch": 0.125810635538262,
+      "grad_norm": 21.885887145996094,
+      "learning_rate": 1.357535734809795e-07,
+      "loss": 0.8667,
+      "step": 97
+    },
+    {
+      "epoch": 0.12710765239948119,
+      "grad_norm": 1.5145925283432007,
+      "learning_rate": 6.038559007141397e-08,
+      "loss": 0.0464,
+      "step": 98
+    },
+    {
+      "epoch": 0.12840466926070038,
+      "grad_norm": 22.95406723022461,
+      "learning_rate": 1.510400188028116e-08,
+      "loss": 0.2276,
+      "step": 99
+    },
+    {
+      "epoch": 0.1297016861219196,
+      "grad_norm": 10.279451370239258,
+      "learning_rate": 0.0,
+      "loss": 0.1799,
+      "step": 100
+    },
+    {
+      "epoch": 0.1297016861219196,
+      "eval_loss": 0.10878434032201767,
+      "eval_runtime": 44.3192,
+      "eval_samples_per_second": 7.333,
+      "eval_steps_per_second": 1.85,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.32627164790784e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null