Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df7cf14ab8c3d9c57da6a7be43192707e91597f007474d8d60fbbca26d1fa09b
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e184f4951e4d504182ee9dbad8a47a8979c98a79a58accef24d77b28fa0aba7
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8b96b0705684b4019970efa5402e022ffc2e65fe055420a136e8129ee02f479
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f69b479df1c5ef336708f34a1737d1cbb105c8b530fa8f19985e8e3efbfdad8
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:619f48e619614e840891abed165fd2588f57c839e0144005e907c5bb0be8c648
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6be03569ffca8e1a904138d9129ec937cdfa3781af4d7f216a486046f92479f3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6626a958c42744f62f15b40b71145564a751f3973a73662e664e23d40b38c82
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.26625388860702515,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.013042911177774879,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 4.512,
       "eval_steps_per_second": 1.129,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2734116298358784e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.12110025435686111,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.026085822355549758,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.512,
       "eval_steps_per_second": 1.129,
       "step": 50
+    },
+    {
+      "epoch": 0.013303769401330377,
+      "grad_norm": 21.080076217651367,
+      "learning_rate": 7.873473684210526e-05,
+      "loss": 0.898,
+      "step": 51
+    },
+    {
+      "epoch": 0.013564627624885875,
+      "grad_norm": 7.187935829162598,
+      "learning_rate": 7.820631578947369e-05,
+      "loss": 0.6007,
+      "step": 52
+    },
+    {
+      "epoch": 0.013825485848441373,
+      "grad_norm": 2.1182901859283447,
+      "learning_rate": 7.76778947368421e-05,
+      "loss": 0.4358,
+      "step": 53
+    },
+    {
+      "epoch": 0.01408634407199687,
+      "grad_norm": 1.093733310699463,
+      "learning_rate": 7.714947368421052e-05,
+      "loss": 0.347,
+      "step": 54
+    },
+    {
+      "epoch": 0.014347202295552367,
+      "grad_norm": 0.9055514931678772,
+      "learning_rate": 7.662105263157896e-05,
+      "loss": 0.3856,
+      "step": 55
+    },
+    {
+      "epoch": 0.014608060519107865,
+      "grad_norm": 0.8669521808624268,
+      "learning_rate": 7.609263157894737e-05,
+      "loss": 0.3701,
+      "step": 56
+    },
+    {
+      "epoch": 0.014868918742663363,
+      "grad_norm": 0.9830688238143921,
+      "learning_rate": 7.556421052631579e-05,
+      "loss": 0.4053,
+      "step": 57
+    },
+    {
+      "epoch": 0.01512977696621886,
+      "grad_norm": 0.7812885046005249,
+      "learning_rate": 7.503578947368421e-05,
+      "loss": 0.354,
+      "step": 58
+    },
+    {
+      "epoch": 0.015390635189774357,
+      "grad_norm": 0.7740699648857117,
+      "learning_rate": 7.450736842105263e-05,
+      "loss": 0.3165,
+      "step": 59
+    },
+    {
+      "epoch": 0.015651493413329855,
+      "grad_norm": 0.7680047750473022,
+      "learning_rate": 7.397894736842105e-05,
+      "loss": 0.3313,
+      "step": 60
+    },
+    {
+      "epoch": 0.01591235163688535,
+      "grad_norm": 0.8641350269317627,
+      "learning_rate": 7.345052631578948e-05,
+      "loss": 0.3395,
+      "step": 61
+    },
+    {
+      "epoch": 0.01617320986044085,
+      "grad_norm": 1.396049976348877,
+      "learning_rate": 7.29221052631579e-05,
+      "loss": 0.3642,
+      "step": 62
+    },
+    {
+      "epoch": 0.016434068083996348,
+      "grad_norm": 0.8436359763145447,
+      "learning_rate": 7.239368421052631e-05,
+      "loss": 0.3378,
+      "step": 63
+    },
+    {
+      "epoch": 0.016694926307551844,
+      "grad_norm": 0.8464940786361694,
+      "learning_rate": 7.186526315789474e-05,
+      "loss": 0.3668,
+      "step": 64
+    },
+    {
+      "epoch": 0.016955784531107344,
+      "grad_norm": 0.725881040096283,
+      "learning_rate": 7.133684210526316e-05,
+      "loss": 0.3661,
+      "step": 65
+    },
+    {
+      "epoch": 0.01721664275466284,
+      "grad_norm": 0.6846409440040588,
+      "learning_rate": 7.080842105263158e-05,
+      "loss": 0.3638,
+      "step": 66
+    },
+    {
+      "epoch": 0.01747750097821834,
+      "grad_norm": 0.7216416001319885,
+      "learning_rate": 7.028e-05,
+      "loss": 0.3635,
+      "step": 67
+    },
+    {
+      "epoch": 0.017738359201773836,
+      "grad_norm": 0.6579917073249817,
+      "learning_rate": 6.975157894736843e-05,
+      "loss": 0.356,
+      "step": 68
+    },
+    {
+      "epoch": 0.017999217425329332,
+      "grad_norm": 0.8300607204437256,
+      "learning_rate": 6.922315789473685e-05,
+      "loss": 0.362,
+      "step": 69
+    },
+    {
+      "epoch": 0.018260075648884832,
+      "grad_norm": 0.8601360321044922,
+      "learning_rate": 6.869473684210527e-05,
+      "loss": 0.3178,
+      "step": 70
+    },
+    {
+      "epoch": 0.018520933872440328,
+      "grad_norm": 1.229761004447937,
+      "learning_rate": 6.816631578947368e-05,
+      "loss": 0.3038,
+      "step": 71
+    },
+    {
+      "epoch": 0.018781792095995828,
+      "grad_norm": 0.8368088603019714,
+      "learning_rate": 6.76378947368421e-05,
+      "loss": 0.3394,
+      "step": 72
+    },
+    {
+      "epoch": 0.019042650319551324,
+      "grad_norm": 0.76348876953125,
+      "learning_rate": 6.710947368421052e-05,
+      "loss": 0.3273,
+      "step": 73
+    },
+    {
+      "epoch": 0.01930350854310682,
+      "grad_norm": 0.8756521344184875,
+      "learning_rate": 6.658105263157894e-05,
+      "loss": 0.3483,
+      "step": 74
+    },
+    {
+      "epoch": 0.01956436676666232,
+      "grad_norm": 1.1323158740997314,
+      "learning_rate": 6.605263157894737e-05,
+      "loss": 0.1971,
+      "step": 75
+    },
+    {
+      "epoch": 0.019825224990217816,
+      "grad_norm": 0.7796782851219177,
+      "learning_rate": 6.55242105263158e-05,
+      "loss": 0.0966,
+      "step": 76
+    },
+    {
+      "epoch": 0.020086083213773313,
+      "grad_norm": 0.6780573725700378,
+      "learning_rate": 6.499578947368422e-05,
+      "loss": 0.0203,
+      "step": 77
+    },
+    {
+      "epoch": 0.020346941437328812,
+      "grad_norm": 23.24646759033203,
+      "learning_rate": 6.446736842105264e-05,
+      "loss": 0.2551,
+      "step": 78
+    },
+    {
+      "epoch": 0.02060779966088431,
+      "grad_norm": 8.683259010314941,
+      "learning_rate": 6.393894736842105e-05,
+      "loss": 0.0885,
+      "step": 79
+    },
+    {
+      "epoch": 0.02086865788443981,
+      "grad_norm": 0.6611659526824951,
+      "learning_rate": 6.341052631578947e-05,
+      "loss": 0.0034,
+      "step": 80
+    },
+    {
+      "epoch": 0.021129516107995305,
+      "grad_norm": 0.1200755164027214,
+      "learning_rate": 6.288210526315789e-05,
+      "loss": 0.0004,
+      "step": 81
+    },
+    {
+      "epoch": 0.0213903743315508,
+      "grad_norm": 1.164768934249878,
+      "learning_rate": 6.235368421052632e-05,
+      "loss": 0.0091,
+      "step": 82
+    },
+    {
+      "epoch": 0.0216512325551063,
+      "grad_norm": 0.17707791924476624,
+      "learning_rate": 6.182526315789474e-05,
+      "loss": 0.0013,
+      "step": 83
+    },
+    {
+      "epoch": 0.021912090778661797,
+      "grad_norm": 0.21379932761192322,
+      "learning_rate": 6.129684210526316e-05,
+      "loss": 0.0013,
+      "step": 84
+    },
+    {
+      "epoch": 0.022172949002217297,
+      "grad_norm": 1.1995000839233398,
+      "learning_rate": 6.076842105263158e-05,
+      "loss": 0.0081,
+      "step": 85
+    },
+    {
+      "epoch": 0.022433807225772793,
+      "grad_norm": 0.3035678565502167,
+      "learning_rate": 6.024e-05,
+      "loss": 0.0008,
+      "step": 86
+    },
+    {
+      "epoch": 0.02269466544932829,
+      "grad_norm": 0.014499887824058533,
+      "learning_rate": 5.971157894736842e-05,
+      "loss": 0.0002,
+      "step": 87
+    },
+    {
+      "epoch": 0.02295552367288379,
+      "grad_norm": 1.4160069227218628,
+      "learning_rate": 5.9183157894736835e-05,
+      "loss": 0.0115,
+      "step": 88
+    },
+    {
+      "epoch": 0.023216381896439285,
+      "grad_norm": 1.5838091373443604,
+      "learning_rate": 5.8654736842105267e-05,
+      "loss": 0.0009,
+      "step": 89
+    },
+    {
+      "epoch": 0.02347724011999478,
+      "grad_norm": 2.2831833362579346,
+      "learning_rate": 5.8126315789473684e-05,
+      "loss": 0.0095,
+      "step": 90
+    },
+    {
+      "epoch": 0.02373809834355028,
+      "grad_norm": 1.3635400533676147,
+      "learning_rate": 5.759789473684211e-05,
+      "loss": 0.0018,
+      "step": 91
+    },
+    {
+      "epoch": 0.023998956567105777,
+      "grad_norm": 0.0419996902346611,
+      "learning_rate": 5.706947368421053e-05,
+      "loss": 0.0002,
+      "step": 92
+    },
+    {
+      "epoch": 0.024259814790661277,
+      "grad_norm": 0.029113048687577248,
+      "learning_rate": 5.6541052631578945e-05,
+      "loss": 0.0003,
+      "step": 93
+    },
+    {
+      "epoch": 0.024520673014216773,
+      "grad_norm": 1.1532421112060547,
+      "learning_rate": 5.601263157894736e-05,
+      "loss": 0.0072,
+      "step": 94
+    },
+    {
+      "epoch": 0.02478153123777227,
+      "grad_norm": 0.03277314826846123,
+      "learning_rate": 5.5484210526315794e-05,
+      "loss": 0.0004,
+      "step": 95
+    },
+    {
+      "epoch": 0.02504238946132777,
+      "grad_norm": 0.19502609968185425,
+      "learning_rate": 5.495578947368421e-05,
+      "loss": 0.0008,
+      "step": 96
+    },
+    {
+      "epoch": 0.025303247684883266,
+      "grad_norm": 1.1677289009094238,
+      "learning_rate": 5.442736842105264e-05,
+      "loss": 0.0045,
+      "step": 97
+    },
+    {
+      "epoch": 0.025564105908438762,
+      "grad_norm": 0.24581104516983032,
+      "learning_rate": 5.3898947368421055e-05,
+      "loss": 0.0016,
+      "step": 98
+    },
+    {
+      "epoch": 0.02582496413199426,
+      "grad_norm": 2.174943685531616,
+      "learning_rate": 5.337052631578947e-05,
+      "loss": 0.0116,
+      "step": 99
+    },
+    {
+      "epoch": 0.026085822355549758,
+      "grad_norm": 0.24700959026813507,
+      "learning_rate": 5.284210526315789e-05,
+      "loss": 0.0014,
+      "step": 100
+    },
+    {
+      "epoch": 0.026085822355549758,
+      "eval_loss": 0.12110025435686111,
+      "eval_runtime": 358.6905,
+      "eval_samples_per_second": 4.5,
+      "eval_steps_per_second": 1.126,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.564710754916762e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null