Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2794f115ecf7647a6de9adb317856a63e77984749639ba97d9cbdf91bc87aca7
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:975fbc6dd8160c36ac9eaa551fbbbb305d330fbe9ef19381f4688fdbf082facb
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21eaece1b7a8f0a0542a82464eea7d5251f50c5b2e80831d82b267bd806b0b66
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dce4aeb4d2d8fe26fc5fc408bf45773288abad54fbbe46f82565271a69b993b
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a051c9e2f2c55a5c851b2f1a78d680e9c7c3cc8e39cb52088d27e52c1c3fcec
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a7b2652c9f4098c00d7790134303c7a9255f5bb57ea0c1de0a9416873ef76e4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6039547920227051,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.09854644000985464,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 10.683,
       "eval_steps_per_second": 5.345,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7046203439828173e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5897608995437622,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.14781966001478197,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.683,
       "eval_steps_per_second": 5.345,
       "step": 100
+    },
+    {
+      "epoch": 0.09953190440995319,
+      "grad_norm": 0.06492675840854645,
+      "learning_rate": 6.279213887972179e-05,
+      "loss": 0.0378,
+      "step": 101
+    },
+    {
+      "epoch": 0.10051736881005174,
+      "grad_norm": 0.10757127404212952,
+      "learning_rate": 6.189675975213094e-05,
+      "loss": 0.1717,
+      "step": 102
+    },
+    {
+      "epoch": 0.10150283321015029,
+      "grad_norm": 0.139942467212677,
+      "learning_rate": 6.099731789198344e-05,
+      "loss": 0.2134,
+      "step": 103
+    },
+    {
+      "epoch": 0.10248829761024883,
+      "grad_norm": 0.17105042934417725,
+      "learning_rate": 6.009412045785051e-05,
+      "loss": 0.242,
+      "step": 104
+    },
+    {
+      "epoch": 0.10347376201034737,
+      "grad_norm": 0.1677185744047165,
+      "learning_rate": 5.918747589082853e-05,
+      "loss": 0.2773,
+      "step": 105
+    },
+    {
+      "epoch": 0.10445922641044593,
+      "grad_norm": 0.19385424256324768,
+      "learning_rate": 5.82776938092065e-05,
+      "loss": 0.4616,
+      "step": 106
+    },
+    {
+      "epoch": 0.10544469081054447,
+      "grad_norm": 0.19936293363571167,
+      "learning_rate": 5.736508490273188e-05,
+      "loss": 0.5253,
+      "step": 107
+    },
+    {
+      "epoch": 0.10643015521064302,
+      "grad_norm": 0.225832998752594,
+      "learning_rate": 5.644996082651017e-05,
+      "loss": 0.6073,
+      "step": 108
+    },
+    {
+      "epoch": 0.10741561961074156,
+      "grad_norm": 0.20826251804828644,
+      "learning_rate": 5.553263409457504e-05,
+      "loss": 0.5133,
+      "step": 109
+    },
+    {
+      "epoch": 0.10840108401084012,
+      "grad_norm": 0.19744732975959778,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 0.5992,
+      "step": 110
+    },
+    {
+      "epoch": 0.10938654841093866,
+      "grad_norm": 0.20350094139575958,
+      "learning_rate": 5.3692626373743706e-05,
+      "loss": 0.5886,
+      "step": 111
+    },
+    {
+      "epoch": 0.1103720128110372,
+      "grad_norm": 0.2253555953502655,
+      "learning_rate": 5.27705737457985e-05,
+      "loss": 0.7352,
+      "step": 112
+    },
+    {
+      "epoch": 0.11135747721113574,
+      "grad_norm": 0.1978590339422226,
+      "learning_rate": 5.184757496945726e-05,
+      "loss": 0.6002,
+      "step": 113
+    },
+    {
+      "epoch": 0.1123429416112343,
+      "grad_norm": 0.23348231613636017,
+      "learning_rate": 5.092394524795649e-05,
+      "loss": 0.5746,
+      "step": 114
+    },
+    {
+      "epoch": 0.11332840601133284,
+      "grad_norm": 0.223561093211174,
+      "learning_rate": 5e-05,
+      "loss": 0.7063,
+      "step": 115
+    },
+    {
+      "epoch": 0.11431387041143139,
+      "grad_norm": 0.22021301090717316,
+      "learning_rate": 4.907605475204352e-05,
+      "loss": 0.5453,
+      "step": 116
+    },
+    {
+      "epoch": 0.11529933481152993,
+      "grad_norm": 0.22918701171875,
+      "learning_rate": 4.8152425030542766e-05,
+      "loss": 0.6408,
+      "step": 117
+    },
+    {
+      "epoch": 0.11628479921162849,
+      "grad_norm": 0.221017986536026,
+      "learning_rate": 4.72294262542015e-05,
+      "loss": 0.6825,
+      "step": 118
+    },
+    {
+      "epoch": 0.11727026361172703,
+      "grad_norm": 0.24463246762752533,
+      "learning_rate": 4.6307373626256306e-05,
+      "loss": 0.674,
+      "step": 119
+    },
+    {
+      "epoch": 0.11825572801182557,
+      "grad_norm": 0.22127676010131836,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 0.5877,
+      "step": 120
+    },
+    {
+      "epoch": 0.11924119241192412,
+      "grad_norm": 0.25243082642555237,
+      "learning_rate": 4.446736590542497e-05,
+      "loss": 0.7659,
+      "step": 121
+    },
+    {
+      "epoch": 0.12022665681202267,
+      "grad_norm": 0.25524279475212097,
+      "learning_rate": 4.3550039173489845e-05,
+      "loss": 0.7332,
+      "step": 122
+    },
+    {
+      "epoch": 0.12121212121212122,
+      "grad_norm": 0.2742602527141571,
+      "learning_rate": 4.2634915097268115e-05,
+      "loss": 0.8811,
+      "step": 123
+    },
+    {
+      "epoch": 0.12219758561221976,
+      "grad_norm": 0.2482510656118393,
+      "learning_rate": 4.1722306190793495e-05,
+      "loss": 0.7613,
+      "step": 124
+    },
+    {
+      "epoch": 0.1231830500123183,
+      "grad_norm": 0.2792511284351349,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 0.7514,
+      "step": 125
+    },
+    {
+      "epoch": 0.12416851441241686,
+      "grad_norm": 0.28039655089378357,
+      "learning_rate": 3.99058795421495e-05,
+      "loss": 0.6821,
+      "step": 126
+    },
+    {
+      "epoch": 0.1251539788125154,
+      "grad_norm": 0.3473927080631256,
+      "learning_rate": 3.9002682108016585e-05,
+      "loss": 0.6593,
+      "step": 127
+    },
+    {
+      "epoch": 0.12613944321261394,
+      "grad_norm": 0.2565251290798187,
+      "learning_rate": 3.8103240247869075e-05,
+      "loss": 0.5399,
+      "step": 128
+    },
+    {
+      "epoch": 0.1271249076127125,
+      "grad_norm": 0.28116095066070557,
+      "learning_rate": 3.720786112027822e-05,
+      "loss": 0.6255,
+      "step": 129
+    },
+    {
+      "epoch": 0.12811037201281103,
+      "grad_norm": 0.28025346994400024,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 0.7028,
+      "step": 130
+    },
+    {
+      "epoch": 0.1290958364129096,
+      "grad_norm": 0.2895910441875458,
+      "learning_rate": 3.543051265553377e-05,
+      "loss": 0.7361,
+      "step": 131
+    },
+    {
+      "epoch": 0.13008130081300814,
+      "grad_norm": 0.2944524884223938,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.7275,
+      "step": 132
+    },
+    {
+      "epoch": 0.13106676521310667,
+      "grad_norm": 0.334114134311676,
+      "learning_rate": 3.367306435799584e-05,
+      "loss": 0.8179,
+      "step": 133
+    },
+    {
+      "epoch": 0.13205222961320523,
+      "grad_norm": 0.3113299012184143,
+      "learning_rate": 3.2802554068303596e-05,
+      "loss": 0.7505,
+      "step": 134
+    },
+    {
+      "epoch": 0.13303769401330376,
+      "grad_norm": 0.3196057677268982,
+      "learning_rate": 3.1937916690642356e-05,
+      "loss": 0.7061,
+      "step": 135
+    },
+    {
+      "epoch": 0.13402315841340232,
+      "grad_norm": 0.3126354217529297,
+      "learning_rate": 3.107944749788449e-05,
+      "loss": 0.7001,
+      "step": 136
+    },
+    {
+      "epoch": 0.13500862281350087,
+      "grad_norm": 0.31723636388778687,
+      "learning_rate": 3.0227439656472877e-05,
+      "loss": 0.5961,
+      "step": 137
+    },
+    {
+      "epoch": 0.1359940872135994,
+      "grad_norm": 0.3157641291618347,
+      "learning_rate": 2.9382184126304834e-05,
+      "loss": 0.5105,
+      "step": 138
+    },
+    {
+      "epoch": 0.13697955161369796,
+      "grad_norm": 0.337483286857605,
+      "learning_rate": 2.8543969561369556e-05,
+      "loss": 0.6706,
+      "step": 139
+    },
+    {
+      "epoch": 0.13796501601379652,
+      "grad_norm": 0.35467472672462463,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 0.6632,
+      "step": 140
+    },
+    {
+      "epoch": 0.13895048041389504,
+      "grad_norm": 0.3754487633705139,
+      "learning_rate": 2.688980582298435e-05,
+      "loss": 0.6372,
+      "step": 141
+    },
+    {
+      "epoch": 0.1399359448139936,
+      "grad_norm": 0.3946709930896759,
+      "learning_rate": 2.607442154493568e-05,
+      "loss": 0.7413,
+      "step": 142
+    },
+    {
+      "epoch": 0.14092140921409213,
+      "grad_norm": 0.37810003757476807,
+      "learning_rate": 2.5267207830011068e-05,
+      "loss": 0.6634,
+      "step": 143
+    },
+    {
+      "epoch": 0.1419068736141907,
+      "grad_norm": 0.3932291567325592,
+      "learning_rate": 2.446844034095466e-05,
+      "loss": 0.6756,
+      "step": 144
+    },
+    {
+      "epoch": 0.14289233801428924,
+      "grad_norm": 0.42648932337760925,
+      "learning_rate": 2.3678391856132204e-05,
+      "loss": 0.7081,
+      "step": 145
+    },
+    {
+      "epoch": 0.14387780241438777,
+      "grad_norm": 0.46039843559265137,
+      "learning_rate": 2.2897332176377528e-05,
+      "loss": 0.8046,
+      "step": 146
+    },
+    {
+      "epoch": 0.14486326681448633,
+      "grad_norm": 0.4435557425022125,
+      "learning_rate": 2.2125528032855724e-05,
+      "loss": 0.6347,
+      "step": 147
+    },
+    {
+      "epoch": 0.1458487312145849,
+      "grad_norm": 0.509733259677887,
+      "learning_rate": 2.136324299597474e-05,
+      "loss": 0.8318,
+      "step": 148
+    },
+    {
+      "epoch": 0.14683419561468342,
+      "grad_norm": 0.5783795714378357,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.662,
+      "step": 149
+    },
+    {
+      "epoch": 0.14781966001478197,
+      "grad_norm": 0.8224442005157471,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 0.6612,
+      "step": 150
+    },
+    {
+      "epoch": 0.14781966001478197,
+      "eval_loss": 0.5897608995437622,
+      "eval_runtime": 160.4128,
+      "eval_samples_per_second": 10.654,
+      "eval_steps_per_second": 5.33,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.5531592320273613e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null