Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e468d8aa67c1a19745a799b33c97177cc9881ce3a83450dcb2b2d314d79857ec
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:79f85dd89fe746fd3136f9ec7dd203898bd3d5dbc7c5abaa9b8e9914c4c2a1e0
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f3d0caa6afeee3ed9ef519fc23d0df1a10c6ebb1ac69637694aba03193404aa
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:af415d799da6162c3339280f7531c5b89046f29a3c1687df7a5daf916b70d864
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96f0e1167390ac04d8808dab85b40ef6b9e0f7203be4b62f9793f342ad75ed88
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b92a62717888c6364d0db43acd1a6ace133ef37c148b21829236e34fbbd4b55
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.5100247859954834,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.1504890895410083,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 10.193,
       "eval_steps_per_second": 2.548,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.226539945387622e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.4205310344696045,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.3009781790820166,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.193,
       "eval_steps_per_second": 2.548,
       "step": 50
+    },
+    {
+      "epoch": 0.15349887133182843,
+      "grad_norm": 6.058256149291992,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 8.2189,
+      "step": 51
+    },
+    {
+      "epoch": 0.1565086531226486,
+      "grad_norm": 6.569075107574463,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 9.1637,
+      "step": 52
+    },
+    {
+      "epoch": 0.1595184349134688,
+      "grad_norm": 5.583766937255859,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 8.7535,
+      "step": 53
+    },
+    {
+      "epoch": 0.16252821670428894,
+      "grad_norm": 5.88881778717041,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 9.8206,
+      "step": 54
+    },
+    {
+      "epoch": 0.1655379984951091,
+      "grad_norm": 5.4886651039123535,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 8.7837,
+      "step": 55
+    },
+    {
+      "epoch": 0.16854778028592926,
+      "grad_norm": 5.4740705490112305,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 9.2256,
+      "step": 56
+    },
+    {
+      "epoch": 0.17155756207674944,
+      "grad_norm": 5.433065891265869,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 9.2593,
+      "step": 57
+    },
+    {
+      "epoch": 0.1745673438675696,
+      "grad_norm": 5.914703845977783,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 9.1884,
+      "step": 58
+    },
+    {
+      "epoch": 0.17757712565838976,
+      "grad_norm": 6.139044284820557,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 9.8026,
+      "step": 59
+    },
+    {
+      "epoch": 0.18058690744920994,
+      "grad_norm": 6.379807472229004,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 9.324,
+      "step": 60
+    },
+    {
+      "epoch": 0.1835966892400301,
+      "grad_norm": 7.047702312469482,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 9.2618,
+      "step": 61
+    },
+    {
+      "epoch": 0.18660647103085026,
+      "grad_norm": 6.448022365570068,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 9.5976,
+      "step": 62
+    },
+    {
+      "epoch": 0.18961625282167044,
+      "grad_norm": 8.178146362304688,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 10.021,
+      "step": 63
+    },
+    {
+      "epoch": 0.1926260346124906,
+      "grad_norm": 6.976129055023193,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 9.7405,
+      "step": 64
+    },
+    {
+      "epoch": 0.19563581640331076,
+      "grad_norm": 7.0136308670043945,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 9.4789,
+      "step": 65
+    },
+    {
+      "epoch": 0.1986455981941309,
+      "grad_norm": 7.680490970611572,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 9.5718,
+      "step": 66
+    },
+    {
+      "epoch": 0.2016553799849511,
+      "grad_norm": 8.17990493774414,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 9.8405,
+      "step": 67
+    },
+    {
+      "epoch": 0.20466516177577126,
+      "grad_norm": 8.38397216796875,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 10.1608,
+      "step": 68
+    },
+    {
+      "epoch": 0.2076749435665914,
+      "grad_norm": 8.197789192199707,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 8.672,
+      "step": 69
+    },
+    {
+      "epoch": 0.2106847253574116,
+      "grad_norm": 6.918241024017334,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 9.5279,
+      "step": 70
+    },
+    {
+      "epoch": 0.21369450714823177,
+      "grad_norm": 6.7393035888671875,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 9.1222,
+      "step": 71
+    },
+    {
+      "epoch": 0.21670428893905191,
+      "grad_norm": 8.266468048095703,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 9.943,
+      "step": 72
+    },
+    {
+      "epoch": 0.2197140707298721,
+      "grad_norm": 7.681157112121582,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 9.2706,
+      "step": 73
+    },
+    {
+      "epoch": 0.22272385252069224,
+      "grad_norm": 9.782959938049316,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 10.0855,
+      "step": 74
+    },
+    {
+      "epoch": 0.22573363431151242,
+      "grad_norm": 8.54826545715332,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 9.7183,
+      "step": 75
+    },
+    {
+      "epoch": 0.2287434161023326,
+      "grad_norm": 7.834469318389893,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 9.5791,
+      "step": 76
+    },
+    {
+      "epoch": 0.23175319789315274,
+      "grad_norm": 8.019440650939941,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 9.8348,
+      "step": 77
+    },
+    {
+      "epoch": 0.23476297968397292,
+      "grad_norm": 9.625268936157227,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 10.2138,
+      "step": 78
+    },
+    {
+      "epoch": 0.23777276147479307,
+      "grad_norm": 8.725410461425781,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 9.9408,
+      "step": 79
+    },
+    {
+      "epoch": 0.24078254326561324,
+      "grad_norm": 8.686917304992676,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 9.4381,
+      "step": 80
+    },
+    {
+      "epoch": 0.24379232505643342,
+      "grad_norm": 9.45250415802002,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 9.5831,
+      "step": 81
+    },
+    {
+      "epoch": 0.24680210684725357,
+      "grad_norm": 8.683648109436035,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 9.2012,
+      "step": 82
+    },
+    {
+      "epoch": 0.24981188863807374,
+      "grad_norm": 10.793254852294922,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 10.2356,
+      "step": 83
+    },
+    {
+      "epoch": 0.2528216704288939,
+      "grad_norm": 9.123403549194336,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 9.7882,
+      "step": 84
+    },
+    {
+      "epoch": 0.2558314522197141,
+      "grad_norm": 10.348355293273926,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 9.885,
+      "step": 85
+    },
+    {
+      "epoch": 0.2588412340105342,
+      "grad_norm": 10.56598949432373,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.1376,
+      "step": 86
+    },
+    {
+      "epoch": 0.2618510158013544,
+      "grad_norm": 9.426460266113281,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 9.368,
+      "step": 87
+    },
+    {
+      "epoch": 0.26486079759217457,
+      "grad_norm": 10.77817153930664,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 9.7117,
+      "step": 88
+    },
+    {
+      "epoch": 0.26787057938299474,
+      "grad_norm": 11.538412094116211,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 10.1616,
+      "step": 89
+    },
+    {
+      "epoch": 0.2708803611738149,
+      "grad_norm": 10.98781681060791,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 9.7931,
+      "step": 90
+    },
+    {
+      "epoch": 0.27389014296463504,
+      "grad_norm": 10.231600761413574,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 9.1857,
+      "step": 91
+    },
+    {
+      "epoch": 0.2768999247554552,
+      "grad_norm": 11.264632225036621,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 9.0738,
+      "step": 92
+    },
+    {
+      "epoch": 0.2799097065462754,
+      "grad_norm": 12.202892303466797,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 9.6755,
+      "step": 93
+    },
+    {
+      "epoch": 0.28291948833709557,
+      "grad_norm": 13.844965934753418,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 11.1556,
+      "step": 94
+    },
+    {
+      "epoch": 0.28592927012791575,
+      "grad_norm": 12.187628746032715,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 9.2201,
+      "step": 95
+    },
+    {
+      "epoch": 0.28893905191873587,
+      "grad_norm": 13.739523887634277,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 10.5167,
+      "step": 96
+    },
+    {
+      "epoch": 0.29194883370955604,
+      "grad_norm": 12.928597450256348,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 9.7247,
+      "step": 97
+    },
+    {
+      "epoch": 0.2949586155003762,
+      "grad_norm": 16.119169235229492,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 10.4071,
+      "step": 98
+    },
+    {
+      "epoch": 0.2979683972911964,
+      "grad_norm": 15.795464515686035,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 10.2401,
+      "step": 99
+    },
+    {
+      "epoch": 0.3009781790820166,
+      "grad_norm": 22.210914611816406,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 11.3174,
+      "step": 100
+    },
+    {
+      "epoch": 0.3009781790820166,
+      "eval_loss": 2.4205310344696045,
+      "eval_runtime": 54.9516,
+      "eval_samples_per_second": 10.191,
+      "eval_steps_per_second": 2.548,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4453079890775245e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null