Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b56937a0a473d117915c261e047125f3a04f3186ff997624d3a7ff5fdc81f07
 size 1227202192

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ebed6e950476d9588aeab4d9ab28b08eabebe733045554a8db9a3390bb6c927
 size 1227202192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d40a6bf465a08bf65ba4f6c9b3903e00cabac254866f943a3cc817ba01dc6fb
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:816200b2525ae4e26309cec5f268454897e3354e94764421edb5c2726ee76ad8
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b05de24fd599a59efb3a637915fb28b41804389b5fbbe7f81fd6fbd86fe006a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a00b4c8d2e279b47fa2f5a60132ec4f0c5cefee1beebaad07d4cb622e27b90d3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2866495847702026,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.1350438892640108,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 40.144,
       "eval_steps_per_second": 10.036,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.435563454365696e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2199846506118774,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.2700877785280216,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 40.144,
       "eval_steps_per_second": 10.036,
       "step": 50
+    },
+    {
+      "epoch": 0.137744767049291,
+      "grad_norm": 0.6834385395050049,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 1.4087,
+      "step": 51
+    },
+    {
+      "epoch": 0.14044564483457123,
+      "grad_norm": 0.6383047699928284,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.4105,
+      "step": 52
+    },
+    {
+      "epoch": 0.14314652261985145,
+      "grad_norm": 0.4831598997116089,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.4986,
+      "step": 53
+    },
+    {
+      "epoch": 0.14584740040513167,
+      "grad_norm": 0.42735621333122253,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.3571,
+      "step": 54
+    },
+    {
+      "epoch": 0.1485482781904119,
+      "grad_norm": 0.3566948473453522,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.3558,
+      "step": 55
+    },
+    {
+      "epoch": 0.1512491559756921,
+      "grad_norm": 0.37861260771751404,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.2901,
+      "step": 56
+    },
+    {
+      "epoch": 0.15395003376097233,
+      "grad_norm": 0.3618011176586151,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.2906,
+      "step": 57
+    },
+    {
+      "epoch": 0.15665091154625252,
+      "grad_norm": 0.42364272475242615,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 1.2269,
+      "step": 58
+    },
+    {
+      "epoch": 0.15935178933153274,
+      "grad_norm": 0.39519202709198,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 1.3802,
+      "step": 59
+    },
+    {
+      "epoch": 0.16205266711681296,
+      "grad_norm": 0.39644855260849,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.2644,
+      "step": 60
+    },
+    {
+      "epoch": 0.16475354490209318,
+      "grad_norm": 0.4740903973579407,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.4338,
+      "step": 61
+    },
+    {
+      "epoch": 0.1674544226873734,
+      "grad_norm": 0.40571337938308716,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 1.0527,
+      "step": 62
+    },
+    {
+      "epoch": 0.17015530047265362,
+      "grad_norm": 0.37622109055519104,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 1.2377,
+      "step": 63
+    },
+    {
+      "epoch": 0.17285617825793384,
+      "grad_norm": 0.3867974579334259,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.1328,
+      "step": 64
+    },
+    {
+      "epoch": 0.17555705604321403,
+      "grad_norm": 0.3665173649787903,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.0941,
+      "step": 65
+    },
+    {
+      "epoch": 0.17825793382849425,
+      "grad_norm": 0.3812106251716614,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 1.1682,
+      "step": 66
+    },
+    {
+      "epoch": 0.18095881161377447,
+      "grad_norm": 0.396047979593277,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.0769,
+      "step": 67
+    },
+    {
+      "epoch": 0.1836596893990547,
+      "grad_norm": 0.4016658663749695,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.2621,
+      "step": 68
+    },
+    {
+      "epoch": 0.1863605671843349,
+      "grad_norm": 0.42150306701660156,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 1.0641,
+      "step": 69
+    },
+    {
+      "epoch": 0.18906144496961513,
+      "grad_norm": 0.4154197573661804,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.0688,
+      "step": 70
+    },
+    {
+      "epoch": 0.19176232275489535,
+      "grad_norm": 0.43228766322135925,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.0701,
+      "step": 71
+    },
+    {
+      "epoch": 0.19446320054017555,
+      "grad_norm": 0.5811237096786499,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.1266,
+      "step": 72
+    },
+    {
+      "epoch": 0.19716407832545577,
+      "grad_norm": 0.4404866397380829,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.0782,
+      "step": 73
+    },
+    {
+      "epoch": 0.199864956110736,
+      "grad_norm": 0.5220156908035278,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 1.1294,
+      "step": 74
+    },
+    {
+      "epoch": 0.2025658338960162,
+      "grad_norm": 0.5216073989868164,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.1765,
+      "step": 75
+    },
+    {
+      "epoch": 0.20526671168129643,
+      "grad_norm": 0.5543369054794312,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 1.0467,
+      "step": 76
+    },
+    {
+      "epoch": 0.20796758946657665,
+      "grad_norm": 0.4874238669872284,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.164,
+      "step": 77
+    },
+    {
+      "epoch": 0.21066846725185687,
+      "grad_norm": 0.5671214461326599,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.0665,
+      "step": 78
+    },
+    {
+      "epoch": 0.21336934503713706,
+      "grad_norm": 0.5563834309577942,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.1413,
+      "step": 79
+    },
+    {
+      "epoch": 0.21607022282241728,
+      "grad_norm": 0.5251386761665344,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.0943,
+      "step": 80
+    },
+    {
+      "epoch": 0.2187711006076975,
+      "grad_norm": 0.6318755745887756,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.0754,
+      "step": 81
+    },
+    {
+      "epoch": 0.22147197839297772,
+      "grad_norm": 0.6159390211105347,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.2784,
+      "step": 82
+    },
+    {
+      "epoch": 0.22417285617825794,
+      "grad_norm": 0.6226337552070618,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.2542,
+      "step": 83
+    },
+    {
+      "epoch": 0.22687373396353816,
+      "grad_norm": 0.6405479311943054,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.2991,
+      "step": 84
+    },
+    {
+      "epoch": 0.22957461174881835,
+      "grad_norm": 0.5985673069953918,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.2481,
+      "step": 85
+    },
+    {
+      "epoch": 0.23227548953409857,
+      "grad_norm": 0.6607664823532104,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.1372,
+      "step": 86
+    },
+    {
+      "epoch": 0.2349763673193788,
+      "grad_norm": 0.6545572280883789,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 1.2627,
+      "step": 87
+    },
+    {
+      "epoch": 0.237677245104659,
+      "grad_norm": 0.7357593774795532,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 1.1535,
+      "step": 88
+    },
+    {
+      "epoch": 0.24037812288993923,
+      "grad_norm": 0.7484399676322937,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.3262,
+      "step": 89
+    },
+    {
+      "epoch": 0.24307900067521945,
+      "grad_norm": 0.7360692024230957,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.2027,
+      "step": 90
+    },
+    {
+      "epoch": 0.24577987846049967,
+      "grad_norm": 0.7954505681991577,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.3984,
+      "step": 91
+    },
+    {
+      "epoch": 0.24848075624577987,
+      "grad_norm": 0.8479906320571899,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.3639,
+      "step": 92
+    },
+    {
+      "epoch": 0.2511816340310601,
+      "grad_norm": 0.9463720917701721,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.2841,
+      "step": 93
+    },
+    {
+      "epoch": 0.2538825118163403,
+      "grad_norm": 1.0730533599853516,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.3653,
+      "step": 94
+    },
+    {
+      "epoch": 0.2565833896016205,
+      "grad_norm": 0.95060795545578,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.3841,
+      "step": 95
+    },
+    {
+      "epoch": 0.25928426738690075,
+      "grad_norm": 1.2638509273529053,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.3912,
+      "step": 96
+    },
+    {
+      "epoch": 0.26198514517218097,
+      "grad_norm": 1.0868135690689087,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.4162,
+      "step": 97
+    },
+    {
+      "epoch": 0.2646860229574612,
+      "grad_norm": 1.3574937582015991,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.2467,
+      "step": 98
+    },
+    {
+      "epoch": 0.2673869007427414,
+      "grad_norm": 1.4365593194961548,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.1534,
+      "step": 99
+    },
+    {
+      "epoch": 0.2700877785280216,
+      "grad_norm": 2.1243996620178223,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 1.2386,
+      "step": 100
+    },
+    {
+      "epoch": 0.2700877785280216,
+      "eval_loss": 1.2199846506118774,
+      "eval_runtime": 15.5244,
+      "eval_samples_per_second": 40.195,
+      "eval_steps_per_second": 10.049,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.8915377635328e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null