Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef3fef42d3828e39a45576124d901f155ac878ddb3b718dae70cfd4f0c75d22d
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f09acbfb209fbb9c52a238d613dc9a293af22c1b5ce6af8d0b906f0309b14d3
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20e4afef8312d86177ced128546563876ca880708fb3e5c48cf3bfca22415829
 size 463916180

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c06ee0bd1edf25e91900a5097ddb4be6f4506212525291c240a57e37325c77
 size 463916180

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f718d514232b5744742f92c7332037765ca9a9e7de363ebe5e130a92740a1db2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e63b9c3956df80ec528cc467810e3135c069e80c68b8bc041d3c90d9b4f4d2b4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5645349025726318,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.5194805194805194,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 9.163,
       "eval_steps_per_second": 2.319,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.16045503266816e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3966870307922363,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.0389610389610389,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.163,
       "eval_steps_per_second": 2.319,
       "step": 50
+    },
+    {
+      "epoch": 0.5298701298701298,
+      "grad_norm": 7.67022180557251,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 2.522,
+      "step": 51
+    },
+    {
+      "epoch": 0.5402597402597402,
+      "grad_norm": 7.538167953491211,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 2.7836,
+      "step": 52
+    },
+    {
+      "epoch": 0.5506493506493506,
+      "grad_norm": 8.534993171691895,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 4.1527,
+      "step": 53
+    },
+    {
+      "epoch": 0.561038961038961,
+      "grad_norm": 7.748279094696045,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 2.7612,
+      "step": 54
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 10.30086612701416,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 3.0225,
+      "step": 55
+    },
+    {
+      "epoch": 0.5818181818181818,
+      "grad_norm": 8.246614456176758,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 3.6496,
+      "step": 56
+    },
+    {
+      "epoch": 0.5922077922077922,
+      "grad_norm": 8.082802772521973,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 4.3684,
+      "step": 57
+    },
+    {
+      "epoch": 0.6025974025974026,
+      "grad_norm": 8.0596284866333,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 8.1928,
+      "step": 58
+    },
+    {
+      "epoch": 0.612987012987013,
+      "grad_norm": 7.77897834777832,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 8.6797,
+      "step": 59
+    },
+    {
+      "epoch": 0.6233766233766234,
+      "grad_norm": 7.5727739334106445,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 8.0157,
+      "step": 60
+    },
+    {
+      "epoch": 0.6337662337662338,
+      "grad_norm": 8.128865242004395,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 8.0167,
+      "step": 61
+    },
+    {
+      "epoch": 0.6441558441558441,
+      "grad_norm": 8.543482780456543,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 7.5544,
+      "step": 62
+    },
+    {
+      "epoch": 0.6545454545454545,
+      "grad_norm": 9.390509605407715,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 6.7948,
+      "step": 63
+    },
+    {
+      "epoch": 0.6649350649350649,
+      "grad_norm": 8.727639198303223,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 5.8634,
+      "step": 64
+    },
+    {
+      "epoch": 0.6753246753246753,
+      "grad_norm": 9.404783248901367,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 6.7982,
+      "step": 65
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 10.930840492248535,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 6.1879,
+      "step": 66
+    },
+    {
+      "epoch": 0.6961038961038961,
+      "grad_norm": 11.340508460998535,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 7.1018,
+      "step": 67
+    },
+    {
+      "epoch": 0.7064935064935065,
+      "grad_norm": 13.48990535736084,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 6.5251,
+      "step": 68
+    },
+    {
+      "epoch": 0.7168831168831169,
+      "grad_norm": 12.432119369506836,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 7.9855,
+      "step": 69
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 10.703782081604004,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 6.5666,
+      "step": 70
+    },
+    {
+      "epoch": 0.7376623376623377,
+      "grad_norm": 13.081381797790527,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 6.809,
+      "step": 71
+    },
+    {
+      "epoch": 0.7480519480519481,
+      "grad_norm": 19.80504035949707,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 7.5142,
+      "step": 72
+    },
+    {
+      "epoch": 0.7584415584415585,
+      "grad_norm": 10.704850196838379,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 4.4006,
+      "step": 73
+    },
+    {
+      "epoch": 0.7688311688311689,
+      "grad_norm": 13.030965805053711,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 3.3694,
+      "step": 74
+    },
+    {
+      "epoch": 0.7792207792207793,
+      "grad_norm": 6.568570613861084,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 2.4073,
+      "step": 75
+    },
+    {
+      "epoch": 0.7896103896103897,
+      "grad_norm": 6.250870704650879,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 2.7468,
+      "step": 76
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 6.548810005187988,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 2.7367,
+      "step": 77
+    },
+    {
+      "epoch": 0.8103896103896104,
+      "grad_norm": 8.425154685974121,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 2.974,
+      "step": 78
+    },
+    {
+      "epoch": 0.8207792207792208,
+      "grad_norm": 7.15788459777832,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 2.7824,
+      "step": 79
+    },
+    {
+      "epoch": 0.8311688311688312,
+      "grad_norm": 7.519354343414307,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 3.5674,
+      "step": 80
+    },
+    {
+      "epoch": 0.8415584415584415,
+      "grad_norm": 6.716894149780273,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 2.6515,
+      "step": 81
+    },
+    {
+      "epoch": 0.8519480519480519,
+      "grad_norm": 11.737421035766602,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 6.8524,
+      "step": 82
+    },
+    {
+      "epoch": 0.8623376623376623,
+      "grad_norm": 8.733500480651855,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 8.1369,
+      "step": 83
+    },
+    {
+      "epoch": 0.8727272727272727,
+      "grad_norm": 6.9031524658203125,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 7.1535,
+      "step": 84
+    },
+    {
+      "epoch": 0.8831168831168831,
+      "grad_norm": 7.697841167449951,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 7.8616,
+      "step": 85
+    },
+    {
+      "epoch": 0.8935064935064935,
+      "grad_norm": 8.681374549865723,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 7.5235,
+      "step": 86
+    },
+    {
+      "epoch": 0.9038961038961039,
+      "grad_norm": 8.785867691040039,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 6.5892,
+      "step": 87
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 7.821460723876953,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 6.141,
+      "step": 88
+    },
+    {
+      "epoch": 0.9246753246753247,
+      "grad_norm": 9.128939628601074,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 6.6418,
+      "step": 89
+    },
+    {
+      "epoch": 0.935064935064935,
+      "grad_norm": 9.948941230773926,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 6.4697,
+      "step": 90
+    },
+    {
+      "epoch": 0.9454545454545454,
+      "grad_norm": 9.007524490356445,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 5.0825,
+      "step": 91
+    },
+    {
+      "epoch": 0.9558441558441558,
+      "grad_norm": 10.270989418029785,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 6.6769,
+      "step": 92
+    },
+    {
+      "epoch": 0.9662337662337662,
+      "grad_norm": 8.930907249450684,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 6.3437,
+      "step": 93
+    },
+    {
+      "epoch": 0.9766233766233766,
+      "grad_norm": 11.508402824401855,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 6.4219,
+      "step": 94
+    },
+    {
+      "epoch": 0.987012987012987,
+      "grad_norm": 11.598711013793945,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 6.5476,
+      "step": 95
+    },
+    {
+      "epoch": 0.9974025974025974,
+      "grad_norm": 13.854345321655273,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 7.5381,
+      "step": 96
+    },
+    {
+      "epoch": 1.0077922077922077,
+      "grad_norm": 9.219615936279297,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 3.2788,
+      "step": 97
+    },
+    {
+      "epoch": 1.018181818181818,
+      "grad_norm": 13.471745491027832,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 3.6087,
+      "step": 98
+    },
+    {
+      "epoch": 1.0285714285714285,
+      "grad_norm": 9.81554889678955,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 2.9225,
+      "step": 99
+    },
+    {
+      "epoch": 1.0389610389610389,
+      "grad_norm": 6.4711713790893555,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 2.2524,
+      "step": 100
+    },
+    {
+      "epoch": 1.0389610389610389,
+      "eval_loss": 1.3966870307922363,
+      "eval_runtime": 17.6798,
+      "eval_samples_per_second": 9.163,
+      "eval_steps_per_second": 2.319,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.3180089277546496e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null