Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:789736b12870a73e69dcf2ef9bdba0e500e7575487bb5e00ad5e34e7ba987fae
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:2794f115ecf7647a6de9adb317856a63e77984749639ba97d9cbdf91bc87aca7
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:276f7135f717a4597caf6c767a8cfeab22e479d20e66370f41461920e037208e
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:21eaece1b7a8f0a0542a82464eea7d5251f50c5b2e80831d82b267bd806b0b66
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7eeb7b51f69aaa9cc0526b77cf6310b6cc11c0afd67201a6b54c1dfed577428
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a051c9e2f2c55a5c851b2f1a78d680e9c7c3cc8e39cb52088d27e52c1c3fcec
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6253278255462646,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.04927322000492732,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 10.674,
       "eval_steps_per_second": 5.34,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.560814559382733e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6039547920227051,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.09854644000985464,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.674,
       "eval_steps_per_second": 5.34,
       "step": 50
+    },
+    {
+      "epoch": 0.05025868440502587,
+      "grad_norm": 0.09365927428007126,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 0.0552,
+      "step": 51
+    },
+    {
+      "epoch": 0.051244148805124415,
+      "grad_norm": 0.13093718886375427,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 0.1879,
+      "step": 52
+    },
+    {
+      "epoch": 0.052229613205222965,
+      "grad_norm": 0.17437294125556946,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 0.23,
+      "step": 53
+    },
+    {
+      "epoch": 0.05321507760532151,
+      "grad_norm": 0.2906794250011444,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 0.3665,
+      "step": 54
+    },
+    {
+      "epoch": 0.05420054200542006,
+      "grad_norm": 0.2222241759300232,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 0.4059,
+      "step": 55
+    },
+    {
+      "epoch": 0.0551860064055186,
+      "grad_norm": 0.24162358045578003,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 0.5642,
+      "step": 56
+    },
+    {
+      "epoch": 0.05617147080561715,
+      "grad_norm": 0.21459117531776428,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 0.6121,
+      "step": 57
+    },
+    {
+      "epoch": 0.057156935205715693,
+      "grad_norm": 0.2023555487394333,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 0.5059,
+      "step": 58
+    },
+    {
+      "epoch": 0.05814239960581424,
+      "grad_norm": 0.2224394828081131,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 0.6517,
+      "step": 59
+    },
+    {
+      "epoch": 0.059127864005912786,
+      "grad_norm": 0.24458082020282745,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 0.7442,
+      "step": 60
+    },
+    {
+      "epoch": 0.060113328406011336,
+      "grad_norm": 0.22274242341518402,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 0.6335,
+      "step": 61
+    },
+    {
+      "epoch": 0.06109879280610988,
+      "grad_norm": 0.2185131013393402,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 0.5323,
+      "step": 62
+    },
+    {
+      "epoch": 0.06208425720620843,
+      "grad_norm": 0.21939384937286377,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 0.6066,
+      "step": 63
+    },
+    {
+      "epoch": 0.06306972160630697,
+      "grad_norm": 0.20755380392074585,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.5819,
+      "step": 64
+    },
+    {
+      "epoch": 0.06405518600640552,
+      "grad_norm": 0.2545813024044037,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 0.7208,
+      "step": 65
+    },
+    {
+      "epoch": 0.06504065040650407,
+      "grad_norm": 0.25121399760246277,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 0.8203,
+      "step": 66
+    },
+    {
+      "epoch": 0.06602611480660261,
+      "grad_norm": 0.23934347927570343,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 0.6853,
+      "step": 67
+    },
+    {
+      "epoch": 0.06701157920670116,
+      "grad_norm": 0.2448682188987732,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 0.8493,
+      "step": 68
+    },
+    {
+      "epoch": 0.0679970436067997,
+      "grad_norm": 0.21752771735191345,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 0.4707,
+      "step": 69
+    },
+    {
+      "epoch": 0.06898250800689826,
+      "grad_norm": 0.2293497771024704,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 0.6304,
+      "step": 70
+    },
+    {
+      "epoch": 0.0699679724069968,
+      "grad_norm": 0.24045786261558533,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 0.6314,
+      "step": 71
+    },
+    {
+      "epoch": 0.07095343680709534,
+      "grad_norm": 0.26281052827835083,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 0.619,
+      "step": 72
+    },
+    {
+      "epoch": 0.07193890120719389,
+      "grad_norm": 0.28175660967826843,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 0.7979,
+      "step": 73
+    },
+    {
+      "epoch": 0.07292436560729244,
+      "grad_norm": 0.2699892520904541,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 0.7732,
+      "step": 74
+    },
+    {
+      "epoch": 0.07390983000739099,
+      "grad_norm": 0.2922893166542053,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 0.8827,
+      "step": 75
+    },
+    {
+      "epoch": 0.07489529440748953,
+      "grad_norm": 0.27122068405151367,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 0.6182,
+      "step": 76
+    },
+    {
+      "epoch": 0.07588075880758807,
+      "grad_norm": 0.28131553530693054,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 0.6974,
+      "step": 77
+    },
+    {
+      "epoch": 0.07686622320768663,
+      "grad_norm": 0.26899459958076477,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 0.6486,
+      "step": 78
+    },
+    {
+      "epoch": 0.07785168760778517,
+      "grad_norm": 0.31664565205574036,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 0.7727,
+      "step": 79
+    },
+    {
+      "epoch": 0.07883715200788372,
+      "grad_norm": 0.28200066089630127,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 0.643,
+      "step": 80
+    },
+    {
+      "epoch": 0.07982261640798226,
+      "grad_norm": 0.3218248188495636,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.7016,
+      "step": 81
+    },
+    {
+      "epoch": 0.08080808080808081,
+      "grad_norm": 0.32966381311416626,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 0.7472,
+      "step": 82
+    },
+    {
+      "epoch": 0.08179354520817936,
+      "grad_norm": 0.31329721212387085,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 0.7025,
+      "step": 83
+    },
+    {
+      "epoch": 0.0827790096082779,
+      "grad_norm": 0.29452916979789734,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 0.6234,
+      "step": 84
+    },
+    {
+      "epoch": 0.08376447400837644,
+      "grad_norm": 0.34324830770492554,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 0.6944,
+      "step": 85
+    },
+    {
+      "epoch": 0.084749938408475,
+      "grad_norm": 0.33645856380462646,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 0.6598,
+      "step": 86
+    },
+    {
+      "epoch": 0.08573540280857354,
+      "grad_norm": 0.33191972970962524,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 0.6206,
+      "step": 87
+    },
+    {
+      "epoch": 0.08672086720867209,
+      "grad_norm": 0.4066058099269867,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 0.7335,
+      "step": 88
+    },
+    {
+      "epoch": 0.08770633160877063,
+      "grad_norm": 0.37192967534065247,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 0.6201,
+      "step": 89
+    },
+    {
+      "epoch": 0.08869179600886919,
+      "grad_norm": 0.40204325318336487,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 0.691,
+      "step": 90
+    },
+    {
+      "epoch": 0.08967726040896773,
+      "grad_norm": 0.3774620592594147,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 0.6234,
+      "step": 91
+    },
+    {
+      "epoch": 0.09066272480906627,
+      "grad_norm": 0.38905617594718933,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 0.5785,
+      "step": 92
+    },
+    {
+      "epoch": 0.09164818920916482,
+      "grad_norm": 0.40719079971313477,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 0.7717,
+      "step": 93
+    },
+    {
+      "epoch": 0.09263365360926337,
+      "grad_norm": 0.42338162660598755,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 0.7243,
+      "step": 94
+    },
+    {
+      "epoch": 0.09361911800936192,
+      "grad_norm": 0.4960746169090271,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 0.694,
+      "step": 95
+    },
+    {
+      "epoch": 0.09460458240946046,
+      "grad_norm": 0.45286256074905396,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 0.7173,
+      "step": 96
+    },
+    {
+      "epoch": 0.095590046809559,
+      "grad_norm": 0.47811850905418396,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 0.7395,
+      "step": 97
+    },
+    {
+      "epoch": 0.09657551120965756,
+      "grad_norm": 0.5401033759117126,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.7726,
+      "step": 98
+    },
+    {
+      "epoch": 0.0975609756097561,
+      "grad_norm": 0.6063845157623291,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 0.8667,
+      "step": 99
+    },
+    {
+      "epoch": 0.09854644000985464,
+      "grad_norm": 0.7505123615264893,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 0.6364,
+      "step": 100
+    },
+    {
+      "epoch": 0.09854644000985464,
+      "eval_loss": 0.6039547920227051,
+      "eval_runtime": 159.9711,
+      "eval_samples_per_second": 10.683,
+      "eval_steps_per_second": 5.345,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.7046203439828173e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null