Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9252fb0dea7116419496853ed9c6c8fd5051228d5ed0a31f06b75fb2585f58b4
 size 34456

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ad5e1faeecd2a228b04ca00585c74583cf18dcefe2ef94da1c5161e5296c784
 size 34456

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:298649d4988a7886a1eb221c1b4e4d028f5099dfe8202fe027d48bac6c583079
 size 76154

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ad896fb43775412d8b5acf7b10c527bc08ad51c2236a074b72aa9c4e10c2473
 size 76154

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72cbe2313d88a37281f12750c89b1676aade09734a9ba776758e58c5ced3a865
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:20a9edab4597771a6b5349b3ab408a49ae96684ab5027c1a78bc719184ac7620
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 11.5,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.4672897196261682,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 160.208,
       "eval_steps_per_second": 80.547,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -387,7 +745,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8039615692800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 11.5,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.9345794392523364,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 160.208,
       "eval_steps_per_second": 80.547,
       "step": 50
+    },
+    {
+      "epoch": 0.4766355140186916,
+      "grad_norm": 9.963639604393393e-05,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 46.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.48598130841121495,
+      "grad_norm": 0.00012790461187250912,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 46.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.4953271028037383,
+      "grad_norm": 9.55718569457531e-05,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 46.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.5046728971962616,
+      "grad_norm": 0.00014584721066057682,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 46.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.514018691588785,
+      "grad_norm": 0.00011913034541066736,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 46.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.5233644859813084,
+      "grad_norm": 9.888441854855046e-05,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 46.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.5327102803738317,
+      "grad_norm": 0.00010833790292963386,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 46.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.5420560747663551,
+      "grad_norm": 0.00012922610039822757,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 46.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.5514018691588785,
+      "grad_norm": 0.0001300368458032608,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 46.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "grad_norm": 8.210381929529831e-05,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 46.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.5700934579439252,
+      "grad_norm": 0.0001599452516529709,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 46.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.5794392523364486,
+      "grad_norm": 0.0001269468484679237,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 46.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.5887850467289719,
+      "grad_norm": 0.0001564062258694321,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 46.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.5981308411214953,
+      "grad_norm": 0.00021565529459621757,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 46.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.6074766355140186,
+      "grad_norm": 0.00012543653429020196,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 46.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.616822429906542,
+      "grad_norm": 0.00016946744290180504,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 46.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.6261682242990654,
+      "grad_norm": 0.00016576446068938822,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 46.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.6355140186915887,
+      "grad_norm": 0.00015629635890945792,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 46.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.6448598130841121,
+      "grad_norm": 0.00017187913181260228,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 46.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.6542056074766355,
+      "grad_norm": 0.00017371830472256988,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 46.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.6635514018691588,
+      "grad_norm": 0.00018266221741214395,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 46.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.6728971962616822,
+      "grad_norm": 0.00013964249228592962,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 46.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.6822429906542056,
+      "grad_norm": 0.00014923812705092132,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 46.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.6915887850467289,
+      "grad_norm": 0.00016153555770870298,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 46.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.7009345794392523,
+      "grad_norm": 0.00014358038606587797,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 46.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.7102803738317757,
+      "grad_norm": 0.00019736040849238634,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 46.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.719626168224299,
+      "grad_norm": 0.0003134732542093843,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 46.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.7289719626168224,
+      "grad_norm": 0.0002348859270568937,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 46.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.7383177570093458,
+      "grad_norm": 0.00017541946726851165,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 46.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 0.00016056875756476074,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 46.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.7570093457943925,
+      "grad_norm": 0.00022755710233468562,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 46.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.7663551401869159,
+      "grad_norm": 0.0002692342677619308,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 46.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.7757009345794392,
+      "grad_norm": 0.0002028964809142053,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 46.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.7850467289719626,
+      "grad_norm": 0.000286884926026687,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 46.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.794392523364486,
+      "grad_norm": 0.00020119328110013157,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 46.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.8037383177570093,
+      "grad_norm": 0.00034160970244556665,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 46.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.8130841121495327,
+      "grad_norm": 0.0002135804679710418,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 46.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.822429906542056,
+      "grad_norm": 0.00017743604257702827,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 46.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.8317757009345794,
+      "grad_norm": 0.0001699524582363665,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 46.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.8411214953271028,
+      "grad_norm": 0.00032696506241336465,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 46.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.8504672897196262,
+      "grad_norm": 0.00027825115830637515,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 46.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.8598130841121495,
+      "grad_norm": 0.0001989601005334407,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 46.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.8691588785046729,
+      "grad_norm": 0.0003293946501798928,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 46.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.8785046728971962,
+      "grad_norm": 0.00025171003653667867,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 46.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.8878504672897196,
+      "grad_norm": 0.00037094487925060093,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 46.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.897196261682243,
+      "grad_norm": 0.00023440983204636723,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 46.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.9065420560747663,
+      "grad_norm": 0.0004414333088789135,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 46.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.9158878504672897,
+      "grad_norm": 0.00024191121337935328,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 46.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.9252336448598131,
+      "grad_norm": 0.00048082045395858586,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 46.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "grad_norm": 0.00038313641562126577,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 46.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "eval_loss": 11.5,
+      "eval_runtime": 1.1284,
+      "eval_samples_per_second": 160.407,
+      "eval_steps_per_second": 80.647,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 16079231385600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null