Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aff1d604b13cf3d048f8d189b71a1d8ce8ea10cab74dcaf50c59b3c1f3df5c8a
 size 871457448

 version https://git-lfs.github.com/spec/v1
+oid sha256:109decc79381bd4a2f43d770dbba7a5a0202b716eb51975dcdda2fc522b915e6
 size 871457448

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be46889630b146664dfc93c687af054613b3dc6ca7eb79ba0698b74dccf43473
 size 443280340

 version https://git-lfs.github.com/spec/v1
+oid sha256:6854b1efaf6b1339ba99a7a524ec5649dd17806c785851c40fdabe08bd5224ae
 size 443280340

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57dbc6bc3b7e05eaf28058684f07775f2067e75d8bbd851597ad0ef815321c41
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd5dd7e829a1c23e4a8d6d91b99a4595ed3becf3d57bd240b5a9f50971e4761d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99ca67f9a35cd1c50df3d93bedf5a6642db2c7847c021a0a8d3f44c1bf4993d3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.44632911682128906,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0821186614658181,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 7.059,
       "eval_steps_per_second": 1.766,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7401760676682138e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.38091349601745605,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.12317799219872716,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.059,
       "eval_steps_per_second": 1.766,
       "step": 100
+    },
+    {
+      "epoch": 0.08293984808047629,
+      "grad_norm": 1.5546329021453857,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.5163,
+      "step": 101
+    },
+    {
+      "epoch": 0.08376103469513448,
+      "grad_norm": 1.350873589515686,
+      "learning_rate": 8.688653405904652e-05,
+      "loss": 0.4791,
+      "step": 102
+    },
+    {
+      "epoch": 0.08458222130979265,
+      "grad_norm": 0.984677255153656,
+      "learning_rate": 8.661343332988869e-05,
+      "loss": 0.3377,
+      "step": 103
+    },
+    {
+      "epoch": 0.08540340792445084,
+      "grad_norm": 0.3391437530517578,
+      "learning_rate": 8.633795680751116e-05,
+      "loss": 0.2633,
+      "step": 104
+    },
+    {
+      "epoch": 0.08622459453910901,
+      "grad_norm": 0.2502461373806,
+      "learning_rate": 8.606012236719073e-05,
+      "loss": 0.2567,
+      "step": 105
+    },
+    {
+      "epoch": 0.0870457811537672,
+      "grad_norm": 0.28781577944755554,
+      "learning_rate": 8.577994803720606e-05,
+      "loss": 0.2769,
+      "step": 106
+    },
+    {
+      "epoch": 0.08786696776842537,
+      "grad_norm": 0.30542901158332825,
+      "learning_rate": 8.549745199766792e-05,
+      "loss": 0.2965,
+      "step": 107
+    },
+    {
+      "epoch": 0.08868815438308356,
+      "grad_norm": 0.3351757526397705,
+      "learning_rate": 8.521265257933948e-05,
+      "loss": 0.2774,
+      "step": 108
+    },
+    {
+      "epoch": 0.08950934099774174,
+      "grad_norm": 0.2978907525539398,
+      "learning_rate": 8.492556826244687e-05,
+      "loss": 0.2744,
+      "step": 109
+    },
+    {
+      "epoch": 0.09033052761239992,
+      "grad_norm": 0.2558261752128601,
+      "learning_rate": 8.463621767547998e-05,
+      "loss": 0.2312,
+      "step": 110
+    },
+    {
+      "epoch": 0.0911517142270581,
+      "grad_norm": 0.30879148840904236,
+      "learning_rate": 8.434461959398376e-05,
+      "loss": 0.2845,
+      "step": 111
+    },
+    {
+      "epoch": 0.09197290084171628,
+      "grad_norm": 0.309334397315979,
+      "learning_rate": 8.405079293933986e-05,
+      "loss": 0.266,
+      "step": 112
+    },
+    {
+      "epoch": 0.09279408745637446,
+      "grad_norm": 0.3099028170108795,
+      "learning_rate": 8.375475677753881e-05,
+      "loss": 0.2692,
+      "step": 113
+    },
+    {
+      "epoch": 0.09361527407103264,
+      "grad_norm": 0.30877748131752014,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.284,
+      "step": 114
+    },
+    {
+      "epoch": 0.09443646068569082,
+      "grad_norm": 0.2932473123073578,
+      "learning_rate": 8.315613291203976e-05,
+      "loss": 0.268,
+      "step": 115
+    },
+    {
+      "epoch": 0.09525764730034901,
+      "grad_norm": 0.337277889251709,
+      "learning_rate": 8.285358405218655e-05,
+      "loss": 0.2448,
+      "step": 116
+    },
+    {
+      "epoch": 0.09607883391500718,
+      "grad_norm": 0.3811333477497101,
+      "learning_rate": 8.25489033703452e-05,
+      "loss": 0.293,
+      "step": 117
+    },
+    {
+      "epoch": 0.09690002052966537,
+      "grad_norm": 0.34305429458618164,
+      "learning_rate": 8.224211063680853e-05,
+      "loss": 0.2596,
+      "step": 118
+    },
+    {
+      "epoch": 0.09772120714432354,
+      "grad_norm": 0.3743656277656555,
+      "learning_rate": 8.19332257589174e-05,
+      "loss": 0.277,
+      "step": 119
+    },
+    {
+      "epoch": 0.09854239375898173,
+      "grad_norm": 0.2987310290336609,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 0.2484,
+      "step": 120
+    },
+    {
+      "epoch": 0.0993635803736399,
+      "grad_norm": 0.2911909222602844,
+      "learning_rate": 8.130925987691569e-05,
+      "loss": 0.2297,
+      "step": 121
+    },
+    {
+      "epoch": 0.10018476698829809,
+      "grad_norm": 0.29610538482666016,
+      "learning_rate": 8.099421936105702e-05,
+      "loss": 0.2224,
+      "step": 122
+    },
+    {
+      "epoch": 0.10100595360295628,
+      "grad_norm": 0.31938186287879944,
+      "learning_rate": 8.067716767472045e-05,
+      "loss": 0.2158,
+      "step": 123
+    },
+    {
+      "epoch": 0.10182714021761445,
+      "grad_norm": 0.3307250440120697,
+      "learning_rate": 8.035812539093557e-05,
+      "loss": 0.2443,
+      "step": 124
+    },
+    {
+      "epoch": 0.10264832683227264,
+      "grad_norm": 0.33900371193885803,
+      "learning_rate": 8.003711321189895e-05,
+      "loss": 0.2455,
+      "step": 125
+    },
+    {
+      "epoch": 0.10346951344693081,
+      "grad_norm": 0.33954647183418274,
+      "learning_rate": 7.971415196763088e-05,
+      "loss": 0.2413,
+      "step": 126
+    },
+    {
+      "epoch": 0.104290700061589,
+      "grad_norm": 0.3721504211425781,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.2724,
+      "step": 127
+    },
+    {
+      "epoch": 0.10511188667624717,
+      "grad_norm": 0.3788248300552368,
+      "learning_rate": 7.906246623448183e-05,
+      "loss": 0.2727,
+      "step": 128
+    },
+    {
+      "epoch": 0.10593307329090536,
+      "grad_norm": 0.3605785667896271,
+      "learning_rate": 7.873378403255419e-05,
+      "loss": 0.2781,
+      "step": 129
+    },
+    {
+      "epoch": 0.10675425990556354,
+      "grad_norm": 0.33415114879608154,
+      "learning_rate": 7.840323733655778e-05,
+      "loss": 0.2226,
+      "step": 130
+    },
+    {
+      "epoch": 0.10757544652022172,
+      "grad_norm": 0.43883877992630005,
+      "learning_rate": 7.807084759519405e-05,
+      "loss": 0.2474,
+      "step": 131
+    },
+    {
+      "epoch": 0.1083966331348799,
+      "grad_norm": 0.3597790598869324,
+      "learning_rate": 7.773663637675694e-05,
+      "loss": 0.2375,
+      "step": 132
+    },
+    {
+      "epoch": 0.10921781974953808,
+      "grad_norm": 0.41835817694664,
+      "learning_rate": 7.740062536773352e-05,
+      "loss": 0.2869,
+      "step": 133
+    },
+    {
+      "epoch": 0.11003900636419627,
+      "grad_norm": 0.40062186121940613,
+      "learning_rate": 7.706283637139658e-05,
+      "loss": 0.2451,
+      "step": 134
+    },
+    {
+      "epoch": 0.11086019297885444,
+      "grad_norm": 0.46534448862075806,
+      "learning_rate": 7.672329130639005e-05,
+      "loss": 0.2834,
+      "step": 135
+    },
+    {
+      "epoch": 0.11168137959351263,
+      "grad_norm": 0.4524616599082947,
+      "learning_rate": 7.638201220530665e-05,
+      "loss": 0.2579,
+      "step": 136
+    },
+    {
+      "epoch": 0.11250256620817081,
+      "grad_norm": 0.42796769738197327,
+      "learning_rate": 7.603902121325813e-05,
+      "loss": 0.2507,
+      "step": 137
+    },
+    {
+      "epoch": 0.11332375282282899,
+      "grad_norm": 0.6147335767745972,
+      "learning_rate": 7.569434058643844e-05,
+      "loss": 0.2547,
+      "step": 138
+    },
+    {
+      "epoch": 0.11414493943748717,
+      "grad_norm": 0.5195381045341492,
+      "learning_rate": 7.534799269067953e-05,
+      "loss": 0.2429,
+      "step": 139
+    },
+    {
+      "epoch": 0.11496612605214535,
+      "grad_norm": 0.549555242061615,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.2826,
+      "step": 140
+    },
+    {
+      "epoch": 0.11578731266680353,
+      "grad_norm": 0.5704975128173828,
+      "learning_rate": 7.465038509514688e-05,
+      "loss": 0.2789,
+      "step": 141
+    },
+    {
+      "epoch": 0.1166084992814617,
+      "grad_norm": 0.6339702606201172,
+      "learning_rate": 7.42991706621303e-05,
+      "loss": 0.2289,
+      "step": 142
+    },
+    {
+      "epoch": 0.11742968589611989,
+      "grad_norm": 0.728171706199646,
+      "learning_rate": 7.394637949075154e-05,
+      "loss": 0.3104,
+      "step": 143
+    },
+    {
+      "epoch": 0.11825087251077808,
+      "grad_norm": 0.5731471180915833,
+      "learning_rate": 7.35920344731241e-05,
+      "loss": 0.2612,
+      "step": 144
+    },
+    {
+      "epoch": 0.11907205912543625,
+      "grad_norm": 0.7613599896430969,
+      "learning_rate": 7.323615860218843e-05,
+      "loss": 0.3024,
+      "step": 145
+    },
+    {
+      "epoch": 0.11989324574009444,
+      "grad_norm": 0.5790632963180542,
+      "learning_rate": 7.287877497021978e-05,
+      "loss": 0.2493,
+      "step": 146
+    },
+    {
+      "epoch": 0.12071443235475261,
+      "grad_norm": 0.746548593044281,
+      "learning_rate": 7.251990676732984e-05,
+      "loss": 0.2999,
+      "step": 147
+    },
+    {
+      "epoch": 0.1215356189694108,
+      "grad_norm": 0.7720208168029785,
+      "learning_rate": 7.215957727996207e-05,
+      "loss": 0.2836,
+      "step": 148
+    },
+    {
+      "epoch": 0.12235680558406897,
+      "grad_norm": 0.6100975275039673,
+      "learning_rate": 7.179780988938051e-05,
+      "loss": 0.2187,
+      "step": 149
+    },
+    {
+      "epoch": 0.12317799219872716,
+      "grad_norm": 0.7999358177185059,
+      "learning_rate": 7.143462807015271e-05,
+      "loss": 0.2709,
+      "step": 150
+    },
+    {
+      "epoch": 0.12317799219872716,
+      "eval_loss": 0.38091349601745605,
+      "eval_runtime": 291.0342,
+      "eval_samples_per_second": 7.047,
+      "eval_steps_per_second": 1.763,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.6081050741230797e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null