Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70c6749d5bfc06ff675c0de3d06c8bab76723ac84b1f320cecb4f8f7bf8572f8
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:1789ce8598d9b50d553bb646bd4f53e47386d447f48349eee9e044df045a0624
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76330a93416b82eab93a3789c01979b5583ed9c64366a88a2cd35c1c9f213407
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:6289bd9d5bbda42e10ebca40c62d43059c94447b0c5169cab9e08b829239d1c9
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e00c53a47bbf43600a8eeae59305df9f053c38eadca365d27e37e9e27824759f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:43c46c26285cc2d316f6194e372dcaec23fa60292decd0c55f7d25677f2dfd35
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3082d89d14e55a69c6ec6c2ca1c3df65b8415cc327c81db7a6363e26d4561be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7da77f823b3b7b98780ed896403aab79fd218aa0d6b8705e9fef6de28201601
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.4506478309631348,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.023798191337458353,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 9.393,
       "eval_steps_per_second": 2.356,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.78874952450048e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.34207284450531,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.047596382674916705,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.393,
       "eval_steps_per_second": 2.356,
       "step": 50
+    },
+    {
+      "epoch": 0.02427415516420752,
+      "grad_norm": 8.132503509521484,
+      "learning_rate": 7.975421052631579e-05,
+      "loss": 2.8369,
+      "step": 51
+    },
+    {
+      "epoch": 0.024750118990956686,
+      "grad_norm": 7.467820644378662,
+      "learning_rate": 7.921894736842106e-05,
+      "loss": 3.1423,
+      "step": 52
+    },
+    {
+      "epoch": 0.025226082817705855,
+      "grad_norm": 6.4784369468688965,
+      "learning_rate": 7.868368421052632e-05,
+      "loss": 2.7428,
+      "step": 53
+    },
+    {
+      "epoch": 0.02570204664445502,
+      "grad_norm": 6.803327560424805,
+      "learning_rate": 7.814842105263157e-05,
+      "loss": 2.8238,
+      "step": 54
+    },
+    {
+      "epoch": 0.02617801047120419,
+      "grad_norm": 9.669547080993652,
+      "learning_rate": 7.761315789473685e-05,
+      "loss": 2.7933,
+      "step": 55
+    },
+    {
+      "epoch": 0.026653974297953357,
+      "grad_norm": 9.685455322265625,
+      "learning_rate": 7.70778947368421e-05,
+      "loss": 3.0942,
+      "step": 56
+    },
+    {
+      "epoch": 0.027129938124702522,
+      "grad_norm": 8.498844146728516,
+      "learning_rate": 7.654263157894737e-05,
+      "loss": 3.0961,
+      "step": 57
+    },
+    {
+      "epoch": 0.02760590195145169,
+      "grad_norm": 7.0263776779174805,
+      "learning_rate": 7.600736842105264e-05,
+      "loss": 2.9287,
+      "step": 58
+    },
+    {
+      "epoch": 0.028081865778200855,
+      "grad_norm": 7.7478742599487305,
+      "learning_rate": 7.54721052631579e-05,
+      "loss": 2.7414,
+      "step": 59
+    },
+    {
+      "epoch": 0.028557829604950024,
+      "grad_norm": 6.691257953643799,
+      "learning_rate": 7.493684210526315e-05,
+      "loss": 2.6123,
+      "step": 60
+    },
+    {
+      "epoch": 0.029033793431699192,
+      "grad_norm": 7.181465148925781,
+      "learning_rate": 7.440157894736843e-05,
+      "loss": 2.6851,
+      "step": 61
+    },
+    {
+      "epoch": 0.029509757258448358,
+      "grad_norm": 6.531435012817383,
+      "learning_rate": 7.386631578947369e-05,
+      "loss": 2.6416,
+      "step": 62
+    },
+    {
+      "epoch": 0.029985721085197526,
+      "grad_norm": 9.599217414855957,
+      "learning_rate": 7.333105263157895e-05,
+      "loss": 2.7074,
+      "step": 63
+    },
+    {
+      "epoch": 0.03046168491194669,
+      "grad_norm": 7.4359846115112305,
+      "learning_rate": 7.279578947368422e-05,
+      "loss": 2.8352,
+      "step": 64
+    },
+    {
+      "epoch": 0.03093764873869586,
+      "grad_norm": 6.91318941116333,
+      "learning_rate": 7.226052631578947e-05,
+      "loss": 2.5786,
+      "step": 65
+    },
+    {
+      "epoch": 0.031413612565445025,
+      "grad_norm": 8.484053611755371,
+      "learning_rate": 7.172526315789474e-05,
+      "loss": 3.0093,
+      "step": 66
+    },
+    {
+      "epoch": 0.0318895763921942,
+      "grad_norm": 7.760731220245361,
+      "learning_rate": 7.119e-05,
+      "loss": 2.8831,
+      "step": 67
+    },
+    {
+      "epoch": 0.03236554021894336,
+      "grad_norm": 7.7634100914001465,
+      "learning_rate": 7.065473684210527e-05,
+      "loss": 2.8134,
+      "step": 68
+    },
+    {
+      "epoch": 0.03284150404569253,
+      "grad_norm": 15.038714408874512,
+      "learning_rate": 7.011947368421053e-05,
+      "loss": 2.446,
+      "step": 69
+    },
+    {
+      "epoch": 0.03331746787244169,
+      "grad_norm": 6.84593391418457,
+      "learning_rate": 6.95842105263158e-05,
+      "loss": 2.8314,
+      "step": 70
+    },
+    {
+      "epoch": 0.033793431699190864,
+      "grad_norm": 6.8339667320251465,
+      "learning_rate": 6.904894736842105e-05,
+      "loss": 2.507,
+      "step": 71
+    },
+    {
+      "epoch": 0.03426939552594003,
+      "grad_norm": 8.750052452087402,
+      "learning_rate": 6.851368421052632e-05,
+      "loss": 2.637,
+      "step": 72
+    },
+    {
+      "epoch": 0.034745359352689194,
+      "grad_norm": 7.736267566680908,
+      "learning_rate": 6.797842105263158e-05,
+      "loss": 2.748,
+      "step": 73
+    },
+    {
+      "epoch": 0.035221323179438366,
+      "grad_norm": 7.89774227142334,
+      "learning_rate": 6.744315789473685e-05,
+      "loss": 2.7948,
+      "step": 74
+    },
+    {
+      "epoch": 0.03569728700618753,
+      "grad_norm": 7.224119663238525,
+      "learning_rate": 6.690789473684211e-05,
+      "loss": 2.7275,
+      "step": 75
+    },
+    {
+      "epoch": 0.036173250832936696,
+      "grad_norm": 7.180510520935059,
+      "learning_rate": 6.637263157894738e-05,
+      "loss": 2.5776,
+      "step": 76
+    },
+    {
+      "epoch": 0.03664921465968586,
+      "grad_norm": 6.440933704376221,
+      "learning_rate": 6.583736842105263e-05,
+      "loss": 2.241,
+      "step": 77
+    },
+    {
+      "epoch": 0.03712517848643503,
+      "grad_norm": 8.913047790527344,
+      "learning_rate": 6.53021052631579e-05,
+      "loss": 2.9477,
+      "step": 78
+    },
+    {
+      "epoch": 0.0376011423131842,
+      "grad_norm": 7.736593723297119,
+      "learning_rate": 6.476684210526316e-05,
+      "loss": 2.8696,
+      "step": 79
+    },
+    {
+      "epoch": 0.03807710613993336,
+      "grad_norm": 7.847418308258057,
+      "learning_rate": 6.423157894736841e-05,
+      "loss": 2.3813,
+      "step": 80
+    },
+    {
+      "epoch": 0.038553069966682535,
+      "grad_norm": 9.366430282592773,
+      "learning_rate": 6.369631578947368e-05,
+      "loss": 2.8983,
+      "step": 81
+    },
+    {
+      "epoch": 0.0390290337934317,
+      "grad_norm": 6.681727886199951,
+      "learning_rate": 6.316105263157896e-05,
+      "loss": 2.4428,
+      "step": 82
+    },
+    {
+      "epoch": 0.039504997620180865,
+      "grad_norm": 8.800130844116211,
+      "learning_rate": 6.262578947368421e-05,
+      "loss": 2.9551,
+      "step": 83
+    },
+    {
+      "epoch": 0.03998096144693003,
+      "grad_norm": 8.04470157623291,
+      "learning_rate": 6.209052631578948e-05,
+      "loss": 2.7357,
+      "step": 84
+    },
+    {
+      "epoch": 0.0404569252736792,
+      "grad_norm": 6.852024555206299,
+      "learning_rate": 6.155526315789474e-05,
+      "loss": 2.6536,
+      "step": 85
+    },
+    {
+      "epoch": 0.04093288910042837,
+      "grad_norm": 7.370736598968506,
+      "learning_rate": 6.102e-05,
+      "loss": 2.6235,
+      "step": 86
+    },
+    {
+      "epoch": 0.04140885292717753,
+      "grad_norm": 7.6142401695251465,
+      "learning_rate": 6.048473684210526e-05,
+      "loss": 2.7034,
+      "step": 87
+    },
+    {
+      "epoch": 0.041884816753926704,
+      "grad_norm": 7.17495059967041,
+      "learning_rate": 5.9949473684210527e-05,
+      "loss": 2.7207,
+      "step": 88
+    },
+    {
+      "epoch": 0.04236078058067587,
+      "grad_norm": 7.216758728027344,
+      "learning_rate": 5.94142105263158e-05,
+      "loss": 2.4448,
+      "step": 89
+    },
+    {
+      "epoch": 0.042836744407425034,
+      "grad_norm": 7.9468817710876465,
+      "learning_rate": 5.887894736842106e-05,
+      "loss": 2.9818,
+      "step": 90
+    },
+    {
+      "epoch": 0.043312708234174206,
+      "grad_norm": 8.539376258850098,
+      "learning_rate": 5.834368421052632e-05,
+      "loss": 2.4128,
+      "step": 91
+    },
+    {
+      "epoch": 0.04378867206092337,
+      "grad_norm": 8.345818519592285,
+      "learning_rate": 5.780842105263158e-05,
+      "loss": 2.7606,
+      "step": 92
+    },
+    {
+      "epoch": 0.044264635887672536,
+      "grad_norm": 8.508038520812988,
+      "learning_rate": 5.727315789473684e-05,
+      "loss": 2.6035,
+      "step": 93
+    },
+    {
+      "epoch": 0.0447405997144217,
+      "grad_norm": 8.71206283569336,
+      "learning_rate": 5.673789473684211e-05,
+      "loss": 2.9024,
+      "step": 94
+    },
+    {
+      "epoch": 0.04521656354117087,
+      "grad_norm": 7.256693363189697,
+      "learning_rate": 5.620263157894738e-05,
+      "loss": 2.5654,
+      "step": 95
+    },
+    {
+      "epoch": 0.04569252736792004,
+      "grad_norm": 6.628811359405518,
+      "learning_rate": 5.566736842105264e-05,
+      "loss": 2.0765,
+      "step": 96
+    },
+    {
+      "epoch": 0.0461684911946692,
+      "grad_norm": 9.192995071411133,
+      "learning_rate": 5.51321052631579e-05,
+      "loss": 3.0441,
+      "step": 97
+    },
+    {
+      "epoch": 0.046644455021418375,
+      "grad_norm": 9.181817054748535,
+      "learning_rate": 5.459684210526316e-05,
+      "loss": 2.8811,
+      "step": 98
+    },
+    {
+      "epoch": 0.04712041884816754,
+      "grad_norm": 9.44265079498291,
+      "learning_rate": 5.406157894736842e-05,
+      "loss": 2.6583,
+      "step": 99
+    },
+    {
+      "epoch": 0.047596382674916705,
+      "grad_norm": 9.560362815856934,
+      "learning_rate": 5.352631578947368e-05,
+      "loss": 2.5805,
+      "step": 100
+    },
+    {
+      "epoch": 0.047596382674916705,
+      "eval_loss": 1.34207284450531,
+      "eval_runtime": 94.197,
+      "eval_samples_per_second": 9.395,
+      "eval_steps_per_second": 2.357,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.57749904900096e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null