Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70e1ec4b6f6902db0e58c3632b9f55aadd914913afa079d9c85514d681d29360
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:515948f9892eb56522995af4e7447e14a1ce77ab48040cabb3e69bd864966d61
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1278f66835c673e62d1c58950c57a487cb44334a3c85674f3e8352df685d299b
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:c353dec8a42af643633c760a6b4a39c29024ea6e35a17d7000c75db4efd93084
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:825a8fa54ca4102a13edeb7a75c2c5da461eae8b595ce2b2eaadf98696986762
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eabd323f96aa88f0a0c8cc7cb371e7b584d6f9b8cd6ddec15dc9da6604213a40
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f153938c08b62688f6e56c8abc0a37c00fee4d7e364e15e32c7b150f9f5f65c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b0f0591a54513981f9045153a7608f989005ce4fb6ed2c798b085bae23c1094
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4549524486064911,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0392156862745098,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 12.5,
       "eval_steps_per_second": 3.125,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.548522993392026e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.423828125,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.0784313725490196,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.5,
       "eval_steps_per_second": 3.125,
       "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 14.582710266113281,
+      "learning_rate": 8.004947754429507e-05,
+      "loss": 4.1472,
+      "step": 51
+    },
+    {
+      "epoch": 0.0407843137254902,
+      "grad_norm": 6.1638922691345215,
+      "learning_rate": 7.957804998855866e-05,
+      "loss": 2.2978,
+      "step": 52
+    },
+    {
+      "epoch": 0.04156862745098039,
+      "grad_norm": 3.731342077255249,
+      "learning_rate": 7.909716913921508e-05,
+      "loss": 1.9173,
+      "step": 53
+    },
+    {
+      "epoch": 0.042352941176470586,
+      "grad_norm": 3.8371353149414062,
+      "learning_rate": 7.860696646428694e-05,
+      "loss": 1.4256,
+      "step": 54
+    },
+    {
+      "epoch": 0.043137254901960784,
+      "grad_norm": 4.627960205078125,
+      "learning_rate": 7.810757598029093e-05,
+      "loss": 1.6277,
+      "step": 55
+    },
+    {
+      "epoch": 0.04392156862745098,
+      "grad_norm": 4.3101043701171875,
+      "learning_rate": 7.759913421559902e-05,
+      "loss": 1.5975,
+      "step": 56
+    },
+    {
+      "epoch": 0.04470588235294118,
+      "grad_norm": 2.9555671215057373,
+      "learning_rate": 7.708178017311287e-05,
+      "loss": 1.0289,
+      "step": 57
+    },
+    {
+      "epoch": 0.04549019607843137,
+      "grad_norm": 3.413313865661621,
+      "learning_rate": 7.655565529226198e-05,
+      "loss": 1.3867,
+      "step": 58
+    },
+    {
+      "epoch": 0.04627450980392157,
+      "grad_norm": 3.6849825382232666,
+      "learning_rate": 7.602090341033547e-05,
+      "loss": 1.2773,
+      "step": 59
+    },
+    {
+      "epoch": 0.047058823529411764,
+      "grad_norm": 3.837523937225342,
+      "learning_rate": 7.547767072315837e-05,
+      "loss": 1.4187,
+      "step": 60
+    },
+    {
+      "epoch": 0.04784313725490196,
+      "grad_norm": 3.476501226425171,
+      "learning_rate": 7.492610574512317e-05,
+      "loss": 1.2678,
+      "step": 61
+    },
+    {
+      "epoch": 0.04862745098039216,
+      "grad_norm": 3.9961957931518555,
+      "learning_rate": 7.436635926858759e-05,
+      "loss": 1.4783,
+      "step": 62
+    },
+    {
+      "epoch": 0.04941176470588235,
+      "grad_norm": 4.245054244995117,
+      "learning_rate": 7.379858432264925e-05,
+      "loss": 1.5066,
+      "step": 63
+    },
+    {
+      "epoch": 0.05019607843137255,
+      "grad_norm": 5.134169578552246,
+      "learning_rate": 7.322293613130917e-05,
+      "loss": 1.4297,
+      "step": 64
+    },
+    {
+      "epoch": 0.050980392156862744,
+      "grad_norm": 4.725772380828857,
+      "learning_rate": 7.263957207103507e-05,
+      "loss": 1.6951,
+      "step": 65
+    },
+    {
+      "epoch": 0.05176470588235294,
+      "grad_norm": 4.962766647338867,
+      "learning_rate": 7.204865162773613e-05,
+      "loss": 1.5281,
+      "step": 66
+    },
+    {
+      "epoch": 0.05254901960784314,
+      "grad_norm": 4.3428192138671875,
+      "learning_rate": 7.14503363531613e-05,
+      "loss": 1.4586,
+      "step": 67
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 5.0155029296875,
+      "learning_rate": 7.084478982073247e-05,
+      "loss": 1.5896,
+      "step": 68
+    },
+    {
+      "epoch": 0.05411764705882353,
+      "grad_norm": 4.897243976593018,
+      "learning_rate": 7.023217758082528e-05,
+      "loss": 1.1711,
+      "step": 69
+    },
+    {
+      "epoch": 0.054901960784313725,
+      "grad_norm": 5.0609612464904785,
+      "learning_rate": 6.961266711550922e-05,
+      "loss": 1.4897,
+      "step": 70
+    },
+    {
+      "epoch": 0.05568627450980392,
+      "grad_norm": 4.689002990722656,
+      "learning_rate": 6.898642779275972e-05,
+      "loss": 0.9881,
+      "step": 71
+    },
+    {
+      "epoch": 0.05647058823529412,
+      "grad_norm": 6.720233917236328,
+      "learning_rate": 6.835363082015469e-05,
+      "loss": 1.5692,
+      "step": 72
+    },
+    {
+      "epoch": 0.05725490196078432,
+      "grad_norm": 5.96003532409668,
+      "learning_rate": 6.771444919806798e-05,
+      "loss": 1.3238,
+      "step": 73
+    },
+    {
+      "epoch": 0.05803921568627451,
+      "grad_norm": 6.871821880340576,
+      "learning_rate": 6.706905767237288e-05,
+      "loss": 1.4878,
+      "step": 74
+    },
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 6.003084182739258,
+      "learning_rate": 6.641763268666833e-05,
+      "loss": 1.5651,
+      "step": 75
+    },
+    {
+      "epoch": 0.0596078431372549,
+      "grad_norm": 6.855623245239258,
+      "learning_rate": 6.576035233404096e-05,
+      "loss": 1.5011,
+      "step": 76
+    },
+    {
+      "epoch": 0.0603921568627451,
+      "grad_norm": 6.763059616088867,
+      "learning_rate": 6.509739630837631e-05,
+      "loss": 1.6047,
+      "step": 77
+    },
+    {
+      "epoch": 0.0611764705882353,
+      "grad_norm": 6.753271579742432,
+      "learning_rate": 6.442894585523218e-05,
+      "loss": 1.5268,
+      "step": 78
+    },
+    {
+      "epoch": 0.06196078431372549,
+      "grad_norm": 5.556756973266602,
+      "learning_rate": 6.375518372228808e-05,
+      "loss": 1.0404,
+      "step": 79
+    },
+    {
+      "epoch": 0.06274509803921569,
+      "grad_norm": 6.503464221954346,
+      "learning_rate": 6.307629410938363e-05,
+      "loss": 1.0106,
+      "step": 80
+    },
+    {
+      "epoch": 0.06352941176470588,
+      "grad_norm": 4.450430870056152,
+      "learning_rate": 6.239246261816035e-05,
+      "loss": 0.6093,
+      "step": 81
+    },
+    {
+      "epoch": 0.06431372549019608,
+      "grad_norm": 6.413719177246094,
+      "learning_rate": 6.170387620131993e-05,
+      "loss": 1.238,
+      "step": 82
+    },
+    {
+      "epoch": 0.06509803921568627,
+      "grad_norm": 5.047544956207275,
+      "learning_rate": 6.101072311151325e-05,
+      "loss": 0.8442,
+      "step": 83
+    },
+    {
+      "epoch": 0.06588235294117648,
+      "grad_norm": 7.372629165649414,
+      "learning_rate": 6.0313192849873945e-05,
+      "loss": 1.4398,
+      "step": 84
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 9.576523780822754,
+      "learning_rate": 5.961147611421077e-05,
+      "loss": 1.4834,
+      "step": 85
+    },
+    {
+      "epoch": 0.06745098039215686,
+      "grad_norm": 6.8355207443237305,
+      "learning_rate": 5.890576474687264e-05,
+      "loss": 1.6157,
+      "step": 86
+    },
+    {
+      "epoch": 0.06823529411764706,
+      "grad_norm": 7.017658233642578,
+      "learning_rate": 5.8196251682300926e-05,
+      "loss": 1.6794,
+      "step": 87
+    },
+    {
+      "epoch": 0.06901960784313725,
+      "grad_norm": 8.371786117553711,
+      "learning_rate": 5.748313089428301e-05,
+      "loss": 1.5957,
+      "step": 88
+    },
+    {
+      "epoch": 0.06980392156862746,
+      "grad_norm": 10.280915260314941,
+      "learning_rate": 5.676659734292189e-05,
+      "loss": 2.2618,
+      "step": 89
+    },
+    {
+      "epoch": 0.07058823529411765,
+      "grad_norm": 8.091904640197754,
+      "learning_rate": 5.604684692133597e-05,
+      "loss": 1.3325,
+      "step": 90
+    },
+    {
+      "epoch": 0.07137254901960784,
+      "grad_norm": 8.49736499786377,
+      "learning_rate": 5.532407640210383e-05,
+      "loss": 1.4017,
+      "step": 91
+    },
+    {
+      "epoch": 0.07215686274509804,
+      "grad_norm": 7.801628112792969,
+      "learning_rate": 5.4598483383468616e-05,
+      "loss": 1.3546,
+      "step": 92
+    },
+    {
+      "epoch": 0.07294117647058823,
+      "grad_norm": 9.922377586364746,
+      "learning_rate": 5.3870266235316614e-05,
+      "loss": 1.8899,
+      "step": 93
+    },
+    {
+      "epoch": 0.07372549019607844,
+      "grad_norm": 12.533098220825195,
+      "learning_rate": 5.313962404494496e-05,
+      "loss": 1.8032,
+      "step": 94
+    },
+    {
+      "epoch": 0.07450980392156863,
+      "grad_norm": 13.20348072052002,
+      "learning_rate": 5.240675656263303e-05,
+      "loss": 1.8548,
+      "step": 95
+    },
+    {
+      "epoch": 0.07529411764705882,
+      "grad_norm": 22.03706932067871,
+      "learning_rate": 5.167186414703289e-05,
+      "loss": 2.4985,
+      "step": 96
+    },
+    {
+      "epoch": 0.07607843137254902,
+      "grad_norm": 18.293331146240234,
+      "learning_rate": 5.093514771039311e-05,
+      "loss": 1.9427,
+      "step": 97
+    },
+    {
+      "epoch": 0.07686274509803921,
+      "grad_norm": 19.484935760498047,
+      "learning_rate": 5.019680866363139e-05,
+      "loss": 2.3599,
+      "step": 98
+    },
+    {
+      "epoch": 0.07764705882352942,
+      "grad_norm": 19.723976135253906,
+      "learning_rate": 4.9457048861270835e-05,
+      "loss": 2.401,
+      "step": 99
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "grad_norm": 19.807950973510742,
+      "learning_rate": 4.871607054625497e-05,
+      "loss": 1.9219,
+      "step": 100
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "eval_loss": 0.423828125,
+      "eval_runtime": 172.1475,
+      "eval_samples_per_second": 12.478,
+      "eval_steps_per_second": 3.119,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.513282097727406e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null