Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c2a6d7f68310c78380d6c4ce36dcb947cbef25bc0c7c5dd186573b8f76d40ee
 size 871457448

 version https://git-lfs.github.com/spec/v1
+oid sha256:63e43d7360361b32f2b5ccdedb7e06caf5b2ee771e400271b205fc86382a12f8
 size 871457448

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba84b182ba6a2ec82a98476274fd79d705d0ba7632cd52cc58490614d378feb7
 size 443280340

 version https://git-lfs.github.com/spec/v1
+oid sha256:bad470dce8d3957ede7ae9508a00187aaf3034d7a3d1b1a9a1b3c30d1b967694
 size 443280340

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22cb16048613c4c5759c220f74762a10917ee15e65140948779c5f187b65214d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:44bad6113ba213dfa62151c5951984ffb5126006bd795a13ce81d766c1d1fdb1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ba1abeedc944b50dfc9c3bffbf774b90111e900acad34ff55445cc0c42e5cd9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:940eaf31ac549488b8de7c1e32bcee52e66762875735ca6474507071594055dc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.202304482460022,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.01633186346562143,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 7.482,
       "eval_steps_per_second": 1.872,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.33964503227433e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1496460437774658,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.02449779519843214,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.482,
       "eval_steps_per_second": 1.872,
       "step": 100
+    },
+    {
+      "epoch": 0.01649518210027764,
+      "grad_norm": 0.7410888671875,
+      "learning_rate": 5.220947368421052e-05,
+      "loss": 0.7999,
+      "step": 101
+    },
+    {
+      "epoch": 0.016658500734933857,
+      "grad_norm": 0.7798357605934143,
+      "learning_rate": 5.1682105263157895e-05,
+      "loss": 0.932,
+      "step": 102
+    },
+    {
+      "epoch": 0.01682181936959007,
+      "grad_norm": 0.7108080983161926,
+      "learning_rate": 5.115473684210527e-05,
+      "loss": 0.9403,
+      "step": 103
+    },
+    {
+      "epoch": 0.016985138004246284,
+      "grad_norm": 0.7301442623138428,
+      "learning_rate": 5.062736842105263e-05,
+      "loss": 0.8655,
+      "step": 104
+    },
+    {
+      "epoch": 0.0171484566389025,
+      "grad_norm": 0.6835742592811584,
+      "learning_rate": 5.01e-05,
+      "loss": 0.8765,
+      "step": 105
+    },
+    {
+      "epoch": 0.017311775273558712,
+      "grad_norm": 0.6745396256446838,
+      "learning_rate": 4.9572631578947363e-05,
+      "loss": 0.9458,
+      "step": 106
+    },
+    {
+      "epoch": 0.017475093908214927,
+      "grad_norm": 0.6688428521156311,
+      "learning_rate": 4.9045263157894736e-05,
+      "loss": 0.8976,
+      "step": 107
+    },
+    {
+      "epoch": 0.017638412542871143,
+      "grad_norm": 0.6025101542472839,
+      "learning_rate": 4.85178947368421e-05,
+      "loss": 1.007,
+      "step": 108
+    },
+    {
+      "epoch": 0.017801731177527355,
+      "grad_norm": 0.5355660319328308,
+      "learning_rate": 4.799052631578947e-05,
+      "loss": 0.893,
+      "step": 109
+    },
+    {
+      "epoch": 0.01796504981218357,
+      "grad_norm": 0.6081918478012085,
+      "learning_rate": 4.746315789473684e-05,
+      "loss": 1.0356,
+      "step": 110
+    },
+    {
+      "epoch": 0.018128368446839783,
+      "grad_norm": 0.6432203650474548,
+      "learning_rate": 4.693578947368421e-05,
+      "loss": 1.0259,
+      "step": 111
+    },
+    {
+      "epoch": 0.018291687081496,
+      "grad_norm": 0.6371332406997681,
+      "learning_rate": 4.6408421052631576e-05,
+      "loss": 0.9714,
+      "step": 112
+    },
+    {
+      "epoch": 0.018455005716152214,
+      "grad_norm": 0.632469117641449,
+      "learning_rate": 4.588105263157894e-05,
+      "loss": 0.7899,
+      "step": 113
+    },
+    {
+      "epoch": 0.018618324350808426,
+      "grad_norm": 0.6865615248680115,
+      "learning_rate": 4.5353684210526314e-05,
+      "loss": 1.0136,
+      "step": 114
+    },
+    {
+      "epoch": 0.01878164298546464,
+      "grad_norm": 0.735899031162262,
+      "learning_rate": 4.482631578947368e-05,
+      "loss": 0.9631,
+      "step": 115
+    },
+    {
+      "epoch": 0.018944961620120857,
+      "grad_norm": 0.7938647270202637,
+      "learning_rate": 4.429894736842105e-05,
+      "loss": 1.0312,
+      "step": 116
+    },
+    {
+      "epoch": 0.01910828025477707,
+      "grad_norm": 0.7992541790008545,
+      "learning_rate": 4.3771578947368424e-05,
+      "loss": 1.1253,
+      "step": 117
+    },
+    {
+      "epoch": 0.019271598889433285,
+      "grad_norm": 0.7731001377105713,
+      "learning_rate": 4.324421052631579e-05,
+      "loss": 1.1413,
+      "step": 118
+    },
+    {
+      "epoch": 0.019434917524089497,
+      "grad_norm": 0.8240691423416138,
+      "learning_rate": 4.2716842105263155e-05,
+      "loss": 0.9722,
+      "step": 119
+    },
+    {
+      "epoch": 0.019598236158745713,
+      "grad_norm": 0.7312250733375549,
+      "learning_rate": 4.218947368421052e-05,
+      "loss": 0.8119,
+      "step": 120
+    },
+    {
+      "epoch": 0.019761554793401928,
+      "grad_norm": 0.8575920462608337,
+      "learning_rate": 4.166210526315789e-05,
+      "loss": 0.9616,
+      "step": 121
+    },
+    {
+      "epoch": 0.01992487342805814,
+      "grad_norm": 0.8943201899528503,
+      "learning_rate": 4.1134736842105265e-05,
+      "loss": 0.9458,
+      "step": 122
+    },
+    {
+      "epoch": 0.020088192062714356,
+      "grad_norm": 0.7860243916511536,
+      "learning_rate": 4.060736842105263e-05,
+      "loss": 1.006,
+      "step": 123
+    },
+    {
+      "epoch": 0.02025151069737057,
+      "grad_norm": 0.9303942918777466,
+      "learning_rate": 4.008e-05,
+      "loss": 0.9787,
+      "step": 124
+    },
+    {
+      "epoch": 0.020414829332026783,
+      "grad_norm": 1.0351006984710693,
+      "learning_rate": 3.955263157894737e-05,
+      "loss": 1.1954,
+      "step": 125
+    },
+    {
+      "epoch": 0.020578147966683,
+      "grad_norm": 0.9931172728538513,
+      "learning_rate": 3.9025263157894733e-05,
+      "loss": 0.9572,
+      "step": 126
+    },
+    {
+      "epoch": 0.02074146660133921,
+      "grad_norm": 1.0373263359069824,
+      "learning_rate": 3.84978947368421e-05,
+      "loss": 0.9803,
+      "step": 127
+    },
+    {
+      "epoch": 0.020904785235995427,
+      "grad_norm": 1.018931269645691,
+      "learning_rate": 3.797052631578947e-05,
+      "loss": 0.69,
+      "step": 128
+    },
+    {
+      "epoch": 0.021068103870651642,
+      "grad_norm": 1.324196696281433,
+      "learning_rate": 3.744315789473684e-05,
+      "loss": 1.0059,
+      "step": 129
+    },
+    {
+      "epoch": 0.021231422505307854,
+      "grad_norm": 1.19536554813385,
+      "learning_rate": 3.691578947368421e-05,
+      "loss": 0.9141,
+      "step": 130
+    },
+    {
+      "epoch": 0.02139474113996407,
+      "grad_norm": 1.2916719913482666,
+      "learning_rate": 3.638842105263158e-05,
+      "loss": 1.0181,
+      "step": 131
+    },
+    {
+      "epoch": 0.021558059774620286,
+      "grad_norm": 1.313924789428711,
+      "learning_rate": 3.5861052631578946e-05,
+      "loss": 1.0114,
+      "step": 132
+    },
+    {
+      "epoch": 0.021721378409276498,
+      "grad_norm": 1.6728382110595703,
+      "learning_rate": 3.533368421052631e-05,
+      "loss": 1.151,
+      "step": 133
+    },
+    {
+      "epoch": 0.021884697043932713,
+      "grad_norm": 1.9813265800476074,
+      "learning_rate": 3.4806315789473684e-05,
+      "loss": 1.209,
+      "step": 134
+    },
+    {
+      "epoch": 0.022048015678588925,
+      "grad_norm": 2.619920015335083,
+      "learning_rate": 3.427894736842105e-05,
+      "loss": 1.4013,
+      "step": 135
+    },
+    {
+      "epoch": 0.02221133431324514,
+      "grad_norm": 3.543386936187744,
+      "learning_rate": 3.375157894736842e-05,
+      "loss": 1.2687,
+      "step": 136
+    },
+    {
+      "epoch": 0.022374652947901356,
+      "grad_norm": 2.107569932937622,
+      "learning_rate": 3.322421052631579e-05,
+      "loss": 1.1479,
+      "step": 137
+    },
+    {
+      "epoch": 0.02253797158255757,
+      "grad_norm": 2.548245429992676,
+      "learning_rate": 3.269684210526316e-05,
+      "loss": 1.1627,
+      "step": 138
+    },
+    {
+      "epoch": 0.022701290217213784,
+      "grad_norm": 3.172882556915283,
+      "learning_rate": 3.2169473684210525e-05,
+      "loss": 1.4478,
+      "step": 139
+    },
+    {
+      "epoch": 0.02286460885187,
+      "grad_norm": 3.1833114624023438,
+      "learning_rate": 3.164210526315789e-05,
+      "loss": 1.4387,
+      "step": 140
+    },
+    {
+      "epoch": 0.023027927486526212,
+      "grad_norm": 3.0594396591186523,
+      "learning_rate": 3.111473684210526e-05,
+      "loss": 0.975,
+      "step": 141
+    },
+    {
+      "epoch": 0.023191246121182427,
+      "grad_norm": 3.2839081287384033,
+      "learning_rate": 3.058736842105263e-05,
+      "loss": 1.3071,
+      "step": 142
+    },
+    {
+      "epoch": 0.02335456475583864,
+      "grad_norm": 4.123104095458984,
+      "learning_rate": 3.0059999999999997e-05,
+      "loss": 1.6883,
+      "step": 143
+    },
+    {
+      "epoch": 0.023517883390494855,
+      "grad_norm": 3.278013229370117,
+      "learning_rate": 2.9532631578947366e-05,
+      "loss": 1.5988,
+      "step": 144
+    },
+    {
+      "epoch": 0.02368120202515107,
+      "grad_norm": 2.856154680252075,
+      "learning_rate": 2.9005263157894738e-05,
+      "loss": 0.9376,
+      "step": 145
+    },
+    {
+      "epoch": 0.023844520659807283,
+      "grad_norm": 3.468996524810791,
+      "learning_rate": 2.8477894736842103e-05,
+      "loss": 1.8904,
+      "step": 146
+    },
+    {
+      "epoch": 0.0240078392944635,
+      "grad_norm": 3.6459338665008545,
+      "learning_rate": 2.7950526315789472e-05,
+      "loss": 1.1922,
+      "step": 147
+    },
+    {
+      "epoch": 0.024171157929119714,
+      "grad_norm": 4.6464948654174805,
+      "learning_rate": 2.7423157894736844e-05,
+      "loss": 2.2418,
+      "step": 148
+    },
+    {
+      "epoch": 0.024334476563775926,
+      "grad_norm": 6.070025444030762,
+      "learning_rate": 2.689578947368421e-05,
+      "loss": 2.1127,
+      "step": 149
+    },
+    {
+      "epoch": 0.02449779519843214,
+      "grad_norm": 11.722772598266602,
+      "learning_rate": 2.6368421052631575e-05,
+      "loss": 2.0128,
+      "step": 150
+    },
+    {
+      "epoch": 0.02449779519843214,
+      "eval_loss": 1.1496460437774658,
+      "eval_runtime": 344.5868,
+      "eval_samples_per_second": 7.481,
+      "eval_steps_per_second": 1.872,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.49867241151529e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null