Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68a258ec929d9218770e1f86fd3f1de785918e5b52a2e2c30529f74998eaa2aa
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec6c70d02926ceaad335a0100cf74749c51b9965734af9abb176fc361ef43d16
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2e1ef4ae464844442d88115251951165c07376033477b3523521d128587207a
 size 102864548

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a94c48d26b881d79abd3097469e8f5783eefc08a8dea05c6c89d1da2fb16137
 size 102864548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:212dcba99a7b1ae77770a31ef6779f7d223c41005e87ffc275e7c8bccb2d4cfd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2e43872645f9f101ee403b5a709d668383b6b6bfeb7f368e5762a1069266f6e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87acae65691e01ffbaf4c13ce5265904843d2731d4c47c0eed57fce5257b0710
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c9bd7e4942c5b62a922cd992f05c7b79b177cefa5f8b5cc986083011c9c9245
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8714919686317444,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 1.556420233463035,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 41.446,
       "eval_steps_per_second": 10.362,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.581108901491507e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8657492399215698,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 2.3346303501945527,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.446,
       "eval_steps_per_second": 10.362,
       "step": 100
+    },
+    {
+      "epoch": 1.5719844357976653,
+      "grad_norm": 0.3435685634613037,
+      "learning_rate": 5.0429174054104355e-05,
+      "loss": 0.8486,
+      "step": 101
+    },
+    {
+      "epoch": 1.5875486381322959,
+      "grad_norm": 0.3485165536403656,
+      "learning_rate": 4.9570825945895656e-05,
+      "loss": 0.8179,
+      "step": 102
+    },
+    {
+      "epoch": 1.6031128404669261,
+      "grad_norm": 0.3704763352870941,
+      "learning_rate": 4.8712604317250576e-05,
+      "loss": 0.9108,
+      "step": 103
+    },
+    {
+      "epoch": 1.6186770428015564,
+      "grad_norm": 0.33625274896621704,
+      "learning_rate": 4.785476209002227e-05,
+      "loss": 0.8262,
+      "step": 104
+    },
+    {
+      "epoch": 1.6342412451361867,
+      "grad_norm": 0.3515668511390686,
+      "learning_rate": 4.699755207425259e-05,
+      "loss": 0.8336,
+      "step": 105
+    },
+    {
+      "epoch": 1.649805447470817,
+      "grad_norm": 0.3408714830875397,
+      "learning_rate": 4.6141226893667684e-05,
+      "loss": 0.714,
+      "step": 106
+    },
+    {
+      "epoch": 1.6653696498054473,
+      "grad_norm": 0.36845165491104126,
+      "learning_rate": 4.5286038911228785e-05,
+      "loss": 0.8147,
+      "step": 107
+    },
+    {
+      "epoch": 1.6809338521400778,
+      "grad_norm": 0.3738980293273926,
+      "learning_rate": 4.443224015475956e-05,
+      "loss": 0.8297,
+      "step": 108
+    },
+    {
+      "epoch": 1.6964980544747081,
+      "grad_norm": 0.38755711913108826,
+      "learning_rate": 4.358008224267245e-05,
+      "loss": 0.8268,
+      "step": 109
+    },
+    {
+      "epoch": 1.7120622568093387,
+      "grad_norm": 0.367796927690506,
+      "learning_rate": 4.272981630981551e-05,
+      "loss": 0.7379,
+      "step": 110
+    },
+    {
+      "epoch": 1.727626459143969,
+      "grad_norm": 0.3794459104537964,
+      "learning_rate": 4.188169293346183e-05,
+      "loss": 0.7374,
+      "step": 111
+    },
+    {
+      "epoch": 1.7431906614785992,
+      "grad_norm": 0.4307495653629303,
+      "learning_rate": 4.103596205946323e-05,
+      "loss": 0.7783,
+      "step": 112
+    },
+    {
+      "epoch": 1.7587548638132295,
+      "grad_norm": 0.3288561701774597,
+      "learning_rate": 4.019287292859016e-05,
+      "loss": 0.8254,
+      "step": 113
+    },
+    {
+      "epoch": 1.7743190661478598,
+      "grad_norm": 0.3198075592517853,
+      "learning_rate": 3.9352674003079225e-05,
+      "loss": 0.8722,
+      "step": 114
+    },
+    {
+      "epoch": 1.7898832684824901,
+      "grad_norm": 0.3411862850189209,
+      "learning_rate": 3.851561289341023e-05,
+      "loss": 0.8044,
+      "step": 115
+    },
+    {
+      "epoch": 1.8054474708171206,
+      "grad_norm": 0.33337950706481934,
+      "learning_rate": 3.768193628533427e-05,
+      "loss": 0.7877,
+      "step": 116
+    },
+    {
+      "epoch": 1.821011673151751,
+      "grad_norm": 0.34444868564605713,
+      "learning_rate": 3.6851889867174275e-05,
+      "loss": 0.8396,
+      "step": 117
+    },
+    {
+      "epoch": 1.8365758754863815,
+      "grad_norm": 0.35829517245292664,
+      "learning_rate": 3.602571825741953e-05,
+      "loss": 0.7998,
+      "step": 118
+    },
+    {
+      "epoch": 1.8521400778210118,
+      "grad_norm": 0.33558353781700134,
+      "learning_rate": 3.520366493263554e-05,
+      "loss": 0.7706,
+      "step": 119
+    },
+    {
+      "epoch": 1.867704280155642,
+      "grad_norm": 0.3696330487728119,
+      "learning_rate": 3.438597215571027e-05,
+      "loss": 0.9026,
+      "step": 120
+    },
+    {
+      "epoch": 1.8832684824902723,
+      "grad_norm": 0.34265345335006714,
+      "learning_rate": 3.357288090445827e-05,
+      "loss": 0.8013,
+      "step": 121
+    },
+    {
+      "epoch": 1.8988326848249026,
+      "grad_norm": 0.3573516309261322,
+      "learning_rate": 3.2764630800603314e-05,
+      "loss": 0.8148,
+      "step": 122
+    },
+    {
+      "epoch": 1.914396887159533,
+      "grad_norm": 0.36973556876182556,
+      "learning_rate": 3.196146003916084e-05,
+      "loss": 0.7784,
+      "step": 123
+    },
+    {
+      "epoch": 1.9299610894941635,
+      "grad_norm": 0.37476617097854614,
+      "learning_rate": 3.116360531824074e-05,
+      "loss": 0.8075,
+      "step": 124
+    },
+    {
+      "epoch": 1.9455252918287937,
+      "grad_norm": 0.36869266629219055,
+      "learning_rate": 3.0371301769291417e-05,
+      "loss": 0.7631,
+      "step": 125
+    },
+    {
+      "epoch": 1.9610894941634243,
+      "grad_norm": 0.38179001212120056,
+      "learning_rate": 2.9584782887805328e-05,
+      "loss": 0.7691,
+      "step": 126
+    },
+    {
+      "epoch": 1.9766536964980546,
+      "grad_norm": 0.4227118492126465,
+      "learning_rate": 2.8804280464506973e-05,
+      "loss": 0.7856,
+      "step": 127
+    },
+    {
+      "epoch": 1.9922178988326849,
+      "grad_norm": 0.46422451734542847,
+      "learning_rate": 2.8030024517042907e-05,
+      "loss": 0.8267,
+      "step": 128
+    },
+    {
+      "epoch": 2.007782101167315,
+      "grad_norm": 1.0904223918914795,
+      "learning_rate": 2.726224322219473e-05,
+      "loss": 1.539,
+      "step": 129
+    },
+    {
+      "epoch": 2.0233463035019454,
+      "grad_norm": 0.2821767330169678,
+      "learning_rate": 2.650116284863402e-05,
+      "loss": 0.6871,
+      "step": 130
+    },
+    {
+      "epoch": 2.0389105058365757,
+      "grad_norm": 0.3239165246486664,
+      "learning_rate": 2.5747007690240198e-05,
+      "loss": 0.8398,
+      "step": 131
+    },
+    {
+      "epoch": 2.054474708171206,
+      "grad_norm": 0.33111441135406494,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.8076,
+      "step": 132
+    },
+    {
+      "epoch": 2.0700389105058368,
+      "grad_norm": 0.36252424120903015,
+      "learning_rate": 2.426035992450848e-05,
+      "loss": 0.8682,
+      "step": 133
+    },
+    {
+      "epoch": 2.085603112840467,
+      "grad_norm": 0.3458457589149475,
+      "learning_rate": 2.3528305439090743e-05,
+      "loss": 0.7667,
+      "step": 134
+    },
+    {
+      "epoch": 2.1011673151750974,
+      "grad_norm": 0.3382876217365265,
+      "learning_rate": 2.280405228356377e-05,
+      "loss": 0.7525,
+      "step": 135
+    },
+    {
+      "epoch": 2.1167315175097277,
+      "grad_norm": 0.34494414925575256,
+      "learning_rate": 2.2087813898656774e-05,
+      "loss": 0.7819,
+      "step": 136
+    },
+    {
+      "epoch": 2.132295719844358,
+      "grad_norm": 0.3596420884132385,
+      "learning_rate": 2.137980136310926e-05,
+      "loss": 0.7824,
+      "step": 137
+    },
+    {
+      "epoch": 2.1478599221789882,
+      "grad_norm": 0.35264426469802856,
+      "learning_rate": 2.068022333146522e-05,
+      "loss": 0.7032,
+      "step": 138
+    },
+    {
+      "epoch": 2.1634241245136185,
+      "grad_norm": 0.3882901072502136,
+      "learning_rate": 1.9989285972581595e-05,
+      "loss": 0.826,
+      "step": 139
+    },
+    {
+      "epoch": 2.178988326848249,
+      "grad_norm": 0.38036638498306274,
+      "learning_rate": 1.9307192908869397e-05,
+      "loss": 0.7353,
+      "step": 140
+    },
+    {
+      "epoch": 2.1945525291828796,
+      "grad_norm": 0.3903452157974243,
+      "learning_rate": 1.863414515628531e-05,
+      "loss": 0.712,
+      "step": 141
+    },
+    {
+      "epoch": 2.21011673151751,
+      "grad_norm": 0.4027177095413208,
+      "learning_rate": 1.7970341065091245e-05,
+      "loss": 0.7076,
+      "step": 142
+    },
+    {
+      "epoch": 2.22568093385214,
+      "grad_norm": 0.4014608561992645,
+      "learning_rate": 1.7315976261399696e-05,
+      "loss": 0.6695,
+      "step": 143
+    },
+    {
+      "epoch": 2.2412451361867705,
+      "grad_norm": 0.43404000997543335,
+      "learning_rate": 1.667124358952184e-05,
+      "loss": 0.7546,
+      "step": 144
+    },
+    {
+      "epoch": 2.2568093385214008,
+      "grad_norm": 0.37586840987205505,
+      "learning_rate": 1.6036333055135344e-05,
+      "loss": 0.6992,
+      "step": 145
+    },
+    {
+      "epoch": 2.272373540856031,
+      "grad_norm": 0.34168022871017456,
+      "learning_rate": 1.541143176928891e-05,
+      "loss": 0.8211,
+      "step": 146
+    },
+    {
+      "epoch": 2.2879377431906613,
+      "grad_norm": 0.33489376306533813,
+      "learning_rate": 1.4796723893259712e-05,
+      "loss": 0.7855,
+      "step": 147
+    },
+    {
+      "epoch": 2.3035019455252916,
+      "grad_norm": 0.3305031359195709,
+      "learning_rate": 1.4192390584280346e-05,
+      "loss": 0.6823,
+      "step": 148
+    },
+    {
+      "epoch": 2.319066147859922,
+      "grad_norm": 0.3635585606098175,
+      "learning_rate": 1.3598609942150765e-05,
+      "loss": 0.7662,
+      "step": 149
+    },
+    {
+      "epoch": 2.3346303501945527,
+      "grad_norm": 0.34550437331199646,
+      "learning_rate": 1.3015556956751669e-05,
+      "loss": 0.7758,
+      "step": 150
+    },
+    {
+      "epoch": 2.3346303501945527,
+      "eval_loss": 0.8657492399215698,
+      "eval_runtime": 2.6057,
+      "eval_samples_per_second": 41.447,
+      "eval_steps_per_second": 10.362,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.829000395187814e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null