Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e98625fa07e5159b732af9abe6fff10445a981fcae38e0eebb54d7a1ebaf31f
 size 34456

 version https://git-lfs.github.com/spec/v1
+oid sha256:eacb023ee027f37eb55b82d02e7ad2a7ce049aa825f957e11d499c241376e9b5
 size 34456

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:784ca97bb2b9321d5b1c150806a266949c365f144cabc1c59b8cb28e2239be33
 size 73222

 version https://git-lfs.github.com/spec/v1
+oid sha256:51693d3374acef6a73010cb0191275ced4b9272c1140b405bbbe7e11f4eebe4a
 size 73222

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abfe66f3711757d673995b179b22080d9bf3bebddfed0b3159a1f00a4ee0eec8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f11e323629e18414ec346af72baca7807ab7a3d0efec665a7c68c592061f99dc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 11.5,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.45662100456621,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 216.083,
       "eval_steps_per_second": 54.46,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 16079231385600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 11.5,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.684931506849315,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 216.083,
       "eval_steps_per_second": 54.46,
       "step": 100
+    },
+    {
+      "epoch": 0.4611872146118721,
+      "grad_norm": 0.0014500936958938837,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 46.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.4657534246575342,
+      "grad_norm": 0.0014002949465066195,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 46.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.4703196347031963,
+      "grad_norm": 0.0009699417278170586,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 46.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.4748858447488584,
+      "grad_norm": 0.0013404141645878553,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 46.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.4794520547945205,
+      "grad_norm": 0.0015185195952653885,
+      "learning_rate": 5e-05,
+      "loss": 46.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.4840182648401826,
+      "grad_norm": 0.001360392547212541,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 46.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.4885844748858447,
+      "grad_norm": 0.001464304281398654,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 46.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.4931506849315068,
+      "grad_norm": 0.0009369823383167386,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 46.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.4977168949771689,
+      "grad_norm": 0.0014500489924103022,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 46.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.502283105022831,
+      "grad_norm": 0.0014195971889421344,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 46.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.5068493150684932,
+      "grad_norm": 0.0018670175923034549,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 46.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.5114155251141552,
+      "grad_norm": 0.001287768012844026,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 46.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.5159817351598174,
+      "grad_norm": 0.0017072766786441207,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 46.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.5205479452054794,
+      "grad_norm": 0.0011038357624784112,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 46.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.5251141552511416,
+      "grad_norm": 0.0012206078972667456,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 46.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.5296803652968036,
+      "grad_norm": 0.001325500663369894,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 46.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.5342465753424658,
+      "grad_norm": 0.0011963339056819677,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 46.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.5388127853881278,
+      "grad_norm": 0.0009945783531293273,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 46.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.54337899543379,
+      "grad_norm": 0.001450317446142435,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 46.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.547945205479452,
+      "grad_norm": 0.0014639784349128604,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 46.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.5525114155251142,
+      "grad_norm": 0.0016674039652571082,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 46.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.5570776255707762,
+      "grad_norm": 0.0020793962758034468,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 46.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.5616438356164384,
+      "grad_norm": 0.0017572134966030717,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 46.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.5662100456621004,
+      "grad_norm": 0.0015898656565696,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 46.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.5707762557077626,
+      "grad_norm": 0.001961340196430683,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 46.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.5753424657534246,
+      "grad_norm": 0.002123582176864147,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 46.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.5799086757990868,
+      "grad_norm": 0.0020262168254703283,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 46.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.5844748858447488,
+      "grad_norm": 0.0023057563230395317,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 46.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.589041095890411,
+      "grad_norm": 0.001970941200852394,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 46.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.593607305936073,
+      "grad_norm": 0.002050324808806181,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 46.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.5981735159817352,
+      "grad_norm": 0.0017851332668215036,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 46.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.6027397260273972,
+      "grad_norm": 0.001867492450401187,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 46.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.6073059360730594,
+      "grad_norm": 0.0016265306621789932,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 46.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.6118721461187214,
+      "grad_norm": 0.0017844386165961623,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 46.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.6164383561643836,
+      "grad_norm": 0.0017082340782508254,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 46.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.6210045662100456,
+      "grad_norm": 0.00177926872856915,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 46.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.6255707762557078,
+      "grad_norm": 0.001892471220344305,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 46.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.6301369863013698,
+      "grad_norm": 0.0014578645350411534,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 46.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.634703196347032,
+      "grad_norm": 0.0015341169200837612,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 46.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.639269406392694,
+      "grad_norm": 0.0018951654201373458,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 46.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.6438356164383562,
+      "grad_norm": 0.002451182110235095,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 46.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.6484018264840182,
+      "grad_norm": 0.002457164693623781,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 46.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.6529680365296804,
+      "grad_norm": 0.0017090312903746963,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 46.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.6575342465753424,
+      "grad_norm": 0.0014328347751870751,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 46.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.6621004566210046,
+      "grad_norm": 0.0013272932264953852,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 46.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.0027778535149991512,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 46.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.6712328767123288,
+      "grad_norm": 0.0015913653187453747,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 46.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.6757990867579908,
+      "grad_norm": 0.001617411500774324,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 46.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.680365296803653,
+      "grad_norm": 0.0024313435424119234,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 46.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.684931506849315,
+      "grad_norm": 0.002255316125229001,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 46.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.684931506849315,
+      "eval_loss": 11.5,
+      "eval_runtime": 1.7141,
+      "eval_samples_per_second": 215.275,
+      "eval_steps_per_second": 54.256,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 24118847078400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null