Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a1b26be33253ad0a66ee5d25b8f9a2d25786b2b02e44283b3f4858c74918498
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:513d1d001e44abbb11bad16b9d54f3736bb27c4130e0788ca51fd9c10438e975
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34b6e58541ad0d0a61f2edc7efde332154dc6f3545e03394635737552df4fecb
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc7521782a5874a8c21ae024658e0c02f59d66f7eb9a3acad546da3fddd692a3
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a8366215dffbd63174077be1231ee70e87f021ffca8910618e93d26b5e4c45c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd02c6bfecd03b67f7114f8aadb9346cf17a57d8ec1cb14f3f019d44fd417cd5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99ca67f9a35cd1c50df3d93bedf5a6642db2c7847c021a0a8d3f44c1bf4993d3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2262212038040161,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.13582342954159593,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 16.349,
       "eval_steps_per_second": 4.087,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.054998217156198e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1833840608596802,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.2037351443123939,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.349,
       "eval_steps_per_second": 4.087,
       "step": 100
+    },
+    {
+      "epoch": 0.13718166383701189,
+      "grad_norm": 0.5559870600700378,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.2997,
+      "step": 101
+    },
+    {
+      "epoch": 0.13853989813242784,
+      "grad_norm": 0.4555906057357788,
+      "learning_rate": 8.688653405904652e-05,
+      "loss": 1.301,
+      "step": 102
+    },
+    {
+      "epoch": 0.1398981324278438,
+      "grad_norm": 0.31413426995277405,
+      "learning_rate": 8.661343332988869e-05,
+      "loss": 1.2188,
+      "step": 103
+    },
+    {
+      "epoch": 0.14125636672325975,
+      "grad_norm": 0.2615854740142822,
+      "learning_rate": 8.633795680751116e-05,
+      "loss": 1.1284,
+      "step": 104
+    },
+    {
+      "epoch": 0.14261460101867574,
+      "grad_norm": 0.2208709567785263,
+      "learning_rate": 8.606012236719073e-05,
+      "loss": 1.2063,
+      "step": 105
+    },
+    {
+      "epoch": 0.1439728353140917,
+      "grad_norm": 0.20494621992111206,
+      "learning_rate": 8.577994803720606e-05,
+      "loss": 1.2157,
+      "step": 106
+    },
+    {
+      "epoch": 0.14533106960950765,
+      "grad_norm": 0.2158403843641281,
+      "learning_rate": 8.549745199766792e-05,
+      "loss": 1.1396,
+      "step": 107
+    },
+    {
+      "epoch": 0.1466893039049236,
+      "grad_norm": 0.22656506299972534,
+      "learning_rate": 8.521265257933948e-05,
+      "loss": 1.1591,
+      "step": 108
+    },
+    {
+      "epoch": 0.14804753820033956,
+      "grad_norm": 0.23627708852291107,
+      "learning_rate": 8.492556826244687e-05,
+      "loss": 1.1998,
+      "step": 109
+    },
+    {
+      "epoch": 0.1494057724957555,
+      "grad_norm": 0.23139552772045135,
+      "learning_rate": 8.463621767547998e-05,
+      "loss": 1.2165,
+      "step": 110
+    },
+    {
+      "epoch": 0.15076400679117147,
+      "grad_norm": 0.237015500664711,
+      "learning_rate": 8.434461959398376e-05,
+      "loss": 1.1609,
+      "step": 111
+    },
+    {
+      "epoch": 0.15212224108658742,
+      "grad_norm": 0.2324032187461853,
+      "learning_rate": 8.405079293933986e-05,
+      "loss": 1.2107,
+      "step": 112
+    },
+    {
+      "epoch": 0.1534804753820034,
+      "grad_norm": 0.22056780755519867,
+      "learning_rate": 8.375475677753881e-05,
+      "loss": 1.1398,
+      "step": 113
+    },
+    {
+      "epoch": 0.15483870967741936,
+      "grad_norm": 0.21998582780361176,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.1788,
+      "step": 114
+    },
+    {
+      "epoch": 0.15619694397283532,
+      "grad_norm": 0.220359206199646,
+      "learning_rate": 8.315613291203976e-05,
+      "loss": 1.2086,
+      "step": 115
+    },
+    {
+      "epoch": 0.15755517826825127,
+      "grad_norm": 0.2111772894859314,
+      "learning_rate": 8.285358405218655e-05,
+      "loss": 1.1961,
+      "step": 116
+    },
+    {
+      "epoch": 0.15891341256366723,
+      "grad_norm": 0.21595050394535065,
+      "learning_rate": 8.25489033703452e-05,
+      "loss": 1.2173,
+      "step": 117
+    },
+    {
+      "epoch": 0.16027164685908318,
+      "grad_norm": 0.22538748383522034,
+      "learning_rate": 8.224211063680853e-05,
+      "loss": 1.1223,
+      "step": 118
+    },
+    {
+      "epoch": 0.16162988115449914,
+      "grad_norm": 0.22196736931800842,
+      "learning_rate": 8.19332257589174e-05,
+      "loss": 1.1796,
+      "step": 119
+    },
+    {
+      "epoch": 0.16298811544991512,
+      "grad_norm": 0.22292838990688324,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 1.1198,
+      "step": 120
+    },
+    {
+      "epoch": 0.16434634974533108,
+      "grad_norm": 0.22580811381340027,
+      "learning_rate": 8.130925987691569e-05,
+      "loss": 1.1997,
+      "step": 121
+    },
+    {
+      "epoch": 0.16570458404074703,
+      "grad_norm": 0.22446706891059875,
+      "learning_rate": 8.099421936105702e-05,
+      "loss": 1.0938,
+      "step": 122
+    },
+    {
+      "epoch": 0.167062818336163,
+      "grad_norm": 0.24063196778297424,
+      "learning_rate": 8.067716767472045e-05,
+      "loss": 1.272,
+      "step": 123
+    },
+    {
+      "epoch": 0.16842105263157894,
+      "grad_norm": 0.2342248260974884,
+      "learning_rate": 8.035812539093557e-05,
+      "loss": 1.1282,
+      "step": 124
+    },
+    {
+      "epoch": 0.1697792869269949,
+      "grad_norm": 0.23322924971580505,
+      "learning_rate": 8.003711321189895e-05,
+      "loss": 1.1774,
+      "step": 125
+    },
+    {
+      "epoch": 0.17113752122241085,
+      "grad_norm": 0.227143794298172,
+      "learning_rate": 7.971415196763088e-05,
+      "loss": 1.1614,
+      "step": 126
+    },
+    {
+      "epoch": 0.17249575551782684,
+      "grad_norm": 0.2375260442495346,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.0878,
+      "step": 127
+    },
+    {
+      "epoch": 0.1738539898132428,
+      "grad_norm": 0.23172912001609802,
+      "learning_rate": 7.906246623448183e-05,
+      "loss": 1.114,
+      "step": 128
+    },
+    {
+      "epoch": 0.17521222410865875,
+      "grad_norm": 0.2283349484205246,
+      "learning_rate": 7.873378403255419e-05,
+      "loss": 1.1243,
+      "step": 129
+    },
+    {
+      "epoch": 0.1765704584040747,
+      "grad_norm": 0.22897659242153168,
+      "learning_rate": 7.840323733655778e-05,
+      "loss": 1.1494,
+      "step": 130
+    },
+    {
+      "epoch": 0.17792869269949066,
+      "grad_norm": 0.2336939573287964,
+      "learning_rate": 7.807084759519405e-05,
+      "loss": 1.2519,
+      "step": 131
+    },
+    {
+      "epoch": 0.17928692699490661,
+      "grad_norm": 0.23826266825199127,
+      "learning_rate": 7.773663637675694e-05,
+      "loss": 1.1086,
+      "step": 132
+    },
+    {
+      "epoch": 0.18064516129032257,
+      "grad_norm": 0.2425377517938614,
+      "learning_rate": 7.740062536773352e-05,
+      "loss": 1.1654,
+      "step": 133
+    },
+    {
+      "epoch": 0.18200339558573855,
+      "grad_norm": 0.2372315227985382,
+      "learning_rate": 7.706283637139658e-05,
+      "loss": 1.1962,
+      "step": 134
+    },
+    {
+      "epoch": 0.1833616298811545,
+      "grad_norm": 0.24342741072177887,
+      "learning_rate": 7.672329130639005e-05,
+      "loss": 1.1181,
+      "step": 135
+    },
+    {
+      "epoch": 0.18471986417657046,
+      "grad_norm": 0.2434910535812378,
+      "learning_rate": 7.638201220530665e-05,
+      "loss": 1.2285,
+      "step": 136
+    },
+    {
+      "epoch": 0.18607809847198642,
+      "grad_norm": 0.24890004098415375,
+      "learning_rate": 7.603902121325813e-05,
+      "loss": 1.1714,
+      "step": 137
+    },
+    {
+      "epoch": 0.18743633276740237,
+      "grad_norm": 0.25163108110427856,
+      "learning_rate": 7.569434058643844e-05,
+      "loss": 1.1956,
+      "step": 138
+    },
+    {
+      "epoch": 0.18879456706281833,
+      "grad_norm": 0.24931834638118744,
+      "learning_rate": 7.534799269067953e-05,
+      "loss": 1.1483,
+      "step": 139
+    },
+    {
+      "epoch": 0.19015280135823429,
+      "grad_norm": 0.25025516748428345,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.2085,
+      "step": 140
+    },
+    {
+      "epoch": 0.19151103565365024,
+      "grad_norm": 0.2583712339401245,
+      "learning_rate": 7.465038509514688e-05,
+      "loss": 1.2139,
+      "step": 141
+    },
+    {
+      "epoch": 0.19286926994906622,
+      "grad_norm": 0.26586151123046875,
+      "learning_rate": 7.42991706621303e-05,
+      "loss": 1.2006,
+      "step": 142
+    },
+    {
+      "epoch": 0.19422750424448218,
+      "grad_norm": 0.2643159031867981,
+      "learning_rate": 7.394637949075154e-05,
+      "loss": 1.1739,
+      "step": 143
+    },
+    {
+      "epoch": 0.19558573853989814,
+      "grad_norm": 0.2751873731613159,
+      "learning_rate": 7.35920344731241e-05,
+      "loss": 1.2109,
+      "step": 144
+    },
+    {
+      "epoch": 0.1969439728353141,
+      "grad_norm": 0.2727619707584381,
+      "learning_rate": 7.323615860218843e-05,
+      "loss": 1.1851,
+      "step": 145
+    },
+    {
+      "epoch": 0.19830220713073005,
+      "grad_norm": 0.2831723690032959,
+      "learning_rate": 7.287877497021978e-05,
+      "loss": 1.1864,
+      "step": 146
+    },
+    {
+      "epoch": 0.199660441426146,
+      "grad_norm": 0.28427502512931824,
+      "learning_rate": 7.251990676732984e-05,
+      "loss": 1.1347,
+      "step": 147
+    },
+    {
+      "epoch": 0.20101867572156196,
+      "grad_norm": 0.2935657203197479,
+      "learning_rate": 7.215957727996207e-05,
+      "loss": 1.1435,
+      "step": 148
+    },
+    {
+      "epoch": 0.20237691001697794,
+      "grad_norm": 0.3436415195465088,
+      "learning_rate": 7.179780988938051e-05,
+      "loss": 1.182,
+      "step": 149
+    },
+    {
+      "epoch": 0.2037351443123939,
+      "grad_norm": 0.41627824306488037,
+      "learning_rate": 7.143462807015271e-05,
+      "loss": 1.2069,
+      "step": 150
+    },
+    {
+      "epoch": 0.2037351443123939,
+      "eval_loss": 1.1833840608596802,
+      "eval_runtime": 75.9037,
+      "eval_samples_per_second": 16.336,
+      "eval_steps_per_second": 4.084,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2025166377569485e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null