Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5baaa3e55613e98b43f99d3fbbf46bb4df7aff5930c32a4aa176a54b268528ff
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dc93d1f13a2a8f1f8245507fcd8ae394247e580c6c16202925f7c687618353f
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ddb6206168f55daf70cc2a5467f9a509e509b5e2c0c34e4ebcbb3506640848c
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:d01f81e1868393f25da4f8e8af72b4bc3a18d778bfb7e2c18ea0c612eeebb645
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e38b43bb216852b411c1d270f1be8fb468fb40b1ffedbc6087e027f8c704135f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:04e377c8bc5e1c0c621fd1ae7bf7a34353c940aacfa57010c4d302185068e55c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fc7800513a1b4dd006c457152c700dd768bb49ee4ed8e4d9665a4e42095b054
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd5d42bb0afda20ec4c83d38c6af1131541c335ecab229c74e7f418894f3c13b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.14732965009208104,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 30.367,
       "eval_steps_per_second": 15.183,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -750,7 +1108,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6368929882505216e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.22099447513812154,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.367,
       "eval_steps_per_second": 15.183,
       "step": 100
+    },
+    {
+      "epoch": 0.14880294659300183,
+      "grad_norm": 7.7546186447143555,
+      "learning_rate": 0.00010660905843256994,
+      "loss": 7.1284,
+      "step": 101
+    },
+    {
+      "epoch": 0.15027624309392265,
+      "grad_norm": 8.040283203125,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 7.7712,
+      "step": 102
+    },
+    {
+      "epoch": 0.15174953959484347,
+      "grad_norm": 5.6713547706604,
+      "learning_rate": 0.00010330633693173082,
+      "loss": 5.3149,
+      "step": 103
+    },
+    {
+      "epoch": 0.15322283609576426,
+      "grad_norm": 7.573396682739258,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 8.7858,
+      "step": 104
+    },
+    {
+      "epoch": 0.15469613259668508,
+      "grad_norm": 9.673140525817871,
+      "learning_rate": 0.0001,
+      "loss": 7.4904,
+      "step": 105
+    },
+    {
+      "epoch": 0.1561694290976059,
+      "grad_norm": 13.609859466552734,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 9.5067,
+      "step": 106
+    },
+    {
+      "epoch": 0.1576427255985267,
+      "grad_norm": 9.656366348266602,
+      "learning_rate": 9.669366306826919e-05,
+      "loss": 10.8401,
+      "step": 107
+    },
+    {
+      "epoch": 0.1591160220994475,
+      "grad_norm": 12.622513771057129,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 7.4235,
+      "step": 108
+    },
+    {
+      "epoch": 0.16058931860036832,
+      "grad_norm": 6.947592258453369,
+      "learning_rate": 9.339094156743007e-05,
+      "loss": 8.8876,
+      "step": 109
+    },
+    {
+      "epoch": 0.16206261510128914,
+      "grad_norm": 7.011374473571777,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 5.4014,
+      "step": 110
+    },
+    {
+      "epoch": 0.16353591160220995,
+      "grad_norm": 4.517526626586914,
+      "learning_rate": 9.009544697495374e-05,
+      "loss": 5.814,
+      "step": 111
+    },
+    {
+      "epoch": 0.16500920810313074,
+      "grad_norm": 6.089804172515869,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 6.8508,
+      "step": 112
+    },
+    {
+      "epoch": 0.16648250460405156,
+      "grad_norm": 10.510293006896973,
+      "learning_rate": 8.681078286579311e-05,
+      "loss": 9.7658,
+      "step": 113
+    },
+    {
+      "epoch": 0.16795580110497238,
+      "grad_norm": 9.174927711486816,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 7.1456,
+      "step": 114
+    },
+    {
+      "epoch": 0.1694290976058932,
+      "grad_norm": 7.33340311050415,
+      "learning_rate": 8.35405409719266e-05,
+      "loss": 6.902,
+      "step": 115
+    },
+    {
+      "epoch": 0.170902394106814,
+      "grad_norm": 6.4531779289245605,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 6.6226,
+      "step": 116
+    },
+    {
+      "epoch": 0.1723756906077348,
+      "grad_norm": 9.962913513183594,
+      "learning_rate": 8.028829725485199e-05,
+      "loss": 9.6444,
+      "step": 117
+    },
+    {
+      "epoch": 0.17384898710865562,
+      "grad_norm": 5.590907573699951,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 7.2986,
+      "step": 118
+    },
+    {
+      "epoch": 0.17532228360957644,
+      "grad_norm": 10.6129150390625,
+      "learning_rate": 7.705760799532485e-05,
+      "loss": 7.5536,
+      "step": 119
+    },
+    {
+      "epoch": 0.17679558011049723,
+      "grad_norm": 14.160097122192383,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 12.2425,
+      "step": 120
+    },
+    {
+      "epoch": 0.17826887661141805,
+      "grad_norm": 10.54971694946289,
+      "learning_rate": 7.385200590461803e-05,
+      "loss": 6.7272,
+      "step": 121
+    },
+    {
+      "epoch": 0.17974217311233887,
+      "grad_norm": 6.65580415725708,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 6.8475,
+      "step": 122
+    },
+    {
+      "epoch": 0.18121546961325966,
+      "grad_norm": 10.194478034973145,
+      "learning_rate": 7.067499626155354e-05,
+      "loss": 8.6189,
+      "step": 123
+    },
+    {
+      "epoch": 0.18268876611418047,
+      "grad_norm": 11.780241012573242,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 8.392,
+      "step": 124
+    },
+    {
+      "epoch": 0.1841620626151013,
+      "grad_norm": 6.544031143188477,
+      "learning_rate": 6.753005307953167e-05,
+      "loss": 7.9356,
+      "step": 125
+    },
+    {
+      "epoch": 0.1856353591160221,
+      "grad_norm": 5.778688430786133,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 4.8296,
+      "step": 126
+    },
+    {
+      "epoch": 0.1871086556169429,
+      "grad_norm": 13.133682250976562,
+      "learning_rate": 6.442061530774834e-05,
+      "loss": 8.4469,
+      "step": 127
+    },
+    {
+      "epoch": 0.18858195211786372,
+      "grad_norm": 5.862144947052002,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 5.7135,
+      "step": 128
+    },
+    {
+      "epoch": 0.19005524861878453,
+      "grad_norm": 5.824400901794434,
+      "learning_rate": 6.135008307075481e-05,
+      "loss": 7.4102,
+      "step": 129
+    },
+    {
+      "epoch": 0.19152854511970535,
+      "grad_norm": 7.972049713134766,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 7.9903,
+      "step": 130
+    },
+    {
+      "epoch": 0.19300184162062614,
+      "grad_norm": 7.148801803588867,
+      "learning_rate": 5.832181395047098e-05,
+      "loss": 4.9407,
+      "step": 131
+    },
+    {
+      "epoch": 0.19447513812154696,
+      "grad_norm": 4.160274028778076,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 7.0311,
+      "step": 132
+    },
+    {
+      "epoch": 0.19594843462246778,
+      "grad_norm": 4.829346656799316,
+      "learning_rate": 5.533911931471936e-05,
+      "loss": 5.5874,
+      "step": 133
+    },
+    {
+      "epoch": 0.1974217311233886,
+      "grad_norm": 8.297733306884766,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 6.3769,
+      "step": 134
+    },
+    {
+      "epoch": 0.19889502762430938,
+      "grad_norm": 5.839636325836182,
+      "learning_rate": 5.240526069629265e-05,
+      "loss": 6.8749,
+      "step": 135
+    },
+    {
+      "epoch": 0.2003683241252302,
+      "grad_norm": 7.078559398651123,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 6.4378,
+      "step": 136
+    },
+    {
+      "epoch": 0.20184162062615102,
+      "grad_norm": 5.329637050628662,
+      "learning_rate": 4.952344622651566e-05,
+      "loss": 6.1027,
+      "step": 137
+    },
+    {
+      "epoch": 0.20331491712707184,
+      "grad_norm": 10.604938507080078,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 9.6319,
+      "step": 138
+    },
+    {
+      "epoch": 0.20478821362799263,
+      "grad_norm": 10.23065185546875,
+      "learning_rate": 4.669682712720065e-05,
+      "loss": 10.1313,
+      "step": 139
+    },
+    {
+      "epoch": 0.20626151012891344,
+      "grad_norm": 14.528596878051758,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 8.1347,
+      "step": 140
+    },
+    {
+      "epoch": 0.20773480662983426,
+      "grad_norm": 5.988021373748779,
+      "learning_rate": 4.392849426483274e-05,
+      "loss": 8.9566,
+      "step": 141
+    },
+    {
+      "epoch": 0.20920810313075505,
+      "grad_norm": 13.86946964263916,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 7.2571,
+      "step": 142
+    },
+    {
+      "epoch": 0.21068139963167587,
+      "grad_norm": 8.190982818603516,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 6.508,
+      "step": 143
+    },
+    {
+      "epoch": 0.2121546961325967,
+      "grad_norm": 8.50158405303955,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 5.1829,
+      "step": 144
+    },
+    {
+      "epoch": 0.2136279926335175,
+      "grad_norm": 9.470782279968262,
+      "learning_rate": 3.857872873103322e-05,
+      "loss": 6.3869,
+      "step": 145
+    },
+    {
+      "epoch": 0.2151012891344383,
+      "grad_norm": 9.785574913024902,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 7.6541,
+      "step": 146
+    },
+    {
+      "epoch": 0.2165745856353591,
+      "grad_norm": 5.911442756652832,
+      "learning_rate": 3.600314594966834e-05,
+      "loss": 5.7766,
+      "step": 147
+    },
+    {
+      "epoch": 0.21804788213627993,
+      "grad_norm": 5.854257583618164,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 4.5367,
+      "step": 148
+    },
+    {
+      "epoch": 0.21952117863720075,
+      "grad_norm": 12.969705581665039,
+      "learning_rate": 3.349754278861517e-05,
+      "loss": 8.9383,
+      "step": 149
+    },
+    {
+      "epoch": 0.22099447513812154,
+      "grad_norm": 9.376482963562012,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 9.8813,
+      "step": 150
+    },
+    {
+      "epoch": 0.22099447513812154,
+      "eval_loss": 1.8338268995285034,
+      "eval_runtime": 9.4611,
+      "eval_samples_per_second": 30.229,
+      "eval_steps_per_second": 15.115,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.463483228585984e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null