Training in progress, step 51, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +130 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff72e4efe6d28a195f3570744a19808d24176a4a5c3166d09509ecf448dd971e
 size 97728

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b14a95c7f959dcbd54f89ee9ea99cc1dbf6d6e00e3dd380e71efa60af12ee96
 size 97728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fabc0e47233f6f67098c93eb17ccaff88b58404fd8853fd611da5f2ccf11189d
 size 212298

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e15873f91766aa485609b54a44fa78a3d3396e31ce52599854df27197085e2a
 size 212298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5a1457ae5d909a79141dea2965aadc86d4c660ec11af6ef8eed50147437a542
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeaac88ea211375a529b1fd2970f1cc397730f5d948fdb30bae28e4d8b193fb4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e1983b20d7ce0214623b79adb071ed1f5c168cabcab4cc0ff2c0c61c63ddce9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c86702c0a3caad6c51746e54805a7289de03dff9cc5abc148a58966cf1f4d339
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11519322392800424,
   "eval_steps": 50,
-  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -253,6 +253,133 @@
       "learning_rate": 0.0001477721794706997,
       "loss": 10.3658,
       "step": 34
     }
   ],
   "logging_steps": 1,
@@ -272,7 +399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 14554505281536.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.17278983589200636,
   "eval_steps": 50,
+  "global_step": 51,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001477721794706997,
       "loss": 10.3658,
       "step": 34
+    },
+    {
+      "epoch": 0.11858125992588671,
+      "grad_norm": 0.11666611582040787,
+      "learning_rate": 0.0001474444369716801,
+      "loss": 10.3642,
+      "step": 35
+    },
+    {
+      "epoch": 0.12196929592376919,
+      "grad_norm": 0.12058889120817184,
+      "learning_rate": 0.0001470946271953739,
+      "loss": 10.3624,
+      "step": 36
+    },
+    {
+      "epoch": 0.12535733192165166,
+      "grad_norm": 0.13473331928253174,
+      "learning_rate": 0.00014672285669722765,
+      "loss": 10.3619,
+      "step": 37
+    },
+    {
+      "epoch": 0.12874536791953414,
+      "grad_norm": 0.12408842891454697,
+      "learning_rate": 0.00014632923872213652,
+      "loss": 10.3616,
+      "step": 38
+    },
+    {
+      "epoch": 0.13213340391741663,
+      "grad_norm": 0.12850341200828552,
+      "learning_rate": 0.00014591389316994876,
+      "loss": 10.3609,
+      "step": 39
+    },
+    {
+      "epoch": 0.1355214399152991,
+      "grad_norm": 0.12435595691204071,
+      "learning_rate": 0.0001454769465589431,
+      "loss": 10.3597,
+      "step": 40
+    },
+    {
+      "epoch": 0.1389094759131816,
+      "grad_norm": 0.11300837248563766,
+      "learning_rate": 0.00014501853198729012,
+      "loss": 10.3583,
+      "step": 41
+    },
+    {
+      "epoch": 0.14229751191106405,
+      "grad_norm": 0.11374777555465698,
+      "learning_rate": 0.00014453878909250904,
+      "loss": 10.357,
+      "step": 42
+    },
+    {
+      "epoch": 0.14568554790894653,
+      "grad_norm": 0.11273212730884552,
+      "learning_rate": 0.00014403786400893302,
+      "loss": 10.3559,
+      "step": 43
+    },
+    {
+      "epoch": 0.149073583906829,
+      "grad_norm": 0.10369884222745895,
+      "learning_rate": 0.00014351590932319504,
+      "loss": 10.3545,
+      "step": 44
+    },
+    {
+      "epoch": 0.1524616199047115,
+      "grad_norm": 0.09857185184955597,
+      "learning_rate": 0.00014297308402774875,
+      "loss": 10.3544,
+      "step": 45
+    },
+    {
+      "epoch": 0.15584965590259398,
+      "grad_norm": 0.09635099023580551,
+      "learning_rate": 0.0001424095534724375,
+      "loss": 10.3537,
+      "step": 46
+    },
+    {
+      "epoch": 0.15923769190047643,
+      "grad_norm": 0.08793843537569046,
+      "learning_rate": 0.00014182548931412757,
+      "loss": 10.3528,
+      "step": 47
+    },
+    {
+      "epoch": 0.1626257278983589,
+      "grad_norm": 0.07799001038074493,
+      "learning_rate": 0.0001412210694644195,
+      "loss": 10.3516,
+      "step": 48
+    },
+    {
+      "epoch": 0.1660137638962414,
+      "grad_norm": 0.07476358115673065,
+      "learning_rate": 0.00014059647803545467,
+      "loss": 10.3515,
+      "step": 49
+    },
+    {
+      "epoch": 0.16940179989412388,
+      "grad_norm": 0.07342197000980377,
+      "learning_rate": 0.0001399519052838329,
+      "loss": 10.3523,
+      "step": 50
+    },
+    {
+      "epoch": 0.16940179989412388,
+      "eval_loss": 10.351042747497559,
+      "eval_runtime": 3.8684,
+      "eval_samples_per_second": 257.211,
+      "eval_steps_per_second": 128.735,
+      "step": 50
+    },
+    {
+      "epoch": 0.17278983589200636,
+      "grad_norm": 0.06936267018318176,
+      "learning_rate": 0.00013928754755265842,
+      "loss": 10.3514,
+      "step": 51
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 21825075412992.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null