Training in progress, step 1700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6029a505f307e3098b30acc19cdd7ba452e55709d8c353bc4a3f4f8ba146e277
 size 131146352

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c29d19ae137d8d9f6d075009b38f48ede5ee69b99c1d40e24e93602a5e42c2
 size 131146352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e748695332f398e0372a0342f533eda6dda257cbd0c6ff0c31662fd1d9df830
 size 67210516

 version https://git-lfs.github.com/spec/v1
+oid sha256:53f02bf536b4b6c5ec995aa54e017724d8fb20c583e62cdd2047ff066ff5e86d
 size 67210516

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2eb5cad9f3cbd36a844058d2bce505f26319b38c69d84d8607ffff4425c91e1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a19b20244c2b147c4db6331bfcd526d49838499d3bb5d4e14d3a604b49d4cdc4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03bf9dc9befb01615f74b39d2b43ebf93f55dc1a1259dddadf80e9de69443c5a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c12a87648583ab623d82ad394450eed417016fd7c996ca538887d063a9458228
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04432147845707532,
   "eval_steps": 500,
-  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11557,6 +11557,356 @@
       "learning_rate": 9.999999833078691e-05,
       "loss": 3.3308,
       "step": 1650
     }
   ],
   "logging_steps": 1,
@@ -11576,7 +11926,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2518960104669184e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04566455356183518,
   "eval_steps": 500,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.999999833078691e-05,
       "loss": 3.3308,
       "step": 1650
+    },
+    {
+      "epoch": 0.044348339959170514,
+      "grad_norm": 1.4079015254974365,
+      "learning_rate": 9.999999832875686e-05,
+      "loss": 2.9442,
+      "step": 1651
+    },
+    {
+      "epoch": 0.044375201461265716,
+      "grad_norm": 1.4412444829940796,
+      "learning_rate": 9.999999832672557e-05,
+      "loss": 3.038,
+      "step": 1652
+    },
+    {
+      "epoch": 0.04440206296336091,
+      "grad_norm": 1.4149682521820068,
+      "learning_rate": 9.999999832469304e-05,
+      "loss": 2.7261,
+      "step": 1653
+    },
+    {
+      "epoch": 0.044428924465456106,
+      "grad_norm": 1.411676287651062,
+      "learning_rate": 9.99999983226593e-05,
+      "loss": 2.9101,
+      "step": 1654
+    },
+    {
+      "epoch": 0.04445578596755131,
+      "grad_norm": 1.470566987991333,
+      "learning_rate": 9.99999983206243e-05,
+      "loss": 2.77,
+      "step": 1655
+    },
+    {
+      "epoch": 0.0444826474696465,
+      "grad_norm": 1.397863507270813,
+      "learning_rate": 9.999999831858808e-05,
+      "loss": 2.9582,
+      "step": 1656
+    },
+    {
+      "epoch": 0.0445095089717417,
+      "grad_norm": 1.3953698873519897,
+      "learning_rate": 9.999999831655063e-05,
+      "loss": 3.0912,
+      "step": 1657
+    },
+    {
+      "epoch": 0.0445363704738369,
+      "grad_norm": 1.3832037448883057,
+      "learning_rate": 9.999999831451192e-05,
+      "loss": 2.8913,
+      "step": 1658
+    },
+    {
+      "epoch": 0.044563231975932094,
+      "grad_norm": 1.3912192583084106,
+      "learning_rate": 9.9999998312472e-05,
+      "loss": 2.6594,
+      "step": 1659
+    },
+    {
+      "epoch": 0.04459009347802729,
+      "grad_norm": 1.3151278495788574,
+      "learning_rate": 9.999999831043084e-05,
+      "loss": 2.6635,
+      "step": 1660
+    },
+    {
+      "epoch": 0.04461695498012249,
+      "grad_norm": 1.2868192195892334,
+      "learning_rate": 9.999999830838846e-05,
+      "loss": 2.7065,
+      "step": 1661
+    },
+    {
+      "epoch": 0.044643816482217685,
+      "grad_norm": 1.387132167816162,
+      "learning_rate": 9.999999830634483e-05,
+      "loss": 2.6766,
+      "step": 1662
+    },
+    {
+      "epoch": 0.04467067798431288,
+      "grad_norm": 1.4079433679580688,
+      "learning_rate": 9.999999830429997e-05,
+      "loss": 2.8444,
+      "step": 1663
+    },
+    {
+      "epoch": 0.04469753948640808,
+      "grad_norm": 1.4303300380706787,
+      "learning_rate": 9.999999830225387e-05,
+      "loss": 2.9663,
+      "step": 1664
+    },
+    {
+      "epoch": 0.04472440098850328,
+      "grad_norm": 1.39901864528656,
+      "learning_rate": 9.999999830020654e-05,
+      "loss": 2.9923,
+      "step": 1665
+    },
+    {
+      "epoch": 0.04475126249059847,
+      "grad_norm": 1.4272572994232178,
+      "learning_rate": 9.999999829815798e-05,
+      "loss": 2.899,
+      "step": 1666
+    },
+    {
+      "epoch": 0.04477812399269367,
+      "grad_norm": 1.492218017578125,
+      "learning_rate": 9.99999982961082e-05,
+      "loss": 3.0391,
+      "step": 1667
+    },
+    {
+      "epoch": 0.04480498549478887,
+      "grad_norm": 1.450843095779419,
+      "learning_rate": 9.999999829405716e-05,
+      "loss": 2.9127,
+      "step": 1668
+    },
+    {
+      "epoch": 0.04483184699688406,
+      "grad_norm": 1.3440508842468262,
+      "learning_rate": 9.99999982920049e-05,
+      "loss": 3.0001,
+      "step": 1669
+    },
+    {
+      "epoch": 0.044858708498979265,
+      "grad_norm": 1.4402127265930176,
+      "learning_rate": 9.999999828995141e-05,
+      "loss": 2.819,
+      "step": 1670
+    },
+    {
+      "epoch": 0.04488557000107446,
+      "grad_norm": 1.4429413080215454,
+      "learning_rate": 9.999999828789667e-05,
+      "loss": 3.0246,
+      "step": 1671
+    },
+    {
+      "epoch": 0.044912431503169654,
+      "grad_norm": 2.6085400581359863,
+      "learning_rate": 9.999999828584071e-05,
+      "loss": 2.9273,
+      "step": 1672
+    },
+    {
+      "epoch": 0.044939293005264856,
+      "grad_norm": 1.5993056297302246,
+      "learning_rate": 9.999999828378352e-05,
+      "loss": 3.2987,
+      "step": 1673
+    },
+    {
+      "epoch": 0.04496615450736005,
+      "grad_norm": 1.5255417823791504,
+      "learning_rate": 9.999999828172508e-05,
+      "loss": 2.9552,
+      "step": 1674
+    },
+    {
+      "epoch": 0.044993016009455246,
+      "grad_norm": 1.557896614074707,
+      "learning_rate": 9.999999827966542e-05,
+      "loss": 3.123,
+      "step": 1675
+    },
+    {
+      "epoch": 0.04501987751155045,
+      "grad_norm": 1.558122992515564,
+      "learning_rate": 9.999999827760452e-05,
+      "loss": 2.9187,
+      "step": 1676
+    },
+    {
+      "epoch": 0.04504673901364564,
+      "grad_norm": 1.425349473953247,
+      "learning_rate": 9.999999827554239e-05,
+      "loss": 2.899,
+      "step": 1677
+    },
+    {
+      "epoch": 0.04507360051574084,
+      "grad_norm": 1.5926076173782349,
+      "learning_rate": 9.999999827347903e-05,
+      "loss": 3.2055,
+      "step": 1678
+    },
+    {
+      "epoch": 0.04510046201783604,
+      "grad_norm": 1.6083916425704956,
+      "learning_rate": 9.999999827141443e-05,
+      "loss": 2.8889,
+      "step": 1679
+    },
+    {
+      "epoch": 0.045127323519931234,
+      "grad_norm": 1.4613057374954224,
+      "learning_rate": 9.999999826934859e-05,
+      "loss": 2.968,
+      "step": 1680
+    },
+    {
+      "epoch": 0.04515418502202643,
+      "grad_norm": 1.591672420501709,
+      "learning_rate": 9.999999826728153e-05,
+      "loss": 3.0252,
+      "step": 1681
+    },
+    {
+      "epoch": 0.04518104652412163,
+      "grad_norm": 1.539560317993164,
+      "learning_rate": 9.999999826521322e-05,
+      "loss": 2.8637,
+      "step": 1682
+    },
+    {
+      "epoch": 0.045207908026216825,
+      "grad_norm": 1.4949159622192383,
+      "learning_rate": 9.99999982631437e-05,
+      "loss": 3.05,
+      "step": 1683
+    },
+    {
+      "epoch": 0.04523476952831202,
+      "grad_norm": 1.5287278890609741,
+      "learning_rate": 9.999999826107294e-05,
+      "loss": 3.0176,
+      "step": 1684
+    },
+    {
+      "epoch": 0.04526163103040722,
+      "grad_norm": 1.4513976573944092,
+      "learning_rate": 9.999999825900092e-05,
+      "loss": 3.0043,
+      "step": 1685
+    },
+    {
+      "epoch": 0.04528849253250242,
+      "grad_norm": 1.4938799142837524,
+      "learning_rate": 9.99999982569277e-05,
+      "loss": 2.998,
+      "step": 1686
+    },
+    {
+      "epoch": 0.04531535403459761,
+      "grad_norm": 1.6789308786392212,
+      "learning_rate": 9.999999825485323e-05,
+      "loss": 3.108,
+      "step": 1687
+    },
+    {
+      "epoch": 0.04534221553669281,
+      "grad_norm": 1.4213138818740845,
+      "learning_rate": 9.999999825277752e-05,
+      "loss": 3.0397,
+      "step": 1688
+    },
+    {
+      "epoch": 0.04536907703878801,
+      "grad_norm": 1.5696649551391602,
+      "learning_rate": 9.999999825070058e-05,
+      "loss": 3.1145,
+      "step": 1689
+    },
+    {
+      "epoch": 0.0453959385408832,
+      "grad_norm": 1.6566909551620483,
+      "learning_rate": 9.999999824862241e-05,
+      "loss": 3.3197,
+      "step": 1690
+    },
+    {
+      "epoch": 0.045422800042978405,
+      "grad_norm": 1.591908574104309,
+      "learning_rate": 9.999999824654302e-05,
+      "loss": 2.9155,
+      "step": 1691
+    },
+    {
+      "epoch": 0.0454496615450736,
+      "grad_norm": 1.6618692874908447,
+      "learning_rate": 9.999999824446238e-05,
+      "loss": 3.3152,
+      "step": 1692
+    },
+    {
+      "epoch": 0.045476523047168795,
+      "grad_norm": 1.660921573638916,
+      "learning_rate": 9.999999824238051e-05,
+      "loss": 3.1987,
+      "step": 1693
+    },
+    {
+      "epoch": 0.045503384549263996,
+      "grad_norm": 1.680649757385254,
+      "learning_rate": 9.99999982402974e-05,
+      "loss": 3.2139,
+      "step": 1694
+    },
+    {
+      "epoch": 0.04553024605135919,
+      "grad_norm": 1.7884151935577393,
+      "learning_rate": 9.999999823821307e-05,
+      "loss": 3.2991,
+      "step": 1695
+    },
+    {
+      "epoch": 0.045557107553454386,
+      "grad_norm": 1.6756354570388794,
+      "learning_rate": 9.99999982361275e-05,
+      "loss": 3.1816,
+      "step": 1696
+    },
+    {
+      "epoch": 0.04558396905554959,
+      "grad_norm": 1.6229280233383179,
+      "learning_rate": 9.999999823404069e-05,
+      "loss": 3.2563,
+      "step": 1697
+    },
+    {
+      "epoch": 0.04561083055764478,
+      "grad_norm": 1.625819444656372,
+      "learning_rate": 9.999999823195265e-05,
+      "loss": 3.1226,
+      "step": 1698
+    },
+    {
+      "epoch": 0.04563769205973998,
+      "grad_norm": 1.7141685485839844,
+      "learning_rate": 9.999999822986337e-05,
+      "loss": 3.3355,
+      "step": 1699
+    },
+    {
+      "epoch": 0.04566455356183518,
+      "grad_norm": 1.7747595310211182,
+      "learning_rate": 9.999999822777286e-05,
+      "loss": 3.2331,
+      "step": 1700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.320207374503117e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null