Training in progress, step 1650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99453ce3647f7f67c815e24c7ef6884d87966f6fde3dc864d3fdeb8ceb5402dc
 size 131146352

 version https://git-lfs.github.com/spec/v1
+oid sha256:6029a505f307e3098b30acc19cdd7ba452e55709d8c353bc4a3f4f8ba146e277
 size 131146352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4122d97521c4b1ac8196676b5c97171f0ca5b898a992617d05c09f326323fb87
 size 67210516

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e748695332f398e0372a0342f533eda6dda257cbd0c6ff0c31662fd1d9df830
 size 67210516

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23d65b844605b218e76224da81a61b12185a4cb03dea7c30d549d1f1f09b6639
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2eb5cad9f3cbd36a844058d2bce505f26319b38c69d84d8607ffff4425c91e1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcc60aab8f1774b8f7c01957b9e8831a30bbaac431674250ca87e625af546e7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:03bf9dc9befb01615f74b39d2b43ebf93f55dc1a1259dddadf80e9de69443c5a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04297840335231546,
   "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11207,6 +11207,356 @@
       "learning_rate": 9.99999984307167e-05,
       "loss": 3.5878,
       "step": 1600
     }
   ],
   "logging_steps": 1,
@@ -11226,7 +11576,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.18358464643072e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04432147845707532,
   "eval_steps": 500,
+  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.99999984307167e-05,
       "loss": 3.5878,
       "step": 1600
+    },
+    {
+      "epoch": 0.04300526485441066,
+      "grad_norm": 1.3168871402740479,
+      "learning_rate": 9.999999842874834e-05,
+      "loss": 2.8627,
+      "step": 1601
+    },
+    {
+      "epoch": 0.043032126356505856,
+      "grad_norm": 1.3844327926635742,
+      "learning_rate": 9.999999842677874e-05,
+      "loss": 2.8701,
+      "step": 1602
+    },
+    {
+      "epoch": 0.04305898785860105,
+      "grad_norm": 1.3635506629943848,
+      "learning_rate": 9.999999842480789e-05,
+      "loss": 2.6733,
+      "step": 1603
+    },
+    {
+      "epoch": 0.04308584936069625,
+      "grad_norm": 1.3588570356369019,
+      "learning_rate": 9.999999842283582e-05,
+      "loss": 2.8806,
+      "step": 1604
+    },
+    {
+      "epoch": 0.04311271086279145,
+      "grad_norm": 1.3737713098526,
+      "learning_rate": 9.999999842086252e-05,
+      "loss": 2.9025,
+      "step": 1605
+    },
+    {
+      "epoch": 0.04313957236488664,
+      "grad_norm": 1.40369713306427,
+      "learning_rate": 9.999999841888799e-05,
+      "loss": 2.8484,
+      "step": 1606
+    },
+    {
+      "epoch": 0.043166433866981845,
+      "grad_norm": 1.2884548902511597,
+      "learning_rate": 9.99999984169122e-05,
+      "loss": 2.7603,
+      "step": 1607
+    },
+    {
+      "epoch": 0.04319329536907704,
+      "grad_norm": 1.351904273033142,
+      "learning_rate": 9.99999984149352e-05,
+      "loss": 3.0526,
+      "step": 1608
+    },
+    {
+      "epoch": 0.043220156871172234,
+      "grad_norm": 1.4556187391281128,
+      "learning_rate": 9.999999841295697e-05,
+      "loss": 3.0934,
+      "step": 1609
+    },
+    {
+      "epoch": 0.043247018373267436,
+      "grad_norm": 1.3308874368667603,
+      "learning_rate": 9.999999841097748e-05,
+      "loss": 2.7632,
+      "step": 1610
+    },
+    {
+      "epoch": 0.04327387987536263,
+      "grad_norm": 1.3838894367218018,
+      "learning_rate": 9.999999840899678e-05,
+      "loss": 3.0159,
+      "step": 1611
+    },
+    {
+      "epoch": 0.043300741377457826,
+      "grad_norm": 1.504431962966919,
+      "learning_rate": 9.999999840701483e-05,
+      "loss": 3.0511,
+      "step": 1612
+    },
+    {
+      "epoch": 0.04332760287955303,
+      "grad_norm": 1.2878671884536743,
+      "learning_rate": 9.999999840503167e-05,
+      "loss": 2.8596,
+      "step": 1613
+    },
+    {
+      "epoch": 0.04335446438164822,
+      "grad_norm": 1.3833988904953003,
+      "learning_rate": 9.999999840304725e-05,
+      "loss": 2.7807,
+      "step": 1614
+    },
+    {
+      "epoch": 0.04338132588374342,
+      "grad_norm": 1.3519421815872192,
+      "learning_rate": 9.999999840106163e-05,
+      "loss": 2.7777,
+      "step": 1615
+    },
+    {
+      "epoch": 0.04340818738583862,
+      "grad_norm": 1.4081404209136963,
+      "learning_rate": 9.999999839907475e-05,
+      "loss": 2.7198,
+      "step": 1616
+    },
+    {
+      "epoch": 0.043435048887933814,
+      "grad_norm": 1.3711954355239868,
+      "learning_rate": 9.999999839708662e-05,
+      "loss": 2.717,
+      "step": 1617
+    },
+    {
+      "epoch": 0.04346191039002901,
+      "grad_norm": 1.3935779333114624,
+      "learning_rate": 9.999999839509728e-05,
+      "loss": 3.0255,
+      "step": 1618
+    },
+    {
+      "epoch": 0.04348877189212421,
+      "grad_norm": 1.4566105604171753,
+      "learning_rate": 9.99999983931067e-05,
+      "loss": 3.1218,
+      "step": 1619
+    },
+    {
+      "epoch": 0.043515633394219405,
+      "grad_norm": 1.4367201328277588,
+      "learning_rate": 9.99999983911149e-05,
+      "loss": 3.0931,
+      "step": 1620
+    },
+    {
+      "epoch": 0.0435424948963146,
+      "grad_norm": 1.390453815460205,
+      "learning_rate": 9.999999838912187e-05,
+      "loss": 2.903,
+      "step": 1621
+    },
+    {
+      "epoch": 0.0435693563984098,
+      "grad_norm": 1.2955039739608765,
+      "learning_rate": 9.999999838712759e-05,
+      "loss": 2.9835,
+      "step": 1622
+    },
+    {
+      "epoch": 0.043596217900505,
+      "grad_norm": 1.5156861543655396,
+      "learning_rate": 9.999999838513207e-05,
+      "loss": 3.1388,
+      "step": 1623
+    },
+    {
+      "epoch": 0.04362307940260019,
+      "grad_norm": 1.4825620651245117,
+      "learning_rate": 9.999999838313532e-05,
+      "loss": 3.1583,
+      "step": 1624
+    },
+    {
+      "epoch": 0.04364994090469539,
+      "grad_norm": 1.369698166847229,
+      "learning_rate": 9.999999838113734e-05,
+      "loss": 2.9362,
+      "step": 1625
+    },
+    {
+      "epoch": 0.04367680240679059,
+      "grad_norm": 1.3391295671463013,
+      "learning_rate": 9.999999837913813e-05,
+      "loss": 2.8266,
+      "step": 1626
+    },
+    {
+      "epoch": 0.04370366390888578,
+      "grad_norm": 1.4127203226089478,
+      "learning_rate": 9.999999837713768e-05,
+      "loss": 2.827,
+      "step": 1627
+    },
+    {
+      "epoch": 0.043730525410980985,
+      "grad_norm": 1.542043685913086,
+      "learning_rate": 9.999999837513601e-05,
+      "loss": 3.0887,
+      "step": 1628
+    },
+    {
+      "epoch": 0.04375738691307618,
+      "grad_norm": 1.513839602470398,
+      "learning_rate": 9.99999983731331e-05,
+      "loss": 3.0853,
+      "step": 1629
+    },
+    {
+      "epoch": 0.043784248415171374,
+      "grad_norm": 1.4729801416397095,
+      "learning_rate": 9.999999837112895e-05,
+      "loss": 2.98,
+      "step": 1630
+    },
+    {
+      "epoch": 0.043811109917266576,
+      "grad_norm": 1.509283185005188,
+      "learning_rate": 9.999999836912355e-05,
+      "loss": 3.2404,
+      "step": 1631
+    },
+    {
+      "epoch": 0.04383797141936177,
+      "grad_norm": 1.543927550315857,
+      "learning_rate": 9.999999836711694e-05,
+      "loss": 3.119,
+      "step": 1632
+    },
+    {
+      "epoch": 0.043864832921456966,
+      "grad_norm": 1.5025025606155396,
+      "learning_rate": 9.999999836510909e-05,
+      "loss": 3.1039,
+      "step": 1633
+    },
+    {
+      "epoch": 0.04389169442355217,
+      "grad_norm": 1.3757987022399902,
+      "learning_rate": 9.999999836310001e-05,
+      "loss": 2.8637,
+      "step": 1634
+    },
+    {
+      "epoch": 0.04391855592564736,
+      "grad_norm": 1.5544795989990234,
+      "learning_rate": 9.99999983610897e-05,
+      "loss": 3.0113,
+      "step": 1635
+    },
+    {
+      "epoch": 0.04394541742774256,
+      "grad_norm": 1.4375749826431274,
+      "learning_rate": 9.999999835907815e-05,
+      "loss": 2.9539,
+      "step": 1636
+    },
+    {
+      "epoch": 0.04397227892983776,
+      "grad_norm": 1.557188868522644,
+      "learning_rate": 9.999999835706537e-05,
+      "loss": 3.1977,
+      "step": 1637
+    },
+    {
+      "epoch": 0.043999140431932954,
+      "grad_norm": 1.6400185823440552,
+      "learning_rate": 9.999999835505136e-05,
+      "loss": 3.1995,
+      "step": 1638
+    },
+    {
+      "epoch": 0.04402600193402815,
+      "grad_norm": 1.4655009508132935,
+      "learning_rate": 9.99999983530361e-05,
+      "loss": 2.9985,
+      "step": 1639
+    },
+    {
+      "epoch": 0.04405286343612335,
+      "grad_norm": 1.4965097904205322,
+      "learning_rate": 9.999999835101961e-05,
+      "loss": 3.1393,
+      "step": 1640
+    },
+    {
+      "epoch": 0.044079724938218545,
+      "grad_norm": 1.5797890424728394,
+      "learning_rate": 9.999999834900189e-05,
+      "loss": 3.0014,
+      "step": 1641
+    },
+    {
+      "epoch": 0.04410658644031374,
+      "grad_norm": 1.567730188369751,
+      "learning_rate": 9.999999834698295e-05,
+      "loss": 2.9215,
+      "step": 1642
+    },
+    {
+      "epoch": 0.04413344794240894,
+      "grad_norm": 1.6687631607055664,
+      "learning_rate": 9.999999834496276e-05,
+      "loss": 3.2531,
+      "step": 1643
+    },
+    {
+      "epoch": 0.04416030944450414,
+      "grad_norm": 1.6272687911987305,
+      "learning_rate": 9.999999834294133e-05,
+      "loss": 3.3399,
+      "step": 1644
+    },
+    {
+      "epoch": 0.04418717094659933,
+      "grad_norm": 1.6043704748153687,
+      "learning_rate": 9.999999834091869e-05,
+      "loss": 3.0772,
+      "step": 1645
+    },
+    {
+      "epoch": 0.04421403244869453,
+      "grad_norm": 1.6957578659057617,
+      "learning_rate": 9.999999833889479e-05,
+      "loss": 3.3066,
+      "step": 1646
+    },
+    {
+      "epoch": 0.04424089395078973,
+      "grad_norm": 1.7268688678741455,
+      "learning_rate": 9.999999833686968e-05,
+      "loss": 3.3125,
+      "step": 1647
+    },
+    {
+      "epoch": 0.04426775545288492,
+      "grad_norm": 1.7406071424484253,
+      "learning_rate": 9.999999833484333e-05,
+      "loss": 3.2264,
+      "step": 1648
+    },
+    {
+      "epoch": 0.044294616954980125,
+      "grad_norm": 1.8623542785644531,
+      "learning_rate": 9.999999833281574e-05,
+      "loss": 3.3522,
+      "step": 1649
+    },
+    {
+      "epoch": 0.04432147845707532,
+      "grad_norm": 1.8407955169677734,
+      "learning_rate": 9.999999833078691e-05,
+      "loss": 3.3308,
+      "step": 1650
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.2518960104669184e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null