Training in progress, step 34, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +122 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2be6c741c16462462566383c58c96fe7f6bc28d7566b13220c3dffb9ed417700
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1b54cccbbed2f75eaef804b9662f6ef8e1c82290e1144dee6ea63fb77aeb26f
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34444611993aa5826fae6429f620abde590eb090402c17731e486c9d73095492
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:90bcb817a546831a005a9504935df07250d9cc27fd981d0add1cf5aa973ee4f9
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bc7d6365f55f6979e3f98089ca1eee6a5f1d967b9c10fb47e70f23c0169a194
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7abcd57538b0647768495b9aeb3b444e111ce136e810d289cc8fe830dca41b95
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0abe1a027b3fea2bf654a1c387b6eb2241fa486bab4a282d3a0e829c4308c91
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e1983b20d7ce0214623b79adb071ed1f5c168cabcab4cc0ff2c0c61c63ddce9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.025028755463538072,
   "eval_steps": 50,
-  "global_step": 17,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -134,6 +134,125 @@
       "learning_rate": 0.00012749999999999998,
       "loss": 0.1309,
       "step": 17
     }
   ],
   "logging_steps": 1,
@@ -153,7 +272,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.807210320368763e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.050057510927076145,
   "eval_steps": 50,
+  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00012749999999999998,
       "loss": 0.1309,
       "step": 17
+    },
+    {
+      "epoch": 0.02650103519668737,
+      "grad_norm": 0.18677189946174622,
+      "learning_rate": 0.000135,
+      "loss": 0.181,
+      "step": 18
+    },
+    {
+      "epoch": 0.02797331492983667,
+      "grad_norm": 0.1576640009880066,
+      "learning_rate": 0.0001425,
+      "loss": 0.1562,
+      "step": 19
+    },
+    {
+      "epoch": 0.029445594662985967,
+      "grad_norm": 0.19666102528572083,
+      "learning_rate": 0.00015,
+      "loss": 0.2439,
+      "step": 20
+    },
+    {
+      "epoch": 0.030917874396135265,
+      "grad_norm": 0.12512515485286713,
+      "learning_rate": 0.00014998857713672935,
+      "loss": 0.144,
+      "step": 21
+    },
+    {
+      "epoch": 0.03239015412928457,
+      "grad_norm": 0.1219751164317131,
+      "learning_rate": 0.00014995431202643217,
+      "loss": 0.1047,
+      "step": 22
+    },
+    {
+      "epoch": 0.033862433862433865,
+      "grad_norm": 0.1390693038702011,
+      "learning_rate": 0.000149897215106593,
+      "loss": 0.1022,
+      "step": 23
+    },
+    {
+      "epoch": 0.03533471359558316,
+      "grad_norm": 0.19809921085834503,
+      "learning_rate": 0.0001498173037694868,
+      "loss": 0.24,
+      "step": 24
+    },
+    {
+      "epoch": 0.03680699332873246,
+      "grad_norm": 0.17452572286128998,
+      "learning_rate": 0.0001497146023568809,
+      "loss": 0.2497,
+      "step": 25
+    },
+    {
+      "epoch": 0.03827927306188176,
+      "grad_norm": 0.10941721498966217,
+      "learning_rate": 0.00014958914215262048,
+      "loss": 0.0914,
+      "step": 26
+    },
+    {
+      "epoch": 0.03975155279503106,
+      "grad_norm": 0.12793776392936707,
+      "learning_rate": 0.00014944096137309914,
+      "loss": 0.114,
+      "step": 27
+    },
+    {
+      "epoch": 0.041223832528180356,
+      "grad_norm": 0.14925755560398102,
+      "learning_rate": 0.00014927010515561776,
+      "loss": 0.1931,
+      "step": 28
+    },
+    {
+      "epoch": 0.042696112261329654,
+      "grad_norm": 0.12749770283699036,
+      "learning_rate": 0.00014907662554463532,
+      "loss": 0.1342,
+      "step": 29
+    },
+    {
+      "epoch": 0.04416839199447895,
+      "grad_norm": 0.12666098773479462,
+      "learning_rate": 0.0001488605814759156,
+      "loss": 0.1404,
+      "step": 30
+    },
+    {
+      "epoch": 0.04564067172762825,
+      "grad_norm": 0.12451935559511185,
+      "learning_rate": 0.00014862203875857477,
+      "loss": 0.1297,
+      "step": 31
+    },
+    {
+      "epoch": 0.04711295146077755,
+      "grad_norm": 0.12354013323783875,
+      "learning_rate": 0.0001483610700550354,
+      "loss": 0.0667,
+      "step": 32
+    },
+    {
+      "epoch": 0.048585231193926846,
+      "grad_norm": 0.11861127614974976,
+      "learning_rate": 0.00014807775485889264,
+      "loss": 0.1057,
+      "step": 33
+    },
+    {
+      "epoch": 0.050057510927076145,
+      "grad_norm": 0.11489235609769821,
+      "learning_rate": 0.0001477721794706997,
+      "loss": 0.0717,
+      "step": 34
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.597635405563822e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null