Training in progress, step 10, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +33 -89
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "gate_proj",
-    "k_proj",
     "o_proj",
     "v_proj",
-    "up_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "down_proj",
     "v_proj",
+    "k_proj",
+    "q_proj",
+    "gate_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:188447b7ea74a861624769b8aa8fa0af8e13159a5253f25686b71770564d8f97
 size 40036040

 version https://git-lfs.github.com/spec/v1
+oid sha256:c841db0f6abb394c5c5cc53e41ac9d3f254b63dd7de214bffa670564b75faa3e
 size 40036040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad4a742dd114abb5b5c5a2d053eab18b486cce42b8256da2dd78000aa334721e
 size 20814996

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d06f8c5ca13affd83f2e53dfde10712eddb261261ee885ea42703dce62c3cd0
 size 20814996

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bb935c2d08b8902f656e6d9a77a383395851960248fb4a387b33658b6121ae1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:67773813a54698cff5170703d0ad671479f015fe9426368cf5216033a5859f7b
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.007416334476684898,
-  "eval_steps": 1,
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0007416334476684898,
-      "grad_norm": 11.880997657775879,
       "learning_rate": 2e-05,
       "loss": 18.8184,
       "step": 1
@@ -18,152 +18,96 @@
     {
       "epoch": 0.0007416334476684898,
       "eval_loss": 2.656465768814087,
-      "eval_runtime": 71.0471,
-      "eval_samples_per_second": 7.995,
-      "eval_steps_per_second": 7.995,
       "step": 1
     },
     {
       "epoch": 0.0014832668953369797,
-      "grad_norm": 14.265693664550781,
       "learning_rate": 4e-05,
       "loss": 24.6349,
       "step": 2
     },
-    {
-      "epoch": 0.0014832668953369797,
-      "eval_loss": 2.6549131870269775,
-      "eval_runtime": 71.0998,
-      "eval_samples_per_second": 7.989,
-      "eval_steps_per_second": 7.989,
-      "step": 2
-    },
     {
       "epoch": 0.0022249003430054697,
-      "grad_norm": 11.243473052978516,
       "learning_rate": 6e-05,
-      "loss": 19.4332,
-      "step": 3
-    },
-    {
-      "epoch": 0.0022249003430054697,
-      "eval_loss": 2.6460721492767334,
-      "eval_runtime": 76.4226,
-      "eval_samples_per_second": 7.432,
-      "eval_steps_per_second": 7.432,
       "step": 3
     },
     {
       "epoch": 0.0029665337906739594,
-      "grad_norm": 11.755112648010254,
       "learning_rate": 8e-05,
-      "loss": 19.745,
-      "step": 4
-    },
-    {
-      "epoch": 0.0029665337906739594,
-      "eval_loss": 2.624095916748047,
-      "eval_runtime": 76.492,
-      "eval_samples_per_second": 7.426,
-      "eval_steps_per_second": 7.426,
       "step": 4
     },
     {
       "epoch": 0.003708167238342449,
-      "grad_norm": 18.189170837402344,
       "learning_rate": 0.0001,
-      "loss": 20.1983,
       "step": 5
     },
     {
       "epoch": 0.003708167238342449,
-      "eval_loss": 2.578369140625,
-      "eval_runtime": 76.4624,
-      "eval_samples_per_second": 7.428,
-      "eval_steps_per_second": 7.428,
       "step": 5
     },
     {
       "epoch": 0.004449800686010939,
-      "grad_norm": 18.193552017211914,
       "learning_rate": 0.00012,
-      "loss": 19.7283,
-      "step": 6
-    },
-    {
-      "epoch": 0.004449800686010939,
-      "eval_loss": 2.484401226043701,
-      "eval_runtime": 68.8084,
-      "eval_samples_per_second": 8.255,
-      "eval_steps_per_second": 8.255,
       "step": 6
     },
     {
       "epoch": 0.005191434133679429,
-      "grad_norm": 25.999523162841797,
       "learning_rate": 0.00014,
-      "loss": 16.9993,
-      "step": 7
-    },
-    {
-      "epoch": 0.005191434133679429,
-      "eval_loss": 2.3075497150421143,
-      "eval_runtime": 68.7893,
-      "eval_samples_per_second": 8.257,
-      "eval_steps_per_second": 8.257,
       "step": 7
     },
     {
       "epoch": 0.005933067581347919,
-      "grad_norm": 19.375476837158203,
       "learning_rate": 0.00016,
-      "loss": 19.1259,
-      "step": 8
-    },
-    {
-      "epoch": 0.005933067581347919,
-      "eval_loss": 2.035842180252075,
-      "eval_runtime": 68.8006,
-      "eval_samples_per_second": 8.256,
-      "eval_steps_per_second": 8.256,
       "step": 8
     },
     {
       "epoch": 0.006674701029016409,
-      "grad_norm": 26.23119354248047,
       "learning_rate": 0.00018,
-      "loss": 20.2162,
-      "step": 9
-    },
-    {
-      "epoch": 0.006674701029016409,
-      "eval_loss": 1.706383466720581,
-      "eval_runtime": 68.8062,
-      "eval_samples_per_second": 8.255,
-      "eval_steps_per_second": 8.255,
       "step": 9
     },
     {
       "epoch": 0.007416334476684898,
-      "grad_norm": 27.74460220336914,
       "learning_rate": 0.0002,
-      "loss": 11.843,
       "step": 10
     },
     {
       "epoch": 0.007416334476684898,
-      "eval_loss": 1.3354620933532715,
-      "eval_runtime": 68.7847,
-      "eval_samples_per_second": 8.258,
-      "eval_steps_per_second": 8.258,
       "step": 10
     }
   ],
   "logging_steps": 1,
-  "max_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -171,7 +115,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.007416334476684898,
+  "eval_steps": 5,
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0007416334476684898,
+      "grad_norm": 11.244009017944336,
       "learning_rate": 2e-05,
       "loss": 18.8184,
       "step": 1
     {
       "epoch": 0.0007416334476684898,
       "eval_loss": 2.656465768814087,
+      "eval_runtime": 71.0748,
+      "eval_samples_per_second": 7.992,
+      "eval_steps_per_second": 7.992,
       "step": 1
     },
     {
       "epoch": 0.0014832668953369797,
+      "grad_norm": 13.321176528930664,
       "learning_rate": 4e-05,
       "loss": 24.6349,
       "step": 2
     },
     {
       "epoch": 0.0022249003430054697,
+      "grad_norm": 10.89687728881836,
       "learning_rate": 6e-05,
+      "loss": 19.4295,
       "step": 3
     },
     {
       "epoch": 0.0029665337906739594,
+      "grad_norm": 11.234940528869629,
       "learning_rate": 8e-05,
+      "loss": 19.7558,
       "step": 4
     },
     {
       "epoch": 0.003708167238342449,
+      "grad_norm": 15.064847946166992,
       "learning_rate": 0.0001,
+      "loss": 20.2215,
       "step": 5
     },
     {
       "epoch": 0.003708167238342449,
+      "eval_loss": 2.5815353393554688,
+      "eval_runtime": 71.1425,
+      "eval_samples_per_second": 7.984,
+      "eval_steps_per_second": 7.984,
       "step": 5
     },
     {
       "epoch": 0.004449800686010939,
+      "grad_norm": 15.631669998168945,
       "learning_rate": 0.00012,
+      "loss": 19.749,
       "step": 6
     },
     {
       "epoch": 0.005191434133679429,
+      "grad_norm": 22.724105834960938,
       "learning_rate": 0.00014,
+      "loss": 17.047,
       "step": 7
     },
     {
       "epoch": 0.005933067581347919,
+      "grad_norm": 18.232868194580078,
       "learning_rate": 0.00016,
+      "loss": 19.128,
       "step": 8
     },
     {
       "epoch": 0.006674701029016409,
+      "grad_norm": 26.458662033081055,
       "learning_rate": 0.00018,
+      "loss": 20.2605,
       "step": 9
     },
     {
       "epoch": 0.007416334476684898,
+      "grad_norm": 28.14463996887207,
       "learning_rate": 0.0002,
+      "loss": 11.6753,
       "step": 10
     },
     {
       "epoch": 0.007416334476684898,
+      "eval_loss": 1.3254823684692383,
+      "eval_runtime": 71.3979,
+      "eval_samples_per_second": 7.955,
+      "eval_steps_per_second": 7.955,
       "step": 10
     }
   ],
   "logging_steps": 1,
+  "max_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ae4301de5f15afdcba9736b5d183c06cedcc538b941731bffcf95169c5b4ba9
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:315a629371b55b604291317d978f2643b7cc821c29085a306d6d7cdc70f4f485
 size 6776