Training in progress, step 10, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +71 -133
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "down_proj",
-    "v_proj",
     "k_proj",
-    "q_proj",
     "gate_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "v_proj",
     "gate_proj",
+    "up_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd5e086f2896422b85f59fcbd1db75d227348793001b9ac33cef8d43670650a6
 size 40036040

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8307bad6aca149cbb54b9927bcf180de1257d4e931699382587885d9c8abbee
 size 40036040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b61b12642b3cf0be8c1052822a4060340d8cd4154a22b75f94eadcf4e66203dd
 size 20814996

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b05544247a5b5e29391ed6b280c6471103edd07984835dc86fdab6e8d3afe51
 size 20814996

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea91e2232be6ed0d6bb5c1b35bf8899f30c3c095cf9d69df4b43d597a5a5de3f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:46344d85dd213df48d5b1954393c1105cc0fb8513c4766e4de7980a4c2b6aab8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e2ed9259304616a8ecebc61c5d000777b2978635f7a705b8d7081c480ce0bde
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b8bc8abd4c9f82dfc46828b9bd127304694d7b33110834b4b23e29a7f6b47fd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,199 +1,137 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.014832668953369797,
-  "eval_steps": 5,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0007416334476684898,
-      "grad_norm": 11.244009017944336,
-      "learning_rate": 2e-05,
       "loss": 18.8184,
       "step": 1
     },
     {
       "epoch": 0.0007416334476684898,
       "eval_loss": 2.656465768814087,
-      "eval_runtime": 71.0748,
-      "eval_samples_per_second": 7.992,
-      "eval_steps_per_second": 7.992,
       "step": 1
     },
     {
       "epoch": 0.0014832668953369797,
-      "grad_norm": 13.321176528930664,
-      "learning_rate": 4e-05,
       "loss": 24.6349,
       "step": 2
     },
     {
       "epoch": 0.0022249003430054697,
-      "grad_norm": 10.89687728881836,
-      "learning_rate": 6e-05,
-      "loss": 19.4295,
       "step": 3
     },
     {
       "epoch": 0.0029665337906739594,
-      "grad_norm": 11.234940528869629,
-      "learning_rate": 8e-05,
-      "loss": 19.7558,
       "step": 4
     },
     {
-      "epoch": 0.003708167238342449,
-      "grad_norm": 15.064847946166992,
-      "learning_rate": 0.0001,
-      "loss": 20.2215,
-      "step": 5
     },
     {
       "epoch": 0.003708167238342449,
-      "eval_loss": 2.5815353393554688,
-      "eval_runtime": 71.1425,
-      "eval_samples_per_second": 7.984,
-      "eval_steps_per_second": 7.984,
       "step": 5
     },
     {
       "epoch": 0.004449800686010939,
-      "grad_norm": 15.631669998168945,
-      "learning_rate": 0.00012,
-      "loss": 19.749,
       "step": 6
     },
     {
       "epoch": 0.005191434133679429,
-      "grad_norm": 22.724105834960938,
-      "learning_rate": 0.00014,
-      "loss": 17.047,
       "step": 7
     },
     {
       "epoch": 0.005933067581347919,
-      "grad_norm": 18.232868194580078,
-      "learning_rate": 0.00016,
-      "loss": 19.128,
       "step": 8
     },
     {
       "epoch": 0.006674701029016409,
-      "grad_norm": 26.458662033081055,
-      "learning_rate": 0.00018,
-      "loss": 20.2605,
       "step": 9
     },
     {
       "epoch": 0.007416334476684898,
-      "grad_norm": 28.14463996887207,
-      "learning_rate": 0.0002,
-      "loss": 11.6753,
       "step": 10
     },
     {
       "epoch": 0.007416334476684898,
-      "eval_loss": 1.3254823684692383,
-      "eval_runtime": 71.3979,
-      "eval_samples_per_second": 7.955,
-      "eval_steps_per_second": 7.955,
       "step": 10
-    },
-    {
-      "epoch": 0.008157967924353388,
-      "grad_norm": 24.458194732666016,
-      "learning_rate": 0.00019510565162951537,
-      "loss": 10.4457,
-      "step": 11
-    },
-    {
-      "epoch": 0.008899601372021879,
-      "grad_norm": 21.18819236755371,
-      "learning_rate": 0.00018090169943749476,
-      "loss": 6.5617,
-      "step": 12
-    },
-    {
-      "epoch": 0.009641234819690368,
-      "grad_norm": 20.3893985748291,
-      "learning_rate": 0.00015877852522924732,
-      "loss": 3.4987,
-      "step": 13
-    },
-    {
-      "epoch": 0.010382868267358857,
-      "grad_norm": 14.517038345336914,
-      "learning_rate": 0.00013090169943749476,
-      "loss": 4.4438,
-      "step": 14
-    },
-    {
-      "epoch": 0.011124501715027348,
-      "grad_norm": 12.411314964294434,
-      "learning_rate": 0.0001,
-      "loss": 2.0407,
-      "step": 15
-    },
-    {
-      "epoch": 0.011124501715027348,
-      "eval_loss": 0.4047902226448059,
-      "eval_runtime": 71.2049,
-      "eval_samples_per_second": 7.977,
-      "eval_steps_per_second": 7.977,
-      "step": 15
-    },
-    {
-      "epoch": 0.011866135162695838,
-      "grad_norm": 12.487533569335938,
-      "learning_rate": 6.909830056250527e-05,
-      "loss": 3.643,
-      "step": 16
-    },
-    {
-      "epoch": 0.012607768610364327,
-      "grad_norm": 16.057682037353516,
-      "learning_rate": 4.12214747707527e-05,
-      "loss": 2.3111,
-      "step": 17
-    },
-    {
-      "epoch": 0.013349402058032818,
-      "grad_norm": 15.11005687713623,
-      "learning_rate": 1.9098300562505266e-05,
-      "loss": 2.0926,
-      "step": 18
-    },
-    {
-      "epoch": 0.014091035505701307,
-      "grad_norm": 14.691518783569336,
-      "learning_rate": 4.8943483704846475e-06,
-      "loss": 1.8223,
-      "step": 19
-    },
-    {
-      "epoch": 0.014832668953369797,
-      "grad_norm": 28.493478775024414,
-      "learning_rate": 0.0,
-      "loss": 3.0463,
-      "step": 20
-    },
-    {
-      "epoch": 0.014832668953369797,
-      "eval_loss": 0.34163063764572144,
-      "eval_runtime": 71.2174,
-      "eval_samples_per_second": 7.976,
-      "eval_steps_per_second": 7.976,
-      "step": 20
     }
   ],
   "logging_steps": 1,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -201,12 +139,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1626293057617920.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.007416334476684898,
+  "eval_steps": 2,
+  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0007416334476684898,
+      "grad_norm": 10.709893226623535,
+      "learning_rate": 2.0000000000000003e-06,
       "loss": 18.8184,
       "step": 1
     },
     {
       "epoch": 0.0007416334476684898,
       "eval_loss": 2.656465768814087,
+      "eval_runtime": 152.8619,
+      "eval_samples_per_second": 3.716,
+      "eval_steps_per_second": 3.716,
       "step": 1
     },
     {
       "epoch": 0.0014832668953369797,
+      "grad_norm": 12.41769027709961,
+      "learning_rate": 4.000000000000001e-06,
       "loss": 24.6349,
       "step": 2
     },
+    {
+      "epoch": 0.0014832668953369797,
+      "eval_loss": 2.657148838043213,
+      "eval_runtime": 154.2397,
+      "eval_samples_per_second": 3.683,
+      "eval_steps_per_second": 3.683,
+      "step": 2
+    },
     {
       "epoch": 0.0022249003430054697,
+      "grad_norm": 10.268001556396484,
+      "learning_rate": 6e-06,
+      "loss": 19.4269,
       "step": 3
     },
     {
       "epoch": 0.0029665337906739594,
+      "grad_norm": 10.185709953308105,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 19.8056,
       "step": 4
     },
     {
+      "epoch": 0.0029665337906739594,
+      "eval_loss": 2.656468629837036,
+      "eval_runtime": 153.3523,
+      "eval_samples_per_second": 3.704,
+      "eval_steps_per_second": 3.704,
+      "step": 4
     },
     {
       "epoch": 0.003708167238342449,
+      "grad_norm": 12.79750919342041,
+      "learning_rate": 1e-05,
+      "loss": 20.4855,
       "step": 5
     },
     {
       "epoch": 0.004449800686010939,
+      "grad_norm": 13.541940689086914,
+      "learning_rate": 1.2e-05,
+      "loss": 20.2844,
+      "step": 6
+    },
+    {
+      "epoch": 0.004449800686010939,
+      "eval_loss": 2.653820514678955,
+      "eval_runtime": 154.4773,
+      "eval_samples_per_second": 3.677,
+      "eval_steps_per_second": 3.677,
       "step": 6
     },
     {
       "epoch": 0.005191434133679429,
+      "grad_norm": 13.248265266418457,
+      "learning_rate": 1.4e-05,
+      "loss": 18.3421,
       "step": 7
     },
     {
       "epoch": 0.005933067581347919,
+      "grad_norm": 11.36257266998291,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 21.3146,
+      "step": 8
+    },
+    {
+      "epoch": 0.005933067581347919,
+      "eval_loss": 2.6492502689361572,
+      "eval_runtime": 156.6643,
+      "eval_samples_per_second": 3.626,
+      "eval_steps_per_second": 3.626,
       "step": 8
     },
     {
       "epoch": 0.006674701029016409,
+      "grad_norm": 15.255399703979492,
+      "learning_rate": 1.8e-05,
+      "loss": 24.5242,
       "step": 9
     },
     {
       "epoch": 0.007416334476684898,
+      "grad_norm": 12.062735557556152,
+      "learning_rate": 2e-05,
+      "loss": 18.8994,
       "step": 10
     },
     {
       "epoch": 0.007416334476684898,
+      "eval_loss": 2.639418125152588,
+      "eval_runtime": 162.5206,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 3.495,
       "step": 10
     }
   ],
   "logging_steps": 1,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 2,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 813146528808960.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315a629371b55b604291317d978f2643b7cc821c29085a306d6d7cdc70f4f485
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:6186eaf8dd72c0e4c181d446fba9b5c8f14c9127baf3207b261da3c371c6c835
 size 6776