Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

checkpoint-100/adapter_config.json +4 -4
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/rng_state.pth +1 -1
checkpoint-100/scheduler.pt +1 -1
checkpoint-100/trainer_state.json +53 -53
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
-    "gate_proj",
     "up_proj",
     "o_proj",
     "k_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "o_proj",
+    "v_proj",
+    "q_proj",
+    "down_proj",
     "k_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f8c90dbaaadd6c4ee44c558694e8d771de6a6989493310a3ae2a3af7c4b0ba3
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:f17a98b06387f5018f383be7587b01f3cec74945ad5b1204b615110e64bba081
 size 167832240

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14248c03e373c71af1272e2b77ab7dfffdda213123167f4bf223d9007c9aca5c
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:16f3923095888de51d7b67581eb3f1d4e2720f3eb5b4c9b9193c40f5e60ecbf2
 size 335922386

checkpoint-100/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6ad92166b7d68158335d1db022a3ca0c87b7711f464c878dd8fe3b8bf6429fa
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:44154687ffe134613e15a79d0d47a7995b4cae27d59b177de6fb7656559737c1
 size 14244

checkpoint-100/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8f79ab7cab95bdf3cc6c9b1467eef18704561fae62d7e0154da08f6db3fb3c0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa06820825157a9ccd40dd69e73309298e5d4c9dfccf4542d49d2063af57261e
 size 1064

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10504201680672269,
   "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
@@ -9,94 +9,94 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01050420168067227,
-      "grad_norm": 2.5582146644592285,
-      "learning_rate": 4.98249299719888e-05,
-      "loss": 1.6787,
       "step": 10
     },
     {
-      "epoch": 0.02100840336134454,
-      "grad_norm": 0.9345070719718933,
-      "learning_rate": 4.96498599439776e-05,
-      "loss": 0.518,
       "step": 20
     },
     {
-      "epoch": 0.031512605042016806,
-      "grad_norm": 1.6358414888381958,
-      "learning_rate": 4.947478991596639e-05,
-      "loss": 0.4604,
       "step": 30
     },
     {
-      "epoch": 0.04201680672268908,
-      "grad_norm": 0.7778844237327576,
-      "learning_rate": 4.9299719887955186e-05,
-      "loss": 0.3771,
       "step": 40
     },
     {
-      "epoch": 0.052521008403361345,
-      "grad_norm": 0.7006077766418457,
-      "learning_rate": 4.912464985994398e-05,
-      "loss": 0.3842,
       "step": 50
     },
     {
-      "epoch": 0.052521008403361345,
-      "eval_loss": 0.42603224515914917,
-      "eval_runtime": 13.5673,
-      "eval_samples_per_second": 35.379,
-      "eval_steps_per_second": 2.211,
       "step": 50
     },
     {
-      "epoch": 0.06302521008403361,
-      "grad_norm": 0.6415153741836548,
-      "learning_rate": 4.8949579831932775e-05,
-      "loss": 0.3399,
       "step": 60
     },
     {
-      "epoch": 0.07352941176470588,
-      "grad_norm": 0.6030780076980591,
-      "learning_rate": 4.877450980392157e-05,
-      "loss": 0.3447,
       "step": 70
     },
     {
-      "epoch": 0.08403361344537816,
-      "grad_norm": 0.688852071762085,
-      "learning_rate": 4.859943977591036e-05,
-      "loss": 0.3219,
       "step": 80
     },
     {
-      "epoch": 0.09453781512605042,
-      "grad_norm": 0.6371557712554932,
-      "learning_rate": 4.8424369747899164e-05,
-      "loss": 0.3379,
       "step": 90
     },
     {
-      "epoch": 0.10504201680672269,
-      "grad_norm": 0.7739270329475403,
-      "learning_rate": 4.824929971988796e-05,
-      "loss": 0.3177,
       "step": 100
     },
     {
-      "epoch": 0.10504201680672269,
-      "eval_loss": 0.3801896274089813,
-      "eval_runtime": 13.6107,
-      "eval_samples_per_second": 35.266,
-      "eval_steps_per_second": 2.204,
       "step": 100
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2856,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
@@ -112,7 +112,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1886860020875264e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1053740779768177,
   "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01053740779768177,
+      "grad_norm": 3.070249080657959,
+      "learning_rate": 4.982437653670531e-05,
+      "loss": 1.7879,
       "step": 10
     },
     {
+      "epoch": 0.02107481559536354,
+      "grad_norm": 1.702326774597168,
+      "learning_rate": 4.964875307341061e-05,
+      "loss": 0.5567,
       "step": 20
     },
     {
+      "epoch": 0.03161222339304531,
+      "grad_norm": 1.1947294473648071,
+      "learning_rate": 4.947312961011591e-05,
+      "loss": 0.4493,
       "step": 30
     },
     {
+      "epoch": 0.04214963119072708,
+      "grad_norm": 0.9556658267974854,
+      "learning_rate": 4.929750614682122e-05,
+      "loss": 0.3728,
       "step": 40
     },
     {
+      "epoch": 0.05268703898840885,
+      "grad_norm": 0.7952510714530945,
+      "learning_rate": 4.9121882683526524e-05,
+      "loss": 0.3535,
       "step": 50
     },
     {
+      "epoch": 0.05268703898840885,
+      "eval_loss": 0.4311191439628601,
+      "eval_runtime": 13.6539,
+      "eval_samples_per_second": 35.155,
+      "eval_steps_per_second": 2.197,
       "step": 50
     },
     {
+      "epoch": 0.06322444678609063,
+      "grad_norm": 0.6962826251983643,
+      "learning_rate": 4.894625922023183e-05,
+      "loss": 0.3507,
       "step": 60
     },
     {
+      "epoch": 0.0737618545837724,
+      "grad_norm": 0.6941961646080017,
+      "learning_rate": 4.877063575693713e-05,
+      "loss": 0.3585,
       "step": 70
     },
     {
+      "epoch": 0.08429926238145416,
+      "grad_norm": 0.6864392757415771,
+      "learning_rate": 4.8595012293642434e-05,
+      "loss": 0.3496,
       "step": 80
     },
     {
+      "epoch": 0.09483667017913593,
+      "grad_norm": 0.7322937846183777,
+      "learning_rate": 4.841938883034774e-05,
+      "loss": 0.3295,
       "step": 90
     },
     {
+      "epoch": 0.1053740779768177,
+      "grad_norm": 0.6921488046646118,
+      "learning_rate": 4.824376536705304e-05,
+      "loss": 0.3357,
       "step": 100
     },
     {
+      "epoch": 0.1053740779768177,
+      "eval_loss": 0.39120009541511536,
+      "eval_runtime": 13.7031,
+      "eval_samples_per_second": 35.029,
+      "eval_steps_per_second": 2.189,
       "step": 100
     }
   ],
   "logging_steps": 10,
+  "max_steps": 2847,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.1795573109030912e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5894a90f0aacad19de132730666f8b4647a0c4aa14309866a5f87d3723ce6a7
 size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5fa9d8b62d1ebe6967a504a7decdb5eeee2bb4aac96e7414f3930f9adcff095
 size 5880