Training in progress, step 200, checkpoint

Browse files

Files changed (7) hide show

checkpoint-200/adapter_config.json +4 -4
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/scheduler.pt +1 -1
checkpoint-200/trainer_state.json +103 -103
checkpoint-200/training_args.bin +1 -1

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
-    "gate_proj",
     "up_proj",
     "o_proj",
     "k_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "o_proj",
+    "v_proj",
+    "q_proj",
+    "down_proj",
     "k_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2407c24f84696be3b8ddd326bb5a9a04e3f0d7c30f356f5ba249e3715c4f4aaf
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:a68d2a917dab0749fe171b3ed511ad1fe4731403f257556d544e622af266ca6f
 size 167832240

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e7d77c7b3a5a16fa9815515d5f44a619b4cf9328df84d68891ea2b7d4260c51
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:629cc631973f3bbc4f03185bbc70261d9d258133eecf4047d816642b703057cc
 size 335922386

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c680c82dfa64ac09856e13da41e1d9bbb32846404937891b317baed35a32980c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e39b169f743575a657d82b0bb4e1ba932e8cd4a88f11c5f8a87f46aaaeeed639
 size 14244

checkpoint-200/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ff3645a8ea38fb48d27fe4a4bdad8f5b91993325afa3cd2e0307ada985e6716
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:df94ae7fb9621b11e5c9bdcc14e69064bab6aec53757509e04f89e6c7812516d
 size 1064

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.21008403361344538,
   "eval_steps": 50,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -9,180 +9,180 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01050420168067227,
-      "grad_norm": 2.5582146644592285,
-      "learning_rate": 4.98249299719888e-05,
-      "loss": 1.6787,
       "step": 10
     },
     {
-      "epoch": 0.02100840336134454,
-      "grad_norm": 0.9345070719718933,
-      "learning_rate": 4.96498599439776e-05,
-      "loss": 0.518,
       "step": 20
     },
     {
-      "epoch": 0.031512605042016806,
-      "grad_norm": 1.6358414888381958,
-      "learning_rate": 4.947478991596639e-05,
-      "loss": 0.4604,
       "step": 30
     },
     {
-      "epoch": 0.04201680672268908,
-      "grad_norm": 0.7778844237327576,
-      "learning_rate": 4.9299719887955186e-05,
-      "loss": 0.3771,
       "step": 40
     },
     {
-      "epoch": 0.052521008403361345,
-      "grad_norm": 0.7006077766418457,
-      "learning_rate": 4.912464985994398e-05,
-      "loss": 0.3842,
       "step": 50
     },
     {
-      "epoch": 0.052521008403361345,
-      "eval_loss": 0.42603224515914917,
-      "eval_runtime": 13.5673,
-      "eval_samples_per_second": 35.379,
-      "eval_steps_per_second": 2.211,
       "step": 50
     },
     {
-      "epoch": 0.06302521008403361,
-      "grad_norm": 0.6415153741836548,
-      "learning_rate": 4.8949579831932775e-05,
-      "loss": 0.3399,
       "step": 60
     },
     {
-      "epoch": 0.07352941176470588,
-      "grad_norm": 0.6030780076980591,
-      "learning_rate": 4.877450980392157e-05,
-      "loss": 0.3447,
       "step": 70
     },
     {
-      "epoch": 0.08403361344537816,
-      "grad_norm": 0.688852071762085,
-      "learning_rate": 4.859943977591036e-05,
-      "loss": 0.3219,
       "step": 80
     },
     {
-      "epoch": 0.09453781512605042,
-      "grad_norm": 0.6371557712554932,
-      "learning_rate": 4.8424369747899164e-05,
-      "loss": 0.3379,
       "step": 90
     },
     {
-      "epoch": 0.10504201680672269,
-      "grad_norm": 0.7739270329475403,
-      "learning_rate": 4.824929971988796e-05,
-      "loss": 0.3177,
       "step": 100
     },
     {
-      "epoch": 0.10504201680672269,
-      "eval_loss": 0.3801896274089813,
-      "eval_runtime": 13.6107,
-      "eval_samples_per_second": 35.266,
-      "eval_steps_per_second": 2.204,
       "step": 100
     },
     {
-      "epoch": 0.11554621848739496,
-      "grad_norm": 0.649507462978363,
-      "learning_rate": 4.807422969187675e-05,
-      "loss": 0.3415,
       "step": 110
     },
     {
-      "epoch": 0.12605042016806722,
-      "grad_norm": 0.594717264175415,
-      "learning_rate": 4.7899159663865554e-05,
-      "loss": 0.3325,
       "step": 120
     },
     {
-      "epoch": 0.13655462184873948,
-      "grad_norm": 0.627918541431427,
-      "learning_rate": 4.772408963585435e-05,
-      "loss": 0.3222,
       "step": 130
     },
     {
-      "epoch": 0.14705882352941177,
-      "grad_norm": 0.5384674668312073,
-      "learning_rate": 4.7549019607843135e-05,
-      "loss": 0.3426,
       "step": 140
     },
     {
-      "epoch": 0.15756302521008403,
-      "grad_norm": 0.5673420429229736,
-      "learning_rate": 4.7373949579831936e-05,
-      "loss": 0.3061,
       "step": 150
     },
     {
-      "epoch": 0.15756302521008403,
-      "eval_loss": 0.3653399348258972,
-      "eval_runtime": 13.5947,
-      "eval_samples_per_second": 35.308,
-      "eval_steps_per_second": 2.207,
       "step": 150
     },
     {
-      "epoch": 0.16806722689075632,
-      "grad_norm": 0.6111018657684326,
-      "learning_rate": 4.719887955182073e-05,
-      "loss": 0.3271,
       "step": 160
     },
     {
-      "epoch": 0.17857142857142858,
-      "grad_norm": 0.7422594428062439,
-      "learning_rate": 4.7023809523809525e-05,
-      "loss": 0.315,
       "step": 170
     },
     {
-      "epoch": 0.18907563025210083,
-      "grad_norm": 0.7226534485816956,
-      "learning_rate": 4.684873949579832e-05,
-      "loss": 0.3031,
       "step": 180
     },
     {
-      "epoch": 0.19957983193277312,
-      "grad_norm": 0.6302976012229919,
-      "learning_rate": 4.667366946778712e-05,
-      "loss": 0.3161,
       "step": 190
     },
     {
-      "epoch": 0.21008403361344538,
-      "grad_norm": 0.6225076913833618,
-      "learning_rate": 4.6498599439775914e-05,
-      "loss": 0.3038,
       "step": 200
     },
     {
-      "epoch": 0.21008403361344538,
-      "eval_loss": 0.35061606764793396,
-      "eval_runtime": 13.5616,
-      "eval_samples_per_second": 35.394,
-      "eval_steps_per_second": 2.212,
       "step": 200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2856,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
@@ -198,7 +198,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.383530248228045e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2107481559536354,
   "eval_steps": 50,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01053740779768177,
+      "grad_norm": 3.070249080657959,
+      "learning_rate": 4.982437653670531e-05,
+      "loss": 1.7879,
       "step": 10
     },
     {
+      "epoch": 0.02107481559536354,
+      "grad_norm": 1.702326774597168,
+      "learning_rate": 4.964875307341061e-05,
+      "loss": 0.5567,
       "step": 20
     },
     {
+      "epoch": 0.03161222339304531,
+      "grad_norm": 1.1947294473648071,
+      "learning_rate": 4.947312961011591e-05,
+      "loss": 0.4493,
       "step": 30
     },
     {
+      "epoch": 0.04214963119072708,
+      "grad_norm": 0.9556658267974854,
+      "learning_rate": 4.929750614682122e-05,
+      "loss": 0.3728,
       "step": 40
     },
     {
+      "epoch": 0.05268703898840885,
+      "grad_norm": 0.7952510714530945,
+      "learning_rate": 4.9121882683526524e-05,
+      "loss": 0.3535,
       "step": 50
     },
     {
+      "epoch": 0.05268703898840885,
+      "eval_loss": 0.4311191439628601,
+      "eval_runtime": 13.6539,
+      "eval_samples_per_second": 35.155,
+      "eval_steps_per_second": 2.197,
       "step": 50
     },
     {
+      "epoch": 0.06322444678609063,
+      "grad_norm": 0.6962826251983643,
+      "learning_rate": 4.894625922023183e-05,
+      "loss": 0.3507,
       "step": 60
     },
     {
+      "epoch": 0.0737618545837724,
+      "grad_norm": 0.6941961646080017,
+      "learning_rate": 4.877063575693713e-05,
+      "loss": 0.3585,
       "step": 70
     },
     {
+      "epoch": 0.08429926238145416,
+      "grad_norm": 0.6864392757415771,
+      "learning_rate": 4.8595012293642434e-05,
+      "loss": 0.3496,
       "step": 80
     },
     {
+      "epoch": 0.09483667017913593,
+      "grad_norm": 0.7322937846183777,
+      "learning_rate": 4.841938883034774e-05,
+      "loss": 0.3295,
       "step": 90
     },
     {
+      "epoch": 0.1053740779768177,
+      "grad_norm": 0.6921488046646118,
+      "learning_rate": 4.824376536705304e-05,
+      "loss": 0.3357,
       "step": 100
     },
     {
+      "epoch": 0.1053740779768177,
+      "eval_loss": 0.39120009541511536,
+      "eval_runtime": 13.7031,
+      "eval_samples_per_second": 35.029,
+      "eval_steps_per_second": 2.189,
       "step": 100
     },
     {
+      "epoch": 0.11591148577449947,
+      "grad_norm": 0.6553240418434143,
+      "learning_rate": 4.8068141903758344e-05,
+      "loss": 0.3105,
       "step": 110
     },
     {
+      "epoch": 0.12644889357218125,
+      "grad_norm": 0.5637819170951843,
+      "learning_rate": 4.789251844046364e-05,
+      "loss": 0.3164,
       "step": 120
     },
     {
+      "epoch": 0.136986301369863,
+      "grad_norm": 0.6341928839683533,
+      "learning_rate": 4.7716894977168955e-05,
+      "loss": 0.304,
       "step": 130
     },
     {
+      "epoch": 0.1475237091675448,
+      "grad_norm": 0.5917785167694092,
+      "learning_rate": 4.754127151387426e-05,
+      "loss": 0.3234,
       "step": 140
     },
     {
+      "epoch": 0.15806111696522657,
+      "grad_norm": 0.5884453654289246,
+      "learning_rate": 4.736564805057956e-05,
+      "loss": 0.317,
       "step": 150
     },
     {
+      "epoch": 0.15806111696522657,
+      "eval_loss": 0.37688738107681274,
+      "eval_runtime": 13.6535,
+      "eval_samples_per_second": 35.156,
+      "eval_steps_per_second": 2.197,
       "step": 150
     },
     {
+      "epoch": 0.16859852476290832,
+      "grad_norm": 0.5819964408874512,
+      "learning_rate": 4.7190024587284866e-05,
+      "loss": 0.2992,
       "step": 160
     },
     {
+      "epoch": 0.1791359325605901,
+      "grad_norm": 0.689468264579773,
+      "learning_rate": 4.7014401123990165e-05,
+      "loss": 0.3168,
       "step": 170
     },
     {
+      "epoch": 0.18967334035827185,
+      "grad_norm": 0.6950872540473938,
+      "learning_rate": 4.683877766069547e-05,
+      "loss": 0.3041,
       "step": 180
     },
     {
+      "epoch": 0.20021074815595363,
+      "grad_norm": 0.8322122097015381,
+      "learning_rate": 4.6663154197400776e-05,
+      "loss": 0.3028,
       "step": 190
     },
     {
+      "epoch": 0.2107481559536354,
+      "grad_norm": 0.5850774645805359,
+      "learning_rate": 4.6487530734106075e-05,
+      "loss": 0.2992,
       "step": 200
     },
     {
+      "epoch": 0.2107481559536354,
+      "eval_loss": 0.36230018734931946,
+      "eval_runtime": 13.6165,
+      "eval_samples_per_second": 35.251,
+      "eval_steps_per_second": 2.203,
       "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 2847,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 2.3812843003969536e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5894a90f0aacad19de132730666f8b4647a0c4aa14309866a5f87d3723ce6a7
 size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5fa9d8b62d1ebe6967a504a7decdb5eeee2bb4aac96e7414f3930f9adcff095
 size 5880