Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +102 -102
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "q_proj",
     "o_proj",
     "up_proj",
-    "v_proj",
     "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "k_proj",
+    "down_proj",
     "up_proj",
+    "q_proj",
     "gate_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f35a28f7e54d3d730431348fd1d8e44560da9a023d08a81ab07f66ba53a5d36
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec0906c2f88fa1d573a819bdb2d208f3596d020010cfb74c2ba15eb93acbadb0
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c034fc72658c1a90a3540ebeb6cf072f4c9329979e46f503215c85d8d25ce40b
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4038526394099229e1cda0ee78242b2e26b86e6acb6f609fb0a876e36b03e1a
 size 671466706

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 1.6284617185592651,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
   "epoch": 0.01835662329914412,
   "eval_steps": 25,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.00036713246598288243,
-      "grad_norm": 0.3063487410545349,
       "learning_rate": 5e-05,
       "loss": 1.3837,
       "step": 1
@@ -18,368 +18,368 @@
     {
       "epoch": 0.00036713246598288243,
       "eval_loss": 1.8131353855133057,
-      "eval_runtime": 552.8607,
-      "eval_samples_per_second": 33.191,
-      "eval_steps_per_second": 4.149,
       "step": 1
     },
     {
       "epoch": 0.0007342649319657649,
-      "grad_norm": 0.26243820786476135,
       "learning_rate": 0.0001,
       "loss": 1.3587,
       "step": 2
     },
     {
       "epoch": 0.0011013973979486474,
-      "grad_norm": 0.2742091715335846,
       "learning_rate": 9.989294616193017e-05,
-      "loss": 1.4801,
       "step": 3
     },
     {
       "epoch": 0.0014685298639315297,
-      "grad_norm": 0.25582578778266907,
       "learning_rate": 9.957224306869053e-05,
-      "loss": 1.5487,
       "step": 4
     },
     {
       "epoch": 0.0018356623299144123,
-      "grad_norm": 0.31109878420829773,
       "learning_rate": 9.903926402016153e-05,
       "loss": 1.4885,
       "step": 5
     },
     {
       "epoch": 0.002202794795897295,
-      "grad_norm": 0.31667712330818176,
       "learning_rate": 9.829629131445342e-05,
-      "loss": 1.6568,
       "step": 6
     },
     {
       "epoch": 0.0025699272618801773,
-      "grad_norm": 0.318475604057312,
       "learning_rate": 9.73465064747553e-05,
-      "loss": 1.7707,
       "step": 7
     },
     {
       "epoch": 0.0029370597278630594,
-      "grad_norm": 0.3117552697658539,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 1.7942,
       "step": 8
     },
     {
       "epoch": 0.003304192193845942,
-      "grad_norm": 0.334540992975235,
       "learning_rate": 9.484363707663442e-05,
-      "loss": 1.9268,
       "step": 9
     },
     {
       "epoch": 0.0036713246598288245,
-      "grad_norm": 0.339858740568161,
       "learning_rate": 9.330127018922194e-05,
-      "loss": 1.8802,
       "step": 10
     },
     {
       "epoch": 0.004038457125811707,
-      "grad_norm": 0.368769109249115,
       "learning_rate": 9.157348061512727e-05,
-      "loss": 1.8976,
       "step": 11
     },
     {
       "epoch": 0.00440558959179459,
-      "grad_norm": 0.6120809316635132,
       "learning_rate": 8.966766701456177e-05,
       "loss": 2.0217,
       "step": 12
     },
     {
       "epoch": 0.004772722057777472,
-      "grad_norm": 0.6437970399856567,
       "learning_rate": 8.759199037394887e-05,
-      "loss": 1.4006,
       "step": 13
     },
     {
       "epoch": 0.005139854523760355,
-      "grad_norm": 0.5083521008491516,
       "learning_rate": 8.535533905932738e-05,
-      "loss": 1.351,
       "step": 14
     },
     {
       "epoch": 0.005506986989743236,
-      "grad_norm": 0.25930893421173096,
       "learning_rate": 8.296729075500344e-05,
       "loss": 1.3625,
       "step": 15
     },
     {
       "epoch": 0.005874119455726119,
-      "grad_norm": 0.2491670399904251,
       "learning_rate": 8.043807145043604e-05,
-      "loss": 1.4351,
       "step": 16
     },
     {
       "epoch": 0.006241251921709001,
-      "grad_norm": 0.30403926968574524,
       "learning_rate": 7.777851165098012e-05,
-      "loss": 1.5117,
       "step": 17
     },
     {
       "epoch": 0.006608384387691884,
-      "grad_norm": 0.305441677570343,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 1.59,
       "step": 18
     },
     {
       "epoch": 0.0069755168536747665,
-      "grad_norm": 0.31312450766563416,
       "learning_rate": 7.211443451095007e-05,
-      "loss": 1.6928,
       "step": 19
     },
     {
       "epoch": 0.007342649319657649,
-      "grad_norm": 0.26660406589508057,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 1.7069,
       "step": 20
     },
     {
       "epoch": 0.0077097817856405315,
-      "grad_norm": 0.2760314643383026,
       "learning_rate": 6.607197326515808e-05,
-      "loss": 1.8256,
       "step": 21
     },
     {
       "epoch": 0.008076914251623414,
-      "grad_norm": 0.26834866404533386,
       "learning_rate": 6.294095225512603e-05,
       "loss": 1.7697,
       "step": 22
     },
     {
       "epoch": 0.008444046717606296,
-      "grad_norm": 0.30620095133781433,
       "learning_rate": 5.9754516100806423e-05,
-      "loss": 1.903,
       "step": 23
     },
     {
       "epoch": 0.00881117918358918,
-      "grad_norm": 0.39091628789901733,
       "learning_rate": 5.6526309611002594e-05,
-      "loss": 1.9772,
       "step": 24
     },
     {
       "epoch": 0.00917831164957206,
-      "grad_norm": 0.6975719928741455,
       "learning_rate": 5.327015646150716e-05,
-      "loss": 2.0534,
       "step": 25
     },
     {
       "epoch": 0.00917831164957206,
-      "eval_loss": 1.6494234800338745,
-      "eval_runtime": 552.6695,
-      "eval_samples_per_second": 33.202,
-      "eval_steps_per_second": 4.151,
       "step": 25
     },
     {
       "epoch": 0.009545444115554944,
-      "grad_norm": 0.4693719446659088,
       "learning_rate": 5e-05,
-      "loss": 1.3297,
       "step": 26
     },
     {
       "epoch": 0.009912576581537826,
-      "grad_norm": 0.42381155490875244,
       "learning_rate": 4.6729843538492847e-05,
-      "loss": 1.3274,
       "step": 27
     },
     {
       "epoch": 0.01027970904752071,
-      "grad_norm": 0.39682063460350037,
       "learning_rate": 4.347369038899744e-05,
       "loss": 1.3236,
       "step": 28
     },
     {
       "epoch": 0.010646841513503591,
-      "grad_norm": 0.2870841920375824,
       "learning_rate": 4.0245483899193595e-05,
       "loss": 1.4153,
       "step": 29
     },
     {
       "epoch": 0.011013973979486473,
-      "grad_norm": 0.21681925654411316,
       "learning_rate": 3.705904774487396e-05,
-      "loss": 1.4521,
       "step": 30
     },
     {
       "epoch": 0.011381106445469356,
-      "grad_norm": 0.2310449630022049,
       "learning_rate": 3.392802673484193e-05,
       "loss": 1.5518,
       "step": 31
     },
     {
       "epoch": 0.011748238911452238,
-      "grad_norm": 0.22938717901706696,
       "learning_rate": 3.086582838174551e-05,
-      "loss": 1.6657,
       "step": 32
     },
     {
       "epoch": 0.012115371377435121,
-      "grad_norm": 0.27847155928611755,
       "learning_rate": 2.7885565489049946e-05,
-      "loss": 1.7492,
       "step": 33
     },
     {
       "epoch": 0.012482503843418003,
-      "grad_norm": 0.30243757367134094,
       "learning_rate": 2.500000000000001e-05,
-      "loss": 1.8526,
       "step": 34
     },
     {
       "epoch": 0.012849636309400886,
-      "grad_norm": 0.3348025977611542,
       "learning_rate": 2.2221488349019903e-05,
-      "loss": 1.9287,
       "step": 35
     },
     {
       "epoch": 0.013216768775383768,
-      "grad_norm": 0.3776409924030304,
       "learning_rate": 1.9561928549563968e-05,
-      "loss": 1.8587,
       "step": 36
     },
     {
       "epoch": 0.013583901241366651,
-      "grad_norm": 0.4504229426383972,
       "learning_rate": 1.703270924499656e-05,
-      "loss": 2.074,
       "step": 37
     },
     {
       "epoch": 0.013951033707349533,
-      "grad_norm": 0.2333536148071289,
       "learning_rate": 1.4644660940672627e-05,
-      "loss": 1.3327,
       "step": 38
     },
     {
       "epoch": 0.014318166173332416,
-      "grad_norm": 0.19416548311710358,
       "learning_rate": 1.2408009626051137e-05,
-      "loss": 1.2702,
       "step": 39
     },
     {
       "epoch": 0.014685298639315298,
-      "grad_norm": 0.15389417111873627,
       "learning_rate": 1.0332332985438248e-05,
-      "loss": 1.2747,
       "step": 40
     },
     {
       "epoch": 0.01505243110529818,
-      "grad_norm": 0.153714120388031,
       "learning_rate": 8.426519384872733e-06,
       "loss": 1.4077,
       "step": 41
     },
     {
       "epoch": 0.015419563571281063,
-      "grad_norm": 0.16780051589012146,
       "learning_rate": 6.698729810778065e-06,
-      "loss": 1.4047,
       "step": 42
     },
     {
       "epoch": 0.015786696037263945,
-      "grad_norm": 0.17401614785194397,
       "learning_rate": 5.156362923365588e-06,
-      "loss": 1.509,
       "step": 43
     },
     {
       "epoch": 0.016153828503246828,
-      "grad_norm": 0.18669752776622772,
       "learning_rate": 3.8060233744356633e-06,
-      "loss": 1.6374,
       "step": 44
     },
     {
       "epoch": 0.01652096096922971,
-      "grad_norm": 0.19484804570674896,
       "learning_rate": 2.653493525244721e-06,
-      "loss": 1.5947,
       "step": 45
     },
     {
       "epoch": 0.01688809343521259,
-      "grad_norm": 0.22911863029003143,
       "learning_rate": 1.70370868554659e-06,
-      "loss": 1.7622,
       "step": 46
     },
     {
       "epoch": 0.017255225901195475,
-      "grad_norm": 0.26329806447029114,
       "learning_rate": 9.607359798384785e-07,
-      "loss": 1.9382,
       "step": 47
     },
     {
       "epoch": 0.01762235836717836,
-      "grad_norm": 0.2940710484981537,
       "learning_rate": 4.277569313094809e-07,
-      "loss": 1.9049,
       "step": 48
     },
     {
       "epoch": 0.017989490833161238,
-      "grad_norm": 0.3387107849121094,
       "learning_rate": 1.0705383806982606e-07,
-      "loss": 1.9657,
       "step": 49
     },
     {
       "epoch": 0.01835662329914412,
-      "grad_norm": 0.6387968063354492,
       "learning_rate": 0.0,
-      "loss": 2.0636,
       "step": 50
     },
     {
       "epoch": 0.01835662329914412,
-      "eval_loss": 1.6284617185592651,
-      "eval_runtime": 552.4972,
-      "eval_samples_per_second": 33.213,
-      "eval_steps_per_second": 4.152,
       "step": 50
     }
   ],

 {
+  "best_metric": 1.6283235549926758,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
   "epoch": 0.01835662329914412,
   "eval_steps": 25,
   "log_history": [
     {
       "epoch": 0.00036713246598288243,
+      "grad_norm": 0.2893505096435547,
       "learning_rate": 5e-05,
       "loss": 1.3837,
       "step": 1
     {
       "epoch": 0.00036713246598288243,
       "eval_loss": 1.8131353855133057,
+      "eval_runtime": 556.1025,
+      "eval_samples_per_second": 32.998,
+      "eval_steps_per_second": 4.125,
       "step": 1
     },
     {
       "epoch": 0.0007342649319657649,
+      "grad_norm": 0.25116807222366333,
       "learning_rate": 0.0001,
       "loss": 1.3587,
       "step": 2
     },
     {
       "epoch": 0.0011013973979486474,
+      "grad_norm": 0.2631818354129791,
       "learning_rate": 9.989294616193017e-05,
+      "loss": 1.4804,
       "step": 3
     },
     {
       "epoch": 0.0014685298639315297,
+      "grad_norm": 0.24802690744400024,
       "learning_rate": 9.957224306869053e-05,
+      "loss": 1.5489,
       "step": 4
     },
     {
       "epoch": 0.0018356623299144123,
+      "grad_norm": 0.2989860773086548,
       "learning_rate": 9.903926402016153e-05,
       "loss": 1.4885,
       "step": 5
     },
     {
       "epoch": 0.002202794795897295,
+      "grad_norm": 0.3098028302192688,
       "learning_rate": 9.829629131445342e-05,
+      "loss": 1.6575,
       "step": 6
     },
     {
       "epoch": 0.0025699272618801773,
+      "grad_norm": 0.316412091255188,
       "learning_rate": 9.73465064747553e-05,
+      "loss": 1.7712,
       "step": 7
     },
     {
       "epoch": 0.0029370597278630594,
+      "grad_norm": 0.3081892728805542,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 1.7949,
       "step": 8
     },
     {
       "epoch": 0.003304192193845942,
+      "grad_norm": 0.33027389645576477,
       "learning_rate": 9.484363707663442e-05,
+      "loss": 1.9264,
       "step": 9
     },
     {
       "epoch": 0.0036713246598288245,
+      "grad_norm": 0.33668050169944763,
       "learning_rate": 9.330127018922194e-05,
+      "loss": 1.88,
       "step": 10
     },
     {
       "epoch": 0.004038457125811707,
+      "grad_norm": 0.3632022738456726,
       "learning_rate": 9.157348061512727e-05,
+      "loss": 1.8973,
       "step": 11
     },
     {
       "epoch": 0.00440558959179459,
+      "grad_norm": 0.5979259014129639,
       "learning_rate": 8.966766701456177e-05,
       "loss": 2.0217,
       "step": 12
     },
     {
       "epoch": 0.004772722057777472,
+      "grad_norm": 0.6315776705741882,
       "learning_rate": 8.759199037394887e-05,
+      "loss": 1.4001,
       "step": 13
     },
     {
       "epoch": 0.005139854523760355,
+      "grad_norm": 0.49102914333343506,
       "learning_rate": 8.535533905932738e-05,
+      "loss": 1.3502,
       "step": 14
     },
     {
       "epoch": 0.005506986989743236,
+      "grad_norm": 0.2492787390947342,
       "learning_rate": 8.296729075500344e-05,
       "loss": 1.3625,
       "step": 15
     },
     {
       "epoch": 0.005874119455726119,
+      "grad_norm": 0.2382153868675232,
       "learning_rate": 8.043807145043604e-05,
+      "loss": 1.4349,
       "step": 16
     },
     {
       "epoch": 0.006241251921709001,
+      "grad_norm": 0.2950337827205658,
       "learning_rate": 7.777851165098012e-05,
+      "loss": 1.5111,
       "step": 17
     },
     {
       "epoch": 0.006608384387691884,
+      "grad_norm": 0.29676976799964905,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 1.5897,
       "step": 18
     },
     {
       "epoch": 0.0069755168536747665,
+      "grad_norm": 0.3079265058040619,
       "learning_rate": 7.211443451095007e-05,
+      "loss": 1.693,
       "step": 19
     },
     {
       "epoch": 0.007342649319657649,
+      "grad_norm": 0.2614591419696808,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 1.7067,
       "step": 20
     },
     {
       "epoch": 0.0077097817856405315,
+      "grad_norm": 0.2724792957305908,
       "learning_rate": 6.607197326515808e-05,
+      "loss": 1.8252,
       "step": 21
     },
     {
       "epoch": 0.008076914251623414,
+      "grad_norm": 0.2617237865924835,
       "learning_rate": 6.294095225512603e-05,
       "loss": 1.7697,
       "step": 22
     },
     {
       "epoch": 0.008444046717606296,
+      "grad_norm": 0.30057573318481445,
       "learning_rate": 5.9754516100806423e-05,
+      "loss": 1.9021,
       "step": 23
     },
     {
       "epoch": 0.00881117918358918,
+      "grad_norm": 0.38569122552871704,
       "learning_rate": 5.6526309611002594e-05,
+      "loss": 1.9765,
       "step": 24
     },
     {
       "epoch": 0.00917831164957206,
+      "grad_norm": 0.6859440207481384,
       "learning_rate": 5.327015646150716e-05,
+      "loss": 2.054,
       "step": 25
     },
     {
       "epoch": 0.00917831164957206,
+      "eval_loss": 1.649796724319458,
+      "eval_runtime": 556.4725,
+      "eval_samples_per_second": 32.976,
+      "eval_steps_per_second": 4.122,
       "step": 25
     },
     {
       "epoch": 0.009545444115554944,
+      "grad_norm": 0.4718552529811859,
       "learning_rate": 5e-05,
+      "loss": 1.3309,
       "step": 26
     },
     {
       "epoch": 0.009912576581537826,
+      "grad_norm": 0.41934654116630554,
       "learning_rate": 4.6729843538492847e-05,
+      "loss": 1.3282,
       "step": 27
     },
     {
       "epoch": 0.01027970904752071,
+      "grad_norm": 0.3922218978404999,
       "learning_rate": 4.347369038899744e-05,
       "loss": 1.3236,
       "step": 28
     },
     {
       "epoch": 0.010646841513503591,
+      "grad_norm": 0.28288373351097107,
       "learning_rate": 4.0245483899193595e-05,
       "loss": 1.4153,
       "step": 29
     },
     {
       "epoch": 0.011013973979486473,
+      "grad_norm": 0.21160489320755005,
       "learning_rate": 3.705904774487396e-05,
+      "loss": 1.4517,
       "step": 30
     },
     {
       "epoch": 0.011381106445469356,
+      "grad_norm": 0.22663910686969757,
       "learning_rate": 3.392802673484193e-05,
       "loss": 1.5518,
       "step": 31
     },
     {
       "epoch": 0.011748238911452238,
+      "grad_norm": 0.227020263671875,
       "learning_rate": 3.086582838174551e-05,
+      "loss": 1.666,
       "step": 32
     },
     {
       "epoch": 0.012115371377435121,
+      "grad_norm": 0.27605804800987244,
       "learning_rate": 2.7885565489049946e-05,
+      "loss": 1.7493,
       "step": 33
     },
     {
       "epoch": 0.012482503843418003,
+      "grad_norm": 0.29731854796409607,
       "learning_rate": 2.500000000000001e-05,
+      "loss": 1.8524,
       "step": 34
     },
     {
       "epoch": 0.012849636309400886,
+      "grad_norm": 0.3281558156013489,
       "learning_rate": 2.2221488349019903e-05,
+      "loss": 1.9282,
       "step": 35
     },
     {
       "epoch": 0.013216768775383768,
+      "grad_norm": 0.37420791387557983,
       "learning_rate": 1.9561928549563968e-05,
+      "loss": 1.8592,
       "step": 36
     },
     {
       "epoch": 0.013583901241366651,
+      "grad_norm": 0.4410149157047272,
       "learning_rate": 1.703270924499656e-05,
+      "loss": 2.0738,
       "step": 37
     },
     {
       "epoch": 0.013951033707349533,
+      "grad_norm": 0.232642263174057,
       "learning_rate": 1.4644660940672627e-05,
+      "loss": 1.333,
       "step": 38
     },
     {
       "epoch": 0.014318166173332416,
+      "grad_norm": 0.1905253827571869,
       "learning_rate": 1.2408009626051137e-05,
+      "loss": 1.2699,
       "step": 39
     },
     {
       "epoch": 0.014685298639315298,
+      "grad_norm": 0.15179552137851715,
       "learning_rate": 1.0332332985438248e-05,
+      "loss": 1.2749,
       "step": 40
     },
     {
       "epoch": 0.01505243110529818,
+      "grad_norm": 0.15243877470493317,
       "learning_rate": 8.426519384872733e-06,
       "loss": 1.4077,
       "step": 41
     },
     {
       "epoch": 0.015419563571281063,
+      "grad_norm": 0.16541434824466705,
       "learning_rate": 6.698729810778065e-06,
+      "loss": 1.4045,
       "step": 42
     },
     {
       "epoch": 0.015786696037263945,
+      "grad_norm": 0.17298369109630585,
       "learning_rate": 5.156362923365588e-06,
+      "loss": 1.5088,
       "step": 43
     },
     {
       "epoch": 0.016153828503246828,
+      "grad_norm": 0.18387660384178162,
       "learning_rate": 3.8060233744356633e-06,
+      "loss": 1.6373,
       "step": 44
     },
     {
       "epoch": 0.01652096096922971,
+      "grad_norm": 0.1946333646774292,
       "learning_rate": 2.653493525244721e-06,
+      "loss": 1.5943,
       "step": 45
     },
     {
       "epoch": 0.01688809343521259,
+      "grad_norm": 0.22707688808441162,
       "learning_rate": 1.70370868554659e-06,
+      "loss": 1.7621,
       "step": 46
     },
     {
       "epoch": 0.017255225901195475,
+      "grad_norm": 0.26044467091560364,
       "learning_rate": 9.607359798384785e-07,
+      "loss": 1.9381,
       "step": 47
     },
     {
       "epoch": 0.01762235836717836,
+      "grad_norm": 0.29020553827285767,
       "learning_rate": 4.277569313094809e-07,
+      "loss": 1.9041,
       "step": 48
     },
     {
       "epoch": 0.017989490833161238,
+      "grad_norm": 0.33426380157470703,
       "learning_rate": 1.0705383806982606e-07,
+      "loss": 1.9658,
       "step": 49
     },
     {
       "epoch": 0.01835662329914412,
+      "grad_norm": 0.6290251016616821,
       "learning_rate": 0.0,
+      "loss": 2.063,
       "step": 50
     },
     {
       "epoch": 0.01835662329914412,
+      "eval_loss": 1.6283235549926758,
+      "eval_runtime": 556.6787,
+      "eval_samples_per_second": 32.963,
+      "eval_steps_per_second": 4.121,
       "step": 50
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50a87c0895d219639e12aab0d83247cd4577d08e4d0d4c1273e17aca64733b57
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b294bd9b9a3def36b76ee958890e4e41c951866fd0cd60133556c67752c077d
 size 6776