Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:122465abc635566cec3e9893252fffff29136020502638903654256e55762434
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b43824e1496694355ed79957dd9541c6926bedbc4167e95c1e9e0078e14e530
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d1d8833a85e92ed7826e9b515c48332d62694fb4d7d53d2b61571615301c31d
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2fe9563d4a2a89618e2915503614f5bd5b5a41eef0d25c4f74ab69c9d3fcca
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c49b766bbad8374c2fb10d916ca56f20ec77fd773e4fcc32d8a9cd800c8e53e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3514cbecf0d7e207fb8bf90bd483caade5f5181dd0b1292bc044d61598ee582a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1315d7eec29cf9168c9f163c958c5df6ae2472b96d8ab0aa2f59aeca18e9936b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:70676b886bdad671d073176c81ea76c66ddac446539f48ac64f4e9bef2e2a776
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3599679470062256,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.8658008658008658,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 21.077,
       "eval_steps_per_second": 5.432,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.9668765675290624e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3433974981307983,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.7359307359307359,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.077,
       "eval_steps_per_second": 5.432,
       "step": 50
+    },
+    {
+      "epoch": 0.8831168831168831,
+      "grad_norm": 0.5181626081466675,
+      "learning_rate": 8.518457335743926e-05,
+      "loss": 1.4489,
+      "step": 51
+    },
+    {
+      "epoch": 0.9004329004329005,
+      "grad_norm": 0.5752385854721069,
+      "learning_rate": 8.449338172278059e-05,
+      "loss": 1.5145,
+      "step": 52
+    },
+    {
+      "epoch": 0.9177489177489178,
+      "grad_norm": 0.65139240026474,
+      "learning_rate": 8.378937720492384e-05,
+      "loss": 1.4028,
+      "step": 53
+    },
+    {
+      "epoch": 0.935064935064935,
+      "grad_norm": 0.8399358987808228,
+      "learning_rate": 8.307282131280804e-05,
+      "loss": 1.5549,
+      "step": 54
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.9761013388633728,
+      "learning_rate": 8.23439802176954e-05,
+      "loss": 1.5483,
+      "step": 55
+    },
+    {
+      "epoch": 0.9696969696969697,
+      "grad_norm": 1.5134563446044922,
+      "learning_rate": 8.160312465429952e-05,
+      "loss": 1.4882,
+      "step": 56
+    },
+    {
+      "epoch": 0.987012987012987,
+      "grad_norm": 0.37874630093574524,
+      "learning_rate": 8.085052982021847e-05,
+      "loss": 1.2874,
+      "step": 57
+    },
+    {
+      "epoch": 1.0086580086580086,
+      "grad_norm": 0.8670079708099365,
+      "learning_rate": 8.008647527371023e-05,
+      "loss": 1.9227,
+      "step": 58
+    },
+    {
+      "epoch": 1.025974025974026,
+      "grad_norm": 0.28728023171424866,
+      "learning_rate": 7.931124482984802e-05,
+      "loss": 1.2465,
+      "step": 59
+    },
+    {
+      "epoch": 1.0432900432900434,
+      "grad_norm": 0.2963547110557556,
+      "learning_rate": 7.85251264550948e-05,
+      "loss": 1.1765,
+      "step": 60
+    },
+    {
+      "epoch": 1.0606060606060606,
+      "grad_norm": 0.3141789138317108,
+      "learning_rate": 7.772841216033533e-05,
+      "loss": 1.1228,
+      "step": 61
+    },
+    {
+      "epoch": 1.077922077922078,
+      "grad_norm": 0.32667580246925354,
+      "learning_rate": 7.692139789240611e-05,
+      "loss": 1.1514,
+      "step": 62
+    },
+    {
+      "epoch": 1.0952380952380953,
+      "grad_norm": 0.3543757200241089,
+      "learning_rate": 7.610438342416319e-05,
+      "loss": 1.0842,
+      "step": 63
+    },
+    {
+      "epoch": 1.1125541125541125,
+      "grad_norm": 0.367701917886734,
+      "learning_rate": 7.527767224312883e-05,
+      "loss": 1.1141,
+      "step": 64
+    },
+    {
+      "epoch": 1.12987012987013,
+      "grad_norm": 0.4170190989971161,
+      "learning_rate": 7.44415714387582e-05,
+      "loss": 1.3028,
+      "step": 65
+    },
+    {
+      "epoch": 1.1471861471861473,
+      "grad_norm": 0.44387149810791016,
+      "learning_rate": 7.359639158836828e-05,
+      "loss": 1.1789,
+      "step": 66
+    },
+    {
+      "epoch": 1.1645021645021645,
+      "grad_norm": 0.46756917238235474,
+      "learning_rate": 7.274244664177097e-05,
+      "loss": 1.2253,
+      "step": 67
+    },
+    {
+      "epoch": 1.1818181818181819,
+      "grad_norm": 0.5271068215370178,
+      "learning_rate": 7.188005380465364e-05,
+      "loss": 1.0931,
+      "step": 68
+    },
+    {
+      "epoch": 1.199134199134199,
+      "grad_norm": 0.5228838920593262,
+      "learning_rate": 7.10095334207501e-05,
+      "loss": 0.9346,
+      "step": 69
+    },
+    {
+      "epoch": 1.2164502164502164,
+      "grad_norm": 0.7063124775886536,
+      "learning_rate": 7.013120885284598e-05,
+      "loss": 1.1747,
+      "step": 70
+    },
+    {
+      "epoch": 1.2337662337662338,
+      "grad_norm": 1.0697877407073975,
+      "learning_rate": 6.924540636266272e-05,
+      "loss": 1.2499,
+      "step": 71
+    },
+    {
+      "epoch": 1.251082251082251,
+      "grad_norm": 0.7471345067024231,
+      "learning_rate": 6.835245498966461e-05,
+      "loss": 0.8715,
+      "step": 72
+    },
+    {
+      "epoch": 1.2683982683982684,
+      "grad_norm": 0.3865669071674347,
+      "learning_rate": 6.745268642883404e-05,
+      "loss": 1.2091,
+      "step": 73
+    },
+    {
+      "epoch": 1.2857142857142856,
+      "grad_norm": 0.3613302409648895,
+      "learning_rate": 6.654643490746042e-05,
+      "loss": 1.1159,
+      "step": 74
+    },
+    {
+      "epoch": 1.303030303030303,
+      "grad_norm": 0.38617178797721863,
+      "learning_rate": 6.563403706098833e-05,
+      "loss": 1.1253,
+      "step": 75
+    },
+    {
+      "epoch": 1.3203463203463204,
+      "grad_norm": 0.4121956527233124,
+      "learning_rate": 6.471583180797121e-05,
+      "loss": 1.1525,
+      "step": 76
+    },
+    {
+      "epoch": 1.3376623376623376,
+      "grad_norm": 0.42778268456459045,
+      "learning_rate": 6.379216022417696e-05,
+      "loss": 1.1418,
+      "step": 77
+    },
+    {
+      "epoch": 1.354978354978355,
+      "grad_norm": 0.47594478726387024,
+      "learning_rate": 6.286336541589224e-05,
+      "loss": 1.2353,
+      "step": 78
+    },
+    {
+      "epoch": 1.3722943722943723,
+      "grad_norm": 0.46286624670028687,
+      "learning_rate": 6.192979239247243e-05,
+      "loss": 1.1018,
+      "step": 79
+    },
+    {
+      "epoch": 1.3896103896103895,
+      "grad_norm": 0.4925539195537567,
+      "learning_rate": 6.0991787938184784e-05,
+      "loss": 1.0574,
+      "step": 80
+    },
+    {
+      "epoch": 1.406926406926407,
+      "grad_norm": 0.5687847137451172,
+      "learning_rate": 6.004970048339226e-05,
+      "loss": 1.2203,
+      "step": 81
+    },
+    {
+      "epoch": 1.4242424242424243,
+      "grad_norm": 0.6070426106452942,
+      "learning_rate": 5.910387997512573e-05,
+      "loss": 1.2845,
+      "step": 82
+    },
+    {
+      "epoch": 1.4415584415584415,
+      "grad_norm": 0.6566668152809143,
+      "learning_rate": 5.8154677747093134e-05,
+      "loss": 1.1189,
+      "step": 83
+    },
+    {
+      "epoch": 1.4588744588744589,
+      "grad_norm": 0.8260652422904968,
+      "learning_rate": 5.7202446389173223e-05,
+      "loss": 1.1718,
+      "step": 84
+    },
+    {
+      "epoch": 1.4761904761904763,
+      "grad_norm": 1.1566524505615234,
+      "learning_rate": 5.624753961644281e-05,
+      "loss": 0.8529,
+      "step": 85
+    },
+    {
+      "epoch": 1.4935064935064934,
+      "grad_norm": 1.3062056303024292,
+      "learning_rate": 5.5290312137786146e-05,
+      "loss": 0.9415,
+      "step": 86
+    },
+    {
+      "epoch": 1.5108225108225108,
+      "grad_norm": 0.34991952776908875,
+      "learning_rate": 5.433111952413495e-05,
+      "loss": 1.213,
+      "step": 87
+    },
+    {
+      "epoch": 1.5281385281385282,
+      "grad_norm": 0.3678584098815918,
+      "learning_rate": 5.33703180763884e-05,
+      "loss": 1.1127,
+      "step": 88
+    },
+    {
+      "epoch": 1.5454545454545454,
+      "grad_norm": 0.3730531334877014,
+      "learning_rate": 5.240826469306187e-05,
+      "loss": 1.1213,
+      "step": 89
+    },
+    {
+      "epoch": 1.5627705627705628,
+      "grad_norm": 0.385711669921875,
+      "learning_rate": 5.144531673771363e-05,
+      "loss": 1.0606,
+      "step": 90
+    },
+    {
+      "epoch": 1.5800865800865802,
+      "grad_norm": 0.4201517701148987,
+      "learning_rate": 5.048183190619904e-05,
+      "loss": 1.1155,
+      "step": 91
+    },
+    {
+      "epoch": 1.5974025974025974,
+      "grad_norm": 0.43522825837135315,
+      "learning_rate": 4.951816809380097e-05,
+      "loss": 1.1036,
+      "step": 92
+    },
+    {
+      "epoch": 1.6147186147186146,
+      "grad_norm": 0.46107161045074463,
+      "learning_rate": 4.855468326228638e-05,
+      "loss": 1.0929,
+      "step": 93
+    },
+    {
+      "epoch": 1.6320346320346322,
+      "grad_norm": 0.5166659355163574,
+      "learning_rate": 4.759173530693814e-05,
+      "loss": 1.1499,
+      "step": 94
+    },
+    {
+      "epoch": 1.6493506493506493,
+      "grad_norm": 0.5847046375274658,
+      "learning_rate": 4.6629681923611603e-05,
+      "loss": 1.2884,
+      "step": 95
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.6265720725059509,
+      "learning_rate": 4.566888047586507e-05,
+      "loss": 1.2245,
+      "step": 96
+    },
+    {
+      "epoch": 1.6839826839826841,
+      "grad_norm": 0.7204932570457458,
+      "learning_rate": 4.4709687862213866e-05,
+      "loss": 1.0221,
+      "step": 97
+    },
+    {
+      "epoch": 1.7012987012987013,
+      "grad_norm": 0.8253524899482727,
+      "learning_rate": 4.3752460383557195e-05,
+      "loss": 0.915,
+      "step": 98
+    },
+    {
+      "epoch": 1.7186147186147185,
+      "grad_norm": 1.2134804725646973,
+      "learning_rate": 4.27975536108268e-05,
+      "loss": 1.0184,
+      "step": 99
+    },
+    {
+      "epoch": 1.7359307359307359,
+      "grad_norm": 0.7511556148529053,
+      "learning_rate": 4.1845322252906864e-05,
+      "loss": 0.8647,
+      "step": 100
+    },
+    {
+      "epoch": 1.7359307359307359,
+      "eval_loss": 1.3433974981307983,
+      "eval_runtime": 4.5988,
+      "eval_samples_per_second": 21.092,
+      "eval_steps_per_second": 5.436,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.933753135058125e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null