Training in progress, step 100, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61d6fb67c0a770bf90c2982baccb16c1e9f80c16cdbab508598e6b48ff95ebda
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:c93d977a1a7cd87f6e11edae378c263fd1cc34aa0e30150bf455bec3f5e31993
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04d970fa5cc5827dfae6f7f5e884700305c8bc2ce6baada91ce7d75ec34c2c58
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ee90c0b68cf9ab60cab3ca73e3f9adb472364d1b4bbeeda971c61a613f9347d
 size 341314196

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74af39fb7c5c6e1e3ed7caea9ac60d9b2c627ea1e38e2152d0b919da10733846
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f9d97259a280caeedd9ae01a9f11b892520491c4dfd4b54250772c1a5195b4
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4d5f8ff1d7c4415189ee9bdbe0521044d0447f52e1650917c6bf9c6b81aa0d2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c1b871422bce58aa707d816effbd3bb08177581536796ee4e03b1a9431ae2a3
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18f3b38096d736f0c3879a8fff47853fba2078c8bc7a591a7f28735c448d861
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e84f08b4875b77cb838822230f0481dcfb0bbb93664cf56ca94103de6b94c6db
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70e341adfeaad1c1e41bce1557cbb045fc113a02a1396347df21a43792c69391
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5605465f068dd4d0de873c67d612254dc74ea0d1949e7a64040511fcc3e89f32
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2c5a30230015ce687fac094906a9766d980a56edbe74b83763e8559425da32b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f61f9d779918a43cccdc8687d467d62c96a1ac225c04cf1a022d545aa6f693c
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34b4ad8c2d5079ab09a8382d10d17ab7a2de8ba871edaa6de4531ed688618ecc
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e5c466a9513ff827258ec832bf70749402f93d627348aec572eed2c07bc6847
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b466b3ad504d8f57a96d7b52c2dc7468f1e20ba69a558b8cc4cbf94739c6193a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:082ea181bee0f9e90f0e6fffa701ccccbc1a72679d5494b1b37c9167407ab035
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35082c4246758dc1857dde2909c9ba58b9d676f001ee8137d1f783e622974e53
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:63c6d41dd9228498635c3c8ed90690fcdee78dd5e55cffb7618b7e672e2a139b
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b7e7d044a338e6b420016be2e48e692869df520a6f768a0f5ba8de63e9bb378
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6b2f615f21faa4fde4442b48613d92f84c55cd5ef4fb4d04d8e3f819305ce14
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6465714573860168,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.07072135785007072,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 144.395,
       "eval_steps_per_second": 4.518,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.723998478401536e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6103463172912598,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.14144271570014144,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 144.395,
       "eval_steps_per_second": 4.518,
       "step": 50
+    },
+    {
+      "epoch": 0.07213578500707214,
+      "grad_norm": 3.151646852493286,
+      "learning_rate": 7.920526315789474e-05,
+      "loss": 2.8639,
+      "step": 51
+    },
+    {
+      "epoch": 0.07355021216407355,
+      "grad_norm": 2.3648862838745117,
+      "learning_rate": 7.867368421052631e-05,
+      "loss": 2.6662,
+      "step": 52
+    },
+    {
+      "epoch": 0.07496463932107496,
+      "grad_norm": 2.239790439605713,
+      "learning_rate": 7.814210526315789e-05,
+      "loss": 2.5937,
+      "step": 53
+    },
+    {
+      "epoch": 0.07637906647807638,
+      "grad_norm": 2.3133761882781982,
+      "learning_rate": 7.761052631578946e-05,
+      "loss": 2.6009,
+      "step": 54
+    },
+    {
+      "epoch": 0.07779349363507779,
+      "grad_norm": 2.187490224838257,
+      "learning_rate": 7.707894736842105e-05,
+      "loss": 2.5353,
+      "step": 55
+    },
+    {
+      "epoch": 0.07920792079207921,
+      "grad_norm": 2.121954917907715,
+      "learning_rate": 7.654736842105264e-05,
+      "loss": 2.3811,
+      "step": 56
+    },
+    {
+      "epoch": 0.08062234794908062,
+      "grad_norm": 2.474841356277466,
+      "learning_rate": 7.601578947368422e-05,
+      "loss": 2.7355,
+      "step": 57
+    },
+    {
+      "epoch": 0.08203677510608204,
+      "grad_norm": 2.4026870727539062,
+      "learning_rate": 7.548421052631579e-05,
+      "loss": 2.6286,
+      "step": 58
+    },
+    {
+      "epoch": 0.08345120226308345,
+      "grad_norm": 1.9473828077316284,
+      "learning_rate": 7.495263157894737e-05,
+      "loss": 2.5476,
+      "step": 59
+    },
+    {
+      "epoch": 0.08486562942008487,
+      "grad_norm": 2.153718948364258,
+      "learning_rate": 7.442105263157894e-05,
+      "loss": 2.5455,
+      "step": 60
+    },
+    {
+      "epoch": 0.08628005657708628,
+      "grad_norm": 2.1734304428100586,
+      "learning_rate": 7.388947368421053e-05,
+      "loss": 2.4486,
+      "step": 61
+    },
+    {
+      "epoch": 0.0876944837340877,
+      "grad_norm": 2.2392075061798096,
+      "learning_rate": 7.335789473684211e-05,
+      "loss": 2.4886,
+      "step": 62
+    },
+    {
+      "epoch": 0.0891089108910891,
+      "grad_norm": 1.850045084953308,
+      "learning_rate": 7.282631578947368e-05,
+      "loss": 2.5359,
+      "step": 63
+    },
+    {
+      "epoch": 0.09052333804809053,
+      "grad_norm": 2.3224589824676514,
+      "learning_rate": 7.229473684210527e-05,
+      "loss": 2.6619,
+      "step": 64
+    },
+    {
+      "epoch": 0.09193776520509193,
+      "grad_norm": 1.9989107847213745,
+      "learning_rate": 7.176315789473685e-05,
+      "loss": 2.5735,
+      "step": 65
+    },
+    {
+      "epoch": 0.09335219236209336,
+      "grad_norm": 1.9589483737945557,
+      "learning_rate": 7.123157894736842e-05,
+      "loss": 2.531,
+      "step": 66
+    },
+    {
+      "epoch": 0.09476661951909476,
+      "grad_norm": 1.8521004915237427,
+      "learning_rate": 7.07e-05,
+      "loss": 2.4682,
+      "step": 67
+    },
+    {
+      "epoch": 0.09618104667609619,
+      "grad_norm": 2.097626209259033,
+      "learning_rate": 7.016842105263159e-05,
+      "loss": 2.4427,
+      "step": 68
+    },
+    {
+      "epoch": 0.09759547383309759,
+      "grad_norm": 2.1736693382263184,
+      "learning_rate": 6.963684210526316e-05,
+      "loss": 2.4669,
+      "step": 69
+    },
+    {
+      "epoch": 0.09900990099009901,
+      "grad_norm": 2.0476653575897217,
+      "learning_rate": 6.910526315789474e-05,
+      "loss": 2.6927,
+      "step": 70
+    },
+    {
+      "epoch": 0.10042432814710042,
+      "grad_norm": 2.14760160446167,
+      "learning_rate": 6.857368421052631e-05,
+      "loss": 2.5764,
+      "step": 71
+    },
+    {
+      "epoch": 0.10183875530410184,
+      "grad_norm": 2.0928895473480225,
+      "learning_rate": 6.80421052631579e-05,
+      "loss": 2.5387,
+      "step": 72
+    },
+    {
+      "epoch": 0.10325318246110325,
+      "grad_norm": 1.9230157136917114,
+      "learning_rate": 6.751052631578948e-05,
+      "loss": 2.4688,
+      "step": 73
+    },
+    {
+      "epoch": 0.10466760961810467,
+      "grad_norm": 1.8409297466278076,
+      "learning_rate": 6.697894736842105e-05,
+      "loss": 2.4534,
+      "step": 74
+    },
+    {
+      "epoch": 0.10608203677510608,
+      "grad_norm": 2.028137445449829,
+      "learning_rate": 6.644736842105264e-05,
+      "loss": 2.3257,
+      "step": 75
+    },
+    {
+      "epoch": 0.1074964639321075,
+      "grad_norm": 2.186375856399536,
+      "learning_rate": 6.591578947368422e-05,
+      "loss": 2.6981,
+      "step": 76
+    },
+    {
+      "epoch": 0.10891089108910891,
+      "grad_norm": 1.9577515125274658,
+      "learning_rate": 6.538421052631579e-05,
+      "loss": 2.6189,
+      "step": 77
+    },
+    {
+      "epoch": 0.11032531824611033,
+      "grad_norm": 1.9610555171966553,
+      "learning_rate": 6.485263157894737e-05,
+      "loss": 2.609,
+      "step": 78
+    },
+    {
+      "epoch": 0.11173974540311174,
+      "grad_norm": 1.799399733543396,
+      "learning_rate": 6.432105263157894e-05,
+      "loss": 2.439,
+      "step": 79
+    },
+    {
+      "epoch": 0.11315417256011315,
+      "grad_norm": 2.2436952590942383,
+      "learning_rate": 6.378947368421053e-05,
+      "loss": 2.4132,
+      "step": 80
+    },
+    {
+      "epoch": 0.11456859971711457,
+      "grad_norm": 2.1052162647247314,
+      "learning_rate": 6.32578947368421e-05,
+      "loss": 2.3395,
+      "step": 81
+    },
+    {
+      "epoch": 0.11598302687411598,
+      "grad_norm": 2.0289740562438965,
+      "learning_rate": 6.27263157894737e-05,
+      "loss": 2.6342,
+      "step": 82
+    },
+    {
+      "epoch": 0.1173974540311174,
+      "grad_norm": 2.1439921855926514,
+      "learning_rate": 6.219473684210527e-05,
+      "loss": 2.6534,
+      "step": 83
+    },
+    {
+      "epoch": 0.1188118811881188,
+      "grad_norm": 1.9859956502914429,
+      "learning_rate": 6.166315789473685e-05,
+      "loss": 2.5772,
+      "step": 84
+    },
+    {
+      "epoch": 0.12022630834512023,
+      "grad_norm": 1.8177697658538818,
+      "learning_rate": 6.113157894736842e-05,
+      "loss": 2.3984,
+      "step": 85
+    },
+    {
+      "epoch": 0.12164073550212164,
+      "grad_norm": 1.8563177585601807,
+      "learning_rate": 6.0599999999999996e-05,
+      "loss": 2.4031,
+      "step": 86
+    },
+    {
+      "epoch": 0.12305516265912306,
+      "grad_norm": 2.219247341156006,
+      "learning_rate": 6.006842105263158e-05,
+      "loss": 2.3255,
+      "step": 87
+    },
+    {
+      "epoch": 0.12446958981612447,
+      "grad_norm": 1.8544104099273682,
+      "learning_rate": 5.953684210526315e-05,
+      "loss": 2.5209,
+      "step": 88
+    },
+    {
+      "epoch": 0.12588401697312587,
+      "grad_norm": 2.0143113136291504,
+      "learning_rate": 5.900526315789474e-05,
+      "loss": 2.6355,
+      "step": 89
+    },
+    {
+      "epoch": 0.1272984441301273,
+      "grad_norm": 1.896228551864624,
+      "learning_rate": 5.847368421052632e-05,
+      "loss": 2.5526,
+      "step": 90
+    },
+    {
+      "epoch": 0.12871287128712872,
+      "grad_norm": 1.8661564588546753,
+      "learning_rate": 5.79421052631579e-05,
+      "loss": 2.511,
+      "step": 91
+    },
+    {
+      "epoch": 0.13012729844413012,
+      "grad_norm": 1.8194445371627808,
+      "learning_rate": 5.7410526315789475e-05,
+      "loss": 2.4344,
+      "step": 92
+    },
+    {
+      "epoch": 0.13154172560113153,
+      "grad_norm": 1.8762489557266235,
+      "learning_rate": 5.687894736842105e-05,
+      "loss": 2.3408,
+      "step": 93
+    },
+    {
+      "epoch": 0.13295615275813297,
+      "grad_norm": 1.7948472499847412,
+      "learning_rate": 5.6347368421052625e-05,
+      "loss": 2.4347,
+      "step": 94
+    },
+    {
+      "epoch": 0.13437057991513437,
+      "grad_norm": 1.8099737167358398,
+      "learning_rate": 5.5815789473684214e-05,
+      "loss": 2.6085,
+      "step": 95
+    },
+    {
+      "epoch": 0.13578500707213578,
+      "grad_norm": 1.8026000261306763,
+      "learning_rate": 5.5284210526315796e-05,
+      "loss": 2.5406,
+      "step": 96
+    },
+    {
+      "epoch": 0.1371994342291372,
+      "grad_norm": 1.7136831283569336,
+      "learning_rate": 5.475263157894737e-05,
+      "loss": 2.4505,
+      "step": 97
+    },
+    {
+      "epoch": 0.13861386138613863,
+      "grad_norm": 1.7045419216156006,
+      "learning_rate": 5.422105263157895e-05,
+      "loss": 2.3824,
+      "step": 98
+    },
+    {
+      "epoch": 0.14002828854314003,
+      "grad_norm": 1.850805640220642,
+      "learning_rate": 5.368947368421053e-05,
+      "loss": 2.3497,
+      "step": 99
+    },
+    {
+      "epoch": 0.14144271570014144,
+      "grad_norm": 1.9787073135375977,
+      "learning_rate": 5.3157894736842104e-05,
+      "loss": 2.2438,
+      "step": 100
+    },
+    {
+      "epoch": 0.14144271570014144,
+      "eval_loss": 0.6103463172912598,
+      "eval_runtime": 65.9764,
+      "eval_samples_per_second": 144.37,
+      "eval_steps_per_second": 4.517,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1447996956803072e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null