Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f5c132cd92d9f959e7893787dab38469aee90ecde18c53f4f621789200e1cef
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:14d3c368e3744a87120fa02b36def8c35ae56a3e176e906cea85f5b81b3bbe08
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c88840ce32ec50b60bbf729ab3267ffc4ca8301216b8814196aaa6048f9bbc2
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:5406c8b7bb921e9147a6706c9b5e19b42cd291e65d4ce13820cc1b514341edd5
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0facd3c71075a0e7ff3447d1fba153ffae8c05df82ae753ec32022b1be6ce921
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0636ac1e1cd9b5ed3b02f674cf2400e6388a98470c99628f3f15decd2b55b27
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff52bfbef9cf63f1b4a99aeb499cfc330b3f7bf178a825c21249094bbf544e39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a046f3bc9d619a7e62601f3cf33ff02f6ad189db5b564eab88c1bb00e13b059d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5220252871513367,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.009804882831650161,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 8.842,
       "eval_steps_per_second": 2.211,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9139619912155136e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4575375020503998,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.019609765663300322,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.842,
       "eval_steps_per_second": 2.211,
       "step": 50
+    },
+    {
+      "epoch": 0.010000980488283165,
+      "grad_norm": 6.259135723114014,
+      "learning_rate": 7.944052631578947e-05,
+      "loss": 1.9433,
+      "step": 51
+    },
+    {
+      "epoch": 0.010197078144916168,
+      "grad_norm": 3.87833833694458,
+      "learning_rate": 7.890736842105263e-05,
+      "loss": 0.925,
+      "step": 52
+    },
+    {
+      "epoch": 0.010393175801549172,
+      "grad_norm": 3.702810764312744,
+      "learning_rate": 7.837421052631579e-05,
+      "loss": 0.8375,
+      "step": 53
+    },
+    {
+      "epoch": 0.010589273458182174,
+      "grad_norm": 3.9069197177886963,
+      "learning_rate": 7.784105263157893e-05,
+      "loss": 0.7016,
+      "step": 54
+    },
+    {
+      "epoch": 0.010785371114815178,
+      "grad_norm": 4.089141845703125,
+      "learning_rate": 7.730789473684211e-05,
+      "loss": 0.736,
+      "step": 55
+    },
+    {
+      "epoch": 0.01098146877144818,
+      "grad_norm": 4.299583435058594,
+      "learning_rate": 7.677473684210526e-05,
+      "loss": 0.9623,
+      "step": 56
+    },
+    {
+      "epoch": 0.011177566428081185,
+      "grad_norm": 4.404727458953857,
+      "learning_rate": 7.624157894736842e-05,
+      "loss": 0.9444,
+      "step": 57
+    },
+    {
+      "epoch": 0.011373664084714187,
+      "grad_norm": 3.662179470062256,
+      "learning_rate": 7.570842105263158e-05,
+      "loss": 0.7267,
+      "step": 58
+    },
+    {
+      "epoch": 0.011569761741347192,
+      "grad_norm": 5.034608364105225,
+      "learning_rate": 7.517526315789474e-05,
+      "loss": 0.8414,
+      "step": 59
+    },
+    {
+      "epoch": 0.011765859397980194,
+      "grad_norm": 4.015024185180664,
+      "learning_rate": 7.464210526315789e-05,
+      "loss": 0.7682,
+      "step": 60
+    },
+    {
+      "epoch": 0.011961957054613198,
+      "grad_norm": 3.8569846153259277,
+      "learning_rate": 7.410894736842106e-05,
+      "loss": 0.7419,
+      "step": 61
+    },
+    {
+      "epoch": 0.0121580547112462,
+      "grad_norm": 5.50112247467041,
+      "learning_rate": 7.35757894736842e-05,
+      "loss": 0.789,
+      "step": 62
+    },
+    {
+      "epoch": 0.012354152367879203,
+      "grad_norm": 4.346161842346191,
+      "learning_rate": 7.304263157894737e-05,
+      "loss": 0.7292,
+      "step": 63
+    },
+    {
+      "epoch": 0.012550250024512207,
+      "grad_norm": 12.474294662475586,
+      "learning_rate": 7.250947368421053e-05,
+      "loss": 0.8405,
+      "step": 64
+    },
+    {
+      "epoch": 0.01274634768114521,
+      "grad_norm": 6.171235084533691,
+      "learning_rate": 7.197631578947368e-05,
+      "loss": 0.9972,
+      "step": 65
+    },
+    {
+      "epoch": 0.012942445337778214,
+      "grad_norm": 10.865174293518066,
+      "learning_rate": 7.144315789473684e-05,
+      "loss": 0.6531,
+      "step": 66
+    },
+    {
+      "epoch": 0.013138542994411216,
+      "grad_norm": 5.450807094573975,
+      "learning_rate": 7.091e-05,
+      "loss": 0.9603,
+      "step": 67
+    },
+    {
+      "epoch": 0.01333464065104422,
+      "grad_norm": 5.7336015701293945,
+      "learning_rate": 7.037684210526316e-05,
+      "loss": 0.9774,
+      "step": 68
+    },
+    {
+      "epoch": 0.013530738307677223,
+      "grad_norm": 5.6365156173706055,
+      "learning_rate": 6.984368421052632e-05,
+      "loss": 0.7666,
+      "step": 69
+    },
+    {
+      "epoch": 0.013726835964310227,
+      "grad_norm": 7.478610992431641,
+      "learning_rate": 6.931052631578947e-05,
+      "loss": 0.7726,
+      "step": 70
+    },
+    {
+      "epoch": 0.01392293362094323,
+      "grad_norm": 5.047933578491211,
+      "learning_rate": 6.877736842105263e-05,
+      "loss": 0.5822,
+      "step": 71
+    },
+    {
+      "epoch": 0.014119031277576233,
+      "grad_norm": 6.480734348297119,
+      "learning_rate": 6.824421052631579e-05,
+      "loss": 0.7629,
+      "step": 72
+    },
+    {
+      "epoch": 0.014315128934209236,
+      "grad_norm": 7.191463470458984,
+      "learning_rate": 6.771105263157895e-05,
+      "loss": 0.6803,
+      "step": 73
+    },
+    {
+      "epoch": 0.01451122659084224,
+      "grad_norm": 4.883853435516357,
+      "learning_rate": 6.71778947368421e-05,
+      "loss": 0.6785,
+      "step": 74
+    },
+    {
+      "epoch": 0.014707324247475242,
+      "grad_norm": 6.941567420959473,
+      "learning_rate": 6.664473684210527e-05,
+      "loss": 0.8324,
+      "step": 75
+    },
+    {
+      "epoch": 0.014903421904108247,
+      "grad_norm": 6.098438739776611,
+      "learning_rate": 6.611157894736842e-05,
+      "loss": 0.8325,
+      "step": 76
+    },
+    {
+      "epoch": 0.015099519560741249,
+      "grad_norm": 8.49299144744873,
+      "learning_rate": 6.557842105263158e-05,
+      "loss": 1.1349,
+      "step": 77
+    },
+    {
+      "epoch": 0.015295617217374253,
+      "grad_norm": 4.6161627769470215,
+      "learning_rate": 6.504526315789474e-05,
+      "loss": 0.3797,
+      "step": 78
+    },
+    {
+      "epoch": 0.015491714874007256,
+      "grad_norm": 5.683040142059326,
+      "learning_rate": 6.451210526315789e-05,
+      "loss": 0.4784,
+      "step": 79
+    },
+    {
+      "epoch": 0.01568781253064026,
+      "grad_norm": 7.138983249664307,
+      "learning_rate": 6.397894736842105e-05,
+      "loss": 0.6783,
+      "step": 80
+    },
+    {
+      "epoch": 0.01588391018727326,
+      "grad_norm": 5.301764488220215,
+      "learning_rate": 6.344578947368421e-05,
+      "loss": 0.4013,
+      "step": 81
+    },
+    {
+      "epoch": 0.016080007843906265,
+      "grad_norm": 5.394726753234863,
+      "learning_rate": 6.291263157894737e-05,
+      "loss": 0.472,
+      "step": 82
+    },
+    {
+      "epoch": 0.01627610550053927,
+      "grad_norm": 7.571673393249512,
+      "learning_rate": 6.237947368421053e-05,
+      "loss": 0.6222,
+      "step": 83
+    },
+    {
+      "epoch": 0.016472203157172273,
+      "grad_norm": 13.990236282348633,
+      "learning_rate": 6.184631578947368e-05,
+      "loss": 1.5111,
+      "step": 84
+    },
+    {
+      "epoch": 0.016668300813805274,
+      "grad_norm": 9.939437866210938,
+      "learning_rate": 6.131315789473684e-05,
+      "loss": 1.2702,
+      "step": 85
+    },
+    {
+      "epoch": 0.016864398470438278,
+      "grad_norm": 11.926310539245605,
+      "learning_rate": 6.078e-05,
+      "loss": 0.997,
+      "step": 86
+    },
+    {
+      "epoch": 0.017060496127071282,
+      "grad_norm": 7.9521379470825195,
+      "learning_rate": 6.024684210526315e-05,
+      "loss": 0.8637,
+      "step": 87
+    },
+    {
+      "epoch": 0.017256593783704286,
+      "grad_norm": 11.58044147491455,
+      "learning_rate": 5.9713684210526305e-05,
+      "loss": 1.3852,
+      "step": 88
+    },
+    {
+      "epoch": 0.017452691440337287,
+      "grad_norm": 9.782970428466797,
+      "learning_rate": 5.918052631578947e-05,
+      "loss": 0.8799,
+      "step": 89
+    },
+    {
+      "epoch": 0.01764878909697029,
+      "grad_norm": 10.114582061767578,
+      "learning_rate": 5.8647368421052634e-05,
+      "loss": 1.1961,
+      "step": 90
+    },
+    {
+      "epoch": 0.017844886753603295,
+      "grad_norm": 12.574527740478516,
+      "learning_rate": 5.811421052631579e-05,
+      "loss": 1.0894,
+      "step": 91
+    },
+    {
+      "epoch": 0.0180409844102363,
+      "grad_norm": 14.899230003356934,
+      "learning_rate": 5.758105263157894e-05,
+      "loss": 1.2862,
+      "step": 92
+    },
+    {
+      "epoch": 0.0182370820668693,
+      "grad_norm": 8.636293411254883,
+      "learning_rate": 5.70478947368421e-05,
+      "loss": 0.854,
+      "step": 93
+    },
+    {
+      "epoch": 0.018433179723502304,
+      "grad_norm": 11.84518814086914,
+      "learning_rate": 5.6514736842105256e-05,
+      "loss": 0.6895,
+      "step": 94
+    },
+    {
+      "epoch": 0.01862927738013531,
+      "grad_norm": 28.145517349243164,
+      "learning_rate": 5.5981578947368424e-05,
+      "loss": 1.5005,
+      "step": 95
+    },
+    {
+      "epoch": 0.01882537503676831,
+      "grad_norm": 13.958025932312012,
+      "learning_rate": 5.544842105263158e-05,
+      "loss": 0.4707,
+      "step": 96
+    },
+    {
+      "epoch": 0.019021472693401313,
+      "grad_norm": 14.421865463256836,
+      "learning_rate": 5.491526315789474e-05,
+      "loss": 1.3302,
+      "step": 97
+    },
+    {
+      "epoch": 0.019217570350034317,
+      "grad_norm": 19.330612182617188,
+      "learning_rate": 5.438210526315789e-05,
+      "loss": 1.0502,
+      "step": 98
+    },
+    {
+      "epoch": 0.01941366800666732,
+      "grad_norm": 16.62639045715332,
+      "learning_rate": 5.384894736842105e-05,
+      "loss": 1.2102,
+      "step": 99
+    },
+    {
+      "epoch": 0.019609765663300322,
+      "grad_norm": 26.352754592895508,
+      "learning_rate": 5.331578947368421e-05,
+      "loss": 1.9532,
+      "step": 100
+    },
+    {
+      "epoch": 0.019609765663300322,
+      "eval_loss": 0.4575375020503998,
+      "eval_runtime": 243.2626,
+      "eval_samples_per_second": 8.83,
+      "eval_steps_per_second": 2.207,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.774261496696013e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null