Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a296ec8275d6fecd36c2f1dc032b64fcf698884136ff0bb763be437134e74f5
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f4be8c318e726148c07843bf86e4c889f33bb0d2596f54cd1e14bc145cf6867
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3de7968c2d3b1122b2bdae69f0f2811d3447d94717009b458f8b7cf559a50173
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:8adf2db40fee056dae7bcf2f9f87db117f91d6bcdcbdcc13997e3dace0e07a85
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eddebf97debdc3bcc876ca6d0cdbb4edab8258988e0fb0e702d69804be085c6c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a442b2dc512fba11b39bc7f7e1b4ab02be3e013cdf8462732ed046609afe5e8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7394219040870667,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.028105677346824058,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 19.518,
       "eval_steps_per_second": 4.884,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3812663934976e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7106400728225708,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.056211354693648116,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 19.518,
       "eval_steps_per_second": 4.884,
       "step": 50
+    },
+    {
+      "epoch": 0.02866779089376054,
+      "grad_norm": 0.3238924443721771,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.7456,
+      "step": 51
+    },
+    {
+      "epoch": 0.02922990444069702,
+      "grad_norm": 0.33645787835121155,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 0.868,
+      "step": 52
+    },
+    {
+      "epoch": 0.029792017987633503,
+      "grad_norm": 0.2600613236427307,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 0.7027,
+      "step": 53
+    },
+    {
+      "epoch": 0.03035413153456998,
+      "grad_norm": 0.22714689373970032,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 0.7382,
+      "step": 54
+    },
+    {
+      "epoch": 0.030916245081506463,
+      "grad_norm": 0.22327734529972076,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 0.7457,
+      "step": 55
+    },
+    {
+      "epoch": 0.03147835862844295,
+      "grad_norm": 0.20763379335403442,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 0.6401,
+      "step": 56
+    },
+    {
+      "epoch": 0.03204047217537943,
+      "grad_norm": 0.21818415820598602,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 0.7375,
+      "step": 57
+    },
+    {
+      "epoch": 0.032602585722315905,
+      "grad_norm": 0.22508615255355835,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 0.6904,
+      "step": 58
+    },
+    {
+      "epoch": 0.03316469926925239,
+      "grad_norm": 0.21768085658550262,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 0.6676,
+      "step": 59
+    },
+    {
+      "epoch": 0.03372681281618887,
+      "grad_norm": 0.2046968787908554,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 0.6939,
+      "step": 60
+    },
+    {
+      "epoch": 0.034288926363125354,
+      "grad_norm": 0.206581711769104,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 0.7102,
+      "step": 61
+    },
+    {
+      "epoch": 0.03485103991006183,
+      "grad_norm": 0.2068776935338974,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.7275,
+      "step": 62
+    },
+    {
+      "epoch": 0.03541315345699832,
+      "grad_norm": 0.19978730380535126,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.6208,
+      "step": 63
+    },
+    {
+      "epoch": 0.035975267003934795,
+      "grad_norm": 0.2066263109445572,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 0.6757,
+      "step": 64
+    },
+    {
+      "epoch": 0.03653738055087127,
+      "grad_norm": 0.20205795764923096,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 0.7198,
+      "step": 65
+    },
+    {
+      "epoch": 0.03709949409780776,
+      "grad_norm": 0.21334125101566315,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 0.7575,
+      "step": 66
+    },
+    {
+      "epoch": 0.03766160764474424,
+      "grad_norm": 0.21765801310539246,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.736,
+      "step": 67
+    },
+    {
+      "epoch": 0.03822372119168072,
+      "grad_norm": 0.21035075187683105,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 0.7355,
+      "step": 68
+    },
+    {
+      "epoch": 0.0387858347386172,
+      "grad_norm": 0.2173381745815277,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 0.726,
+      "step": 69
+    },
+    {
+      "epoch": 0.03934794828555368,
+      "grad_norm": 0.20702363550662994,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 0.7282,
+      "step": 70
+    },
+    {
+      "epoch": 0.039910061832490164,
+      "grad_norm": 0.2116130143404007,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 0.7629,
+      "step": 71
+    },
+    {
+      "epoch": 0.04047217537942664,
+      "grad_norm": 0.20880624651908875,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 0.7201,
+      "step": 72
+    },
+    {
+      "epoch": 0.04103428892636313,
+      "grad_norm": 0.21248884499073029,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 0.7228,
+      "step": 73
+    },
+    {
+      "epoch": 0.041596402473299605,
+      "grad_norm": 0.21593786776065826,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.7126,
+      "step": 74
+    },
+    {
+      "epoch": 0.04215851602023609,
+      "grad_norm": 0.21736711263656616,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 0.7311,
+      "step": 75
+    },
+    {
+      "epoch": 0.04272062956717257,
+      "grad_norm": 0.2159949243068695,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.6953,
+      "step": 76
+    },
+    {
+      "epoch": 0.04328274311410905,
+      "grad_norm": 0.21280749142169952,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 0.7162,
+      "step": 77
+    },
+    {
+      "epoch": 0.04384485666104553,
+      "grad_norm": 0.2282567173242569,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 0.7542,
+      "step": 78
+    },
+    {
+      "epoch": 0.04440697020798201,
+      "grad_norm": 0.2286519706249237,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 0.7036,
+      "step": 79
+    },
+    {
+      "epoch": 0.044969083754918496,
+      "grad_norm": 0.2355959266424179,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 0.7293,
+      "step": 80
+    },
+    {
+      "epoch": 0.045531197301854974,
+      "grad_norm": 0.23940454423427582,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 0.7111,
+      "step": 81
+    },
+    {
+      "epoch": 0.04609331084879146,
+      "grad_norm": 0.23693278431892395,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 0.7084,
+      "step": 82
+    },
+    {
+      "epoch": 0.04665542439572794,
+      "grad_norm": 0.2305186539888382,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 0.678,
+      "step": 83
+    },
+    {
+      "epoch": 0.047217537942664416,
+      "grad_norm": 0.23121798038482666,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 0.7146,
+      "step": 84
+    },
+    {
+      "epoch": 0.0477796514896009,
+      "grad_norm": 0.22582241892814636,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 0.644,
+      "step": 85
+    },
+    {
+      "epoch": 0.04834176503653738,
+      "grad_norm": 0.2523897588253021,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.8116,
+      "step": 86
+    },
+    {
+      "epoch": 0.048903878583473864,
+      "grad_norm": 0.23738685250282288,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.6794,
+      "step": 87
+    },
+    {
+      "epoch": 0.04946599213041034,
+      "grad_norm": 0.24177047610282898,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.7249,
+      "step": 88
+    },
+    {
+      "epoch": 0.05002810567734682,
+      "grad_norm": 0.25494056940078735,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 0.6669,
+      "step": 89
+    },
+    {
+      "epoch": 0.050590219224283306,
+      "grad_norm": 0.25937730073928833,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.6994,
+      "step": 90
+    },
+    {
+      "epoch": 0.051152332771219784,
+      "grad_norm": 0.25830528140068054,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.7231,
+      "step": 91
+    },
+    {
+      "epoch": 0.05171444631815627,
+      "grad_norm": 0.27011650800704956,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.6136,
+      "step": 92
+    },
+    {
+      "epoch": 0.05227655986509275,
+      "grad_norm": 0.2645992040634155,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 0.6306,
+      "step": 93
+    },
+    {
+      "epoch": 0.05283867341202923,
+      "grad_norm": 0.27044710516929626,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 0.6751,
+      "step": 94
+    },
+    {
+      "epoch": 0.05340078695896571,
+      "grad_norm": 0.3029738664627075,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 0.7697,
+      "step": 95
+    },
+    {
+      "epoch": 0.05396290050590219,
+      "grad_norm": 0.3133673667907715,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 0.6462,
+      "step": 96
+    },
+    {
+      "epoch": 0.054525014052838675,
+      "grad_norm": 0.32998842000961304,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 0.7367,
+      "step": 97
+    },
+    {
+      "epoch": 0.05508712759977515,
+      "grad_norm": 0.3464261293411255,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 0.6787,
+      "step": 98
+    },
+    {
+      "epoch": 0.05564924114671164,
+      "grad_norm": 0.3732531666755676,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 0.691,
+      "step": 99
+    },
+    {
+      "epoch": 0.056211354693648116,
+      "grad_norm": 0.5396194458007812,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.8679,
+      "step": 100
+    },
+    {
+      "epoch": 0.056211354693648116,
+      "eval_loss": 0.7106400728225708,
+      "eval_runtime": 153.5192,
+      "eval_samples_per_second": 19.522,
+      "eval_steps_per_second": 4.885,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.769336405262336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null