Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8074ec43d15f505271628c8c5959ffee92306b0cab459557d7c399afab6a6e5
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:49c0656d97aeb0442ad6c5bd748c47a50a63181bc6989c31c5eaa06f5ad0e6be
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a254fa26144db046ba8c8662e10e70f02c1aa3c0e380a03b0e38aac49d45346c
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7556aa98a428afacf4373ea90404728f761509f991fa94d62db4d2cac57257a
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8aca31a0a500420a6d71d4320be83d2c042ee0de868f32bdb3a5bc4baed4ee3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ad1a8d0ce331913f56703e57ec5ff6cbcbbc8675d04d183d9f8ddecab98e436
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7394875884056091,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.028105677346824058,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 19.638,
       "eval_steps_per_second": 4.914,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3812663934976e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7103737592697144,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.056211354693648116,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 19.638,
       "eval_steps_per_second": 4.914,
       "step": 50
+    },
+    {
+      "epoch": 0.02866779089376054,
+      "grad_norm": 0.328805536031723,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.7461,
+      "step": 51
+    },
+    {
+      "epoch": 0.02922990444069702,
+      "grad_norm": 0.33998236060142517,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 0.868,
+      "step": 52
+    },
+    {
+      "epoch": 0.029792017987633503,
+      "grad_norm": 0.2628476917743683,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 0.7035,
+      "step": 53
+    },
+    {
+      "epoch": 0.03035413153456998,
+      "grad_norm": 0.2293473780155182,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 0.7382,
+      "step": 54
+    },
+    {
+      "epoch": 0.030916245081506463,
+      "grad_norm": 0.22472500801086426,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 0.7453,
+      "step": 55
+    },
+    {
+      "epoch": 0.03147835862844295,
+      "grad_norm": 0.20862101018428802,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 0.6398,
+      "step": 56
+    },
+    {
+      "epoch": 0.03204047217537943,
+      "grad_norm": 0.21950207650661469,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 0.7376,
+      "step": 57
+    },
+    {
+      "epoch": 0.032602585722315905,
+      "grad_norm": 0.22642666101455688,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 0.6904,
+      "step": 58
+    },
+    {
+      "epoch": 0.03316469926925239,
+      "grad_norm": 0.2184956967830658,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 0.6677,
+      "step": 59
+    },
+    {
+      "epoch": 0.03372681281618887,
+      "grad_norm": 0.2059151977300644,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 0.6943,
+      "step": 60
+    },
+    {
+      "epoch": 0.034288926363125354,
+      "grad_norm": 0.20753073692321777,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 0.7104,
+      "step": 61
+    },
+    {
+      "epoch": 0.03485103991006183,
+      "grad_norm": 0.20797058939933777,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.7273,
+      "step": 62
+    },
+    {
+      "epoch": 0.03541315345699832,
+      "grad_norm": 0.2004324048757553,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.621,
+      "step": 63
+    },
+    {
+      "epoch": 0.035975267003934795,
+      "grad_norm": 0.2056368589401245,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 0.6748,
+      "step": 64
+    },
+    {
+      "epoch": 0.03653738055087127,
+      "grad_norm": 0.20332691073417664,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 0.7194,
+      "step": 65
+    },
+    {
+      "epoch": 0.03709949409780776,
+      "grad_norm": 0.21475742757320404,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 0.7574,
+      "step": 66
+    },
+    {
+      "epoch": 0.03766160764474424,
+      "grad_norm": 0.21810247004032135,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.736,
+      "step": 67
+    },
+    {
+      "epoch": 0.03822372119168072,
+      "grad_norm": 0.2109690010547638,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 0.735,
+      "step": 68
+    },
+    {
+      "epoch": 0.0387858347386172,
+      "grad_norm": 0.21837064623832703,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 0.7252,
+      "step": 69
+    },
+    {
+      "epoch": 0.03934794828555368,
+      "grad_norm": 0.20757514238357544,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 0.728,
+      "step": 70
+    },
+    {
+      "epoch": 0.039910061832490164,
+      "grad_norm": 0.21207264065742493,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 0.7625,
+      "step": 71
+    },
+    {
+      "epoch": 0.04047217537942664,
+      "grad_norm": 0.20816613733768463,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 0.7204,
+      "step": 72
+    },
+    {
+      "epoch": 0.04103428892636313,
+      "grad_norm": 0.21276846528053284,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 0.7226,
+      "step": 73
+    },
+    {
+      "epoch": 0.041596402473299605,
+      "grad_norm": 0.21693867444992065,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.7129,
+      "step": 74
+    },
+    {
+      "epoch": 0.04215851602023609,
+      "grad_norm": 0.21719211339950562,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 0.731,
+      "step": 75
+    },
+    {
+      "epoch": 0.04272062956717257,
+      "grad_norm": 0.2159098982810974,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.695,
+      "step": 76
+    },
+    {
+      "epoch": 0.04328274311410905,
+      "grad_norm": 0.21332460641860962,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 0.7161,
+      "step": 77
+    },
+    {
+      "epoch": 0.04384485666104553,
+      "grad_norm": 0.22994939982891083,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 0.754,
+      "step": 78
+    },
+    {
+      "epoch": 0.04440697020798201,
+      "grad_norm": 0.22945700585842133,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 0.7042,
+      "step": 79
+    },
+    {
+      "epoch": 0.044969083754918496,
+      "grad_norm": 0.23664583265781403,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 0.7297,
+      "step": 80
+    },
+    {
+      "epoch": 0.045531197301854974,
+      "grad_norm": 0.23979917168617249,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 0.7108,
+      "step": 81
+    },
+    {
+      "epoch": 0.04609331084879146,
+      "grad_norm": 0.23731853067874908,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 0.7092,
+      "step": 82
+    },
+    {
+      "epoch": 0.04665542439572794,
+      "grad_norm": 0.23034045100212097,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 0.6778,
+      "step": 83
+    },
+    {
+      "epoch": 0.047217537942664416,
+      "grad_norm": 0.23124980926513672,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 0.7142,
+      "step": 84
+    },
+    {
+      "epoch": 0.0477796514896009,
+      "grad_norm": 0.22591619193553925,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 0.6442,
+      "step": 85
+    },
+    {
+      "epoch": 0.04834176503653738,
+      "grad_norm": 0.2527121901512146,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.811,
+      "step": 86
+    },
+    {
+      "epoch": 0.048903878583473864,
+      "grad_norm": 0.2379622459411621,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.6786,
+      "step": 87
+    },
+    {
+      "epoch": 0.04946599213041034,
+      "grad_norm": 0.2407558411359787,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.7249,
+      "step": 88
+    },
+    {
+      "epoch": 0.05002810567734682,
+      "grad_norm": 0.25664445757865906,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 0.6669,
+      "step": 89
+    },
+    {
+      "epoch": 0.050590219224283306,
+      "grad_norm": 0.2580859959125519,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.6994,
+      "step": 90
+    },
+    {
+      "epoch": 0.051152332771219784,
+      "grad_norm": 0.25966179370880127,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.7234,
+      "step": 91
+    },
+    {
+      "epoch": 0.05171444631815627,
+      "grad_norm": 0.27060139179229736,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.613,
+      "step": 92
+    },
+    {
+      "epoch": 0.05227655986509275,
+      "grad_norm": 0.26522526144981384,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 0.6309,
+      "step": 93
+    },
+    {
+      "epoch": 0.05283867341202923,
+      "grad_norm": 0.2706226408481598,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 0.6742,
+      "step": 94
+    },
+    {
+      "epoch": 0.05340078695896571,
+      "grad_norm": 0.30376970767974854,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 0.7692,
+      "step": 95
+    },
+    {
+      "epoch": 0.05396290050590219,
+      "grad_norm": 0.31754347681999207,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 0.646,
+      "step": 96
+    },
+    {
+      "epoch": 0.054525014052838675,
+      "grad_norm": 0.3306269943714142,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 0.7368,
+      "step": 97
+    },
+    {
+      "epoch": 0.05508712759977515,
+      "grad_norm": 0.34835872054100037,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 0.6777,
+      "step": 98
+    },
+    {
+      "epoch": 0.05564924114671164,
+      "grad_norm": 0.3743361234664917,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 0.6904,
+      "step": 99
+    },
+    {
+      "epoch": 0.056211354693648116,
+      "grad_norm": 0.5413866639137268,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.8674,
+      "step": 100
+    },
+    {
+      "epoch": 0.056211354693648116,
+      "eval_loss": 0.7103737592697144,
+      "eval_runtime": 152.8241,
+      "eval_samples_per_second": 19.611,
+      "eval_steps_per_second": 4.908,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.769336405262336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null