yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor

Browse files

Files changed (7) hide show

README.md +14 -6
all_results.json +11 -11
eval_results.json +6 -6
pytorch_model.bin +1 -1
train_results.json +6 -6
trainer_state.json +337 -721
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor](https://huggingface.co/yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6214
-- Accuracy: 0.8911
 ## Model description
@@ -45,15 +45,23 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 100
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss | Accuracy |
 |:-------------:|:-----:|:-----:|:---------------:|:--------:|
-| 0.065         | 26.4  | 5000  | 0.6983          | 0.8568   |
-| 0.0412        | 52.81 | 10000 | 0.5958          | 0.8762   |
-| 0.0173        | 79.21 | 15000 | 0.5708          | 0.8969   |
 ### Framework versions

 This model is a fine-tuned version of [yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor](https://huggingface.co/yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3117
+- Accuracy: 0.9323
 ## Model description
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 60
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss | Accuracy |
 |:-------------:|:-----:|:-----:|:---------------:|:--------:|
+| 0.0559        | 5.28  | 1000  | 0.3097          | 0.9191   |
+| 0.047         | 10.56 | 2000  | 0.3482          | 0.9191   |
+| 0.0402        | 15.84 | 3000  | 0.3890          | 0.9080   |
+| 0.0328        | 21.12 | 4000  | 0.3746          | 0.9150   |
+| 0.0189        | 26.4  | 5000  | 0.4274          | 0.9113   |
+| 0.0187        | 31.68 | 6000  | 0.4131          | 0.9101   |
+| 0.0203        | 36.96 | 7000  | 0.3643          | 0.9237   |
+| 0.0147        | 42.24 | 8000  | 0.3574          | 0.9295   |
+| 0.0148        | 47.52 | 9000  | 0.3653          | 0.9220   |
+| 0.0137        | 52.81 | 10000 | 0.3257          | 0.9352   |
+| 0.0174        | 58.09 | 11000 | 0.3097          | 0.9340   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 99.8,
-    "eval_accuracy": 0.8910890817642212,
-    "eval_loss": 0.6214143633842468,
-    "eval_runtime": 50.0096,
     "eval_samples": 2424,
-    "eval_samples_per_second": 48.471,
-    "eval_steps_per_second": 6.059,
-    "total_flos": 3.6752439370752e+19,
-    "train_loss": 0.05161126141825681,
-    "train_runtime": 41136.7074,
     "train_samples": 12120,
-    "train_samples_per_second": 29.463,
-    "train_steps_per_second": 0.459
 }

 {
+    "epoch": 59.88,
+    "eval_accuracy": 0.9323432445526123,
+    "eval_loss": 0.3117374777793884,
+    "eval_runtime": 50.8983,
     "eval_samples": 2424,
+    "eval_samples_per_second": 47.624,
+    "eval_steps_per_second": 5.953,
+    "total_flos": 2.20514636224512e+19,
+    "train_loss": 0.030625741817122836,
+    "train_runtime": 25244.9182,
     "train_samples": 12120,
+    "train_samples_per_second": 28.806,
+    "train_steps_per_second": 0.449
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 99.8,
-    "eval_accuracy": 0.8910890817642212,
-    "eval_loss": 0.6214143633842468,
-    "eval_runtime": 50.0096,
     "eval_samples": 2424,
-    "eval_samples_per_second": 48.471,
-    "eval_steps_per_second": 6.059
 }

 {
+    "epoch": 59.88,
+    "eval_accuracy": 0.9323432445526123,
+    "eval_loss": 0.3117374777793884,
+    "eval_runtime": 50.8983,
     "eval_samples": 2424,
+    "eval_samples_per_second": 47.624,
+    "eval_steps_per_second": 5.953
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9e822c5fb55993c9b4c6df450112755bab2c5d2e28b029c06fc99c29c716826
 size 1266146037

 version https://git-lfs.github.com/spec/v1
+oid sha256:41ca0eeca582f52ad187db0b010f7bf152237a85fc348fd2af50256d74874d7a
 size 1266146037

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 99.8,
-    "total_flos": 3.6752439370752e+19,
-    "train_loss": 0.05161126141825681,
-    "train_runtime": 41136.7074,
     "train_samples": 12120,
-    "train_samples_per_second": 29.463,
-    "train_steps_per_second": 0.459
 }

 {
+    "epoch": 59.88,
+    "total_flos": 2.20514636224512e+19,
+    "train_loss": 0.030625741817122836,
+    "train_runtime": 25244.9182,
     "train_samples": 12120,
+    "train_samples_per_second": 28.806,
+    "train_steps_per_second": 0.449
 }

trainer_state.json CHANGED Viewed

@@ -1,1198 +1,814 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 99.8019801980198,
-  "eval_steps": 5000,
-  "global_step": 18900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.53,
-      "learning_rate": 4.974074074074074e-05,
-      "loss": 0.2238,
       "step": 100
     },
     {
       "epoch": 1.06,
-      "learning_rate": 4.947883597883598e-05,
-      "loss": 0.1891,
       "step": 200
     },
     {
       "epoch": 1.58,
-      "learning_rate": 4.921428571428572e-05,
-      "loss": 0.1687,
       "step": 300
     },
     {
       "epoch": 2.11,
-      "learning_rate": 4.894973544973545e-05,
-      "loss": 0.1855,
       "step": 400
     },
     {
       "epoch": 2.64,
-      "learning_rate": 4.868518518518519e-05,
-      "loss": 0.1481,
       "step": 500
     },
     {
       "epoch": 3.17,
-      "learning_rate": 4.842063492063492e-05,
-      "loss": 0.1691,
       "step": 600
     },
     {
       "epoch": 3.7,
-      "learning_rate": 4.815608465608466e-05,
-      "loss": 0.1415,
       "step": 700
     },
     {
       "epoch": 4.22,
-      "learning_rate": 4.7891534391534393e-05,
-      "loss": 0.1427,
       "step": 800
     },
     {
       "epoch": 4.75,
-      "learning_rate": 4.762698412698413e-05,
-      "loss": 0.1249,
       "step": 900
     },
     {
       "epoch": 5.28,
-      "learning_rate": 4.7362433862433866e-05,
-      "loss": 0.1405,
       "step": 1000
     },
     {
       "epoch": 5.81,
-      "learning_rate": 4.70978835978836e-05,
-      "loss": 0.138,
       "step": 1100
     },
     {
       "epoch": 6.34,
-      "learning_rate": 4.683333333333334e-05,
-      "loss": 0.1295,
       "step": 1200
     },
     {
       "epoch": 6.86,
-      "learning_rate": 4.6568783068783074e-05,
-      "loss": 0.1314,
       "step": 1300
     },
     {
       "epoch": 7.39,
-      "learning_rate": 4.63042328042328e-05,
-      "loss": 0.1092,
       "step": 1400
     },
     {
       "epoch": 7.92,
-      "learning_rate": 4.6039682539682546e-05,
-      "loss": 0.1169,
       "step": 1500
     },
     {
       "epoch": 8.45,
-      "learning_rate": 4.5775132275132275e-05,
-      "loss": 0.1195,
       "step": 1600
     },
     {
       "epoch": 8.98,
-      "learning_rate": 4.551058201058201e-05,
-      "loss": 0.1212,
       "step": 1700
     },
     {
       "epoch": 9.5,
-      "learning_rate": 4.524603174603175e-05,
-      "loss": 0.1057,
       "step": 1800
     },
     {
       "epoch": 10.03,
-      "learning_rate": 4.4981481481481484e-05,
-      "loss": 0.1199,
       "step": 1900
     },
     {
       "epoch": 10.56,
-      "learning_rate": 4.471693121693122e-05,
-      "loss": 0.1116,
       "step": 2000
     },
     {
       "epoch": 11.09,
-      "learning_rate": 4.4452380952380956e-05,
-      "loss": 0.0921,
       "step": 2100
     },
     {
       "epoch": 11.62,
-      "learning_rate": 4.418783068783069e-05,
-      "loss": 0.1057,
       "step": 2200
     },
     {
       "epoch": 12.15,
-      "learning_rate": 4.392328042328043e-05,
-      "loss": 0.1082,
       "step": 2300
     },
     {
       "epoch": 12.67,
-      "learning_rate": 4.365873015873016e-05,
-      "loss": 0.1045,
       "step": 2400
     },
     {
       "epoch": 13.2,
-      "learning_rate": 4.33941798941799e-05,
-      "loss": 0.0976,
       "step": 2500
     },
     {
       "epoch": 13.73,
-      "learning_rate": 4.312962962962963e-05,
-      "loss": 0.0971,
       "step": 2600
     },
     {
       "epoch": 14.26,
-      "learning_rate": 4.286507936507937e-05,
-      "loss": 0.0862,
       "step": 2700
     },
     {
       "epoch": 14.79,
-      "learning_rate": 4.26005291005291e-05,
-      "loss": 0.0883,
       "step": 2800
     },
     {
       "epoch": 15.31,
-      "learning_rate": 4.233597883597884e-05,
-      "loss": 0.1122,
       "step": 2900
     },
     {
       "epoch": 15.84,
-      "learning_rate": 4.2071428571428574e-05,
-      "loss": 0.0854,
       "step": 3000
     },
     {
       "epoch": 16.37,
-      "learning_rate": 4.180687830687831e-05,
-      "loss": 0.0942,
       "step": 3100
     },
     {
       "epoch": 16.9,
-      "learning_rate": 4.1542328042328046e-05,
-      "loss": 0.0888,
       "step": 3200
     },
     {
       "epoch": 17.43,
-      "learning_rate": 4.127777777777778e-05,
-      "loss": 0.0917,
       "step": 3300
     },
     {
       "epoch": 17.95,
-      "learning_rate": 4.101322751322751e-05,
-      "loss": 0.0928,
       "step": 3400
     },
     {
       "epoch": 18.48,
-      "learning_rate": 4.0748677248677254e-05,
-      "loss": 0.0851,
       "step": 3500
     },
     {
       "epoch": 19.01,
-      "learning_rate": 4.0484126984126983e-05,
-      "loss": 0.0849,
       "step": 3600
     },
     {
       "epoch": 19.54,
-      "learning_rate": 4.0219576719576726e-05,
-      "loss": 0.0829,
       "step": 3700
     },
     {
       "epoch": 20.07,
-      "learning_rate": 3.9955026455026456e-05,
-      "loss": 0.0709,
       "step": 3800
     },
     {
       "epoch": 20.59,
-      "learning_rate": 3.969047619047619e-05,
-      "loss": 0.069,
       "step": 3900
     },
     {
       "epoch": 21.12,
-      "learning_rate": 3.942592592592593e-05,
-      "loss": 0.0764,
       "step": 4000
     },
     {
       "epoch": 21.65,
-      "learning_rate": 3.9161375661375664e-05,
-      "loss": 0.0676,
       "step": 4100
     },
     {
       "epoch": 22.18,
-      "learning_rate": 3.88968253968254e-05,
-      "loss": 0.0802,
       "step": 4200
     },
     {
       "epoch": 22.71,
-      "learning_rate": 3.8632275132275136e-05,
-      "loss": 0.0651,
       "step": 4300
     },
     {
       "epoch": 23.23,
-      "learning_rate": 3.837037037037037e-05,
-      "loss": 0.0732,
       "step": 4400
     },
     {
       "epoch": 23.76,
-      "learning_rate": 3.810582010582011e-05,
-      "loss": 0.0617,
       "step": 4500
     },
     {
       "epoch": 24.29,
-      "learning_rate": 3.7841269841269845e-05,
-      "loss": 0.0696,
       "step": 4600
     },
     {
       "epoch": 24.82,
-      "learning_rate": 3.7576719576719574e-05,
-      "loss": 0.0739,
       "step": 4700
     },
     {
       "epoch": 25.35,
-      "learning_rate": 3.731216931216932e-05,
-      "loss": 0.0569,
       "step": 4800
     },
     {
       "epoch": 25.87,
-      "learning_rate": 3.7047619047619047e-05,
-      "loss": 0.0696,
       "step": 4900
     },
     {
       "epoch": 26.4,
-      "learning_rate": 3.678306878306878e-05,
-      "loss": 0.065,
       "step": 5000
     },
     {
       "epoch": 26.4,
-      "eval_accuracy": 0.8568481802940369,
-      "eval_loss": 0.6983007192611694,
-      "eval_runtime": 50.8227,
-      "eval_samples_per_second": 47.695,
-      "eval_steps_per_second": 5.962,
       "step": 5000
     },
     {
       "epoch": 26.93,
-      "learning_rate": 3.651851851851852e-05,
-      "loss": 0.0652,
       "step": 5100
     },
     {
       "epoch": 27.46,
-      "learning_rate": 3.6253968253968255e-05,
-      "loss": 0.0586,
       "step": 5200
     },
     {
       "epoch": 27.99,
-      "learning_rate": 3.598941798941799e-05,
-      "loss": 0.0673,
       "step": 5300
     },
     {
       "epoch": 28.51,
-      "learning_rate": 3.5727513227513235e-05,
-      "loss": 0.0622,
       "step": 5400
     },
     {
       "epoch": 29.04,
-      "learning_rate": 3.5462962962962964e-05,
-      "loss": 0.0618,
       "step": 5500
     },
     {
       "epoch": 29.57,
-      "learning_rate": 3.51984126984127e-05,
-      "loss": 0.0655,
       "step": 5600
     },
     {
       "epoch": 30.1,
-      "learning_rate": 3.4933862433862436e-05,
-      "loss": 0.0625,
       "step": 5700
     },
     {
       "epoch": 30.63,
-      "learning_rate": 3.466931216931217e-05,
-      "loss": 0.0584,
       "step": 5800
     },
     {
       "epoch": 31.16,
-      "learning_rate": 3.440476190476191e-05,
-      "loss": 0.0649,
       "step": 5900
     },
     {
       "epoch": 31.68,
-      "learning_rate": 3.4140211640211644e-05,
-      "loss": 0.0546,
       "step": 6000
     },
     {
       "epoch": 32.21,
-      "learning_rate": 3.387566137566138e-05,
-      "loss": 0.0564,
       "step": 6100
     },
     {
       "epoch": 32.74,
-      "learning_rate": 3.3611111111111116e-05,
-      "loss": 0.0584,
       "step": 6200
     },
     {
       "epoch": 33.27,
-      "learning_rate": 3.3346560846560846e-05,
-      "loss": 0.0516,
       "step": 6300
     },
     {
       "epoch": 33.8,
-      "learning_rate": 3.308201058201059e-05,
-      "loss": 0.051,
       "step": 6400
     },
     {
       "epoch": 34.32,
-      "learning_rate": 3.281746031746032e-05,
-      "loss": 0.0534,
       "step": 6500
     },
     {
       "epoch": 34.85,
-      "learning_rate": 3.2552910052910054e-05,
-      "loss": 0.0498,
       "step": 6600
     },
     {
       "epoch": 35.38,
-      "learning_rate": 3.228835978835979e-05,
-      "loss": 0.0499,
       "step": 6700
     },
     {
       "epoch": 35.91,
-      "learning_rate": 3.202380952380952e-05,
-      "loss": 0.0566,
       "step": 6800
     },
     {
       "epoch": 36.44,
-      "learning_rate": 3.175925925925926e-05,
-      "loss": 0.0424,
       "step": 6900
     },
     {
       "epoch": 36.96,
-      "learning_rate": 3.149470899470899e-05,
-      "loss": 0.0531,
       "step": 7000
     },
     {
       "epoch": 37.49,
-      "learning_rate": 3.1230158730158734e-05,
-      "loss": 0.0563,
       "step": 7100
     },
     {
       "epoch": 38.02,
-      "learning_rate": 3.0965608465608464e-05,
-      "loss": 0.0475,
       "step": 7200
     },
     {
       "epoch": 38.55,
-      "learning_rate": 3.07010582010582e-05,
-      "loss": 0.0381,
       "step": 7300
     },
     {
       "epoch": 39.08,
-      "learning_rate": 3.0436507936507936e-05,
-      "loss": 0.0525,
       "step": 7400
     },
     {
       "epoch": 39.6,
-      "learning_rate": 3.0171957671957672e-05,
-      "loss": 0.058,
       "step": 7500
     },
     {
       "epoch": 40.13,
-      "learning_rate": 2.9907407407407405e-05,
-      "loss": 0.0422,
       "step": 7600
     },
     {
       "epoch": 40.66,
-      "learning_rate": 2.9642857142857144e-05,
-      "loss": 0.0401,
       "step": 7700
     },
     {
       "epoch": 41.19,
-      "learning_rate": 2.9378306878306877e-05,
-      "loss": 0.0434,
       "step": 7800
     },
     {
       "epoch": 41.72,
-      "learning_rate": 2.9113756613756616e-05,
-      "loss": 0.0407,
       "step": 7900
     },
     {
       "epoch": 42.24,
-      "learning_rate": 2.884920634920635e-05,
-      "loss": 0.048,
       "step": 8000
     },
     {
       "epoch": 42.77,
-      "learning_rate": 2.8584656084656085e-05,
-      "loss": 0.032,
       "step": 8100
     },
     {
       "epoch": 43.3,
-      "learning_rate": 2.8320105820105818e-05,
-      "loss": 0.0457,
       "step": 8200
     },
     {
       "epoch": 43.83,
-      "learning_rate": 2.8055555555555557e-05,
-      "loss": 0.0531,
       "step": 8300
     },
     {
       "epoch": 44.36,
-      "learning_rate": 2.779100529100529e-05,
-      "loss": 0.0443,
       "step": 8400
     },
     {
       "epoch": 44.88,
-      "learning_rate": 2.752645502645503e-05,
-      "loss": 0.0404,
       "step": 8500
     },
     {
       "epoch": 45.41,
-      "learning_rate": 2.7261904761904762e-05,
-      "loss": 0.037,
       "step": 8600
     },
     {
       "epoch": 45.94,
-      "learning_rate": 2.6997354497354498e-05,
-      "loss": 0.0461,
       "step": 8700
     },
     {
       "epoch": 46.47,
-      "learning_rate": 2.673280423280423e-05,
-      "loss": 0.0362,
       "step": 8800
     },
     {
       "epoch": 47.0,
-      "learning_rate": 2.6470899470899475e-05,
-      "loss": 0.0417,
       "step": 8900
     },
     {
       "epoch": 47.52,
-      "learning_rate": 2.6206349206349207e-05,
-      "loss": 0.0347,
       "step": 9000
     },
     {
       "epoch": 48.05,
-      "learning_rate": 2.5941798941798943e-05,
-      "loss": 0.0448,
       "step": 9100
     },
     {
       "epoch": 48.58,
-      "learning_rate": 2.5677248677248676e-05,
-      "loss": 0.0368,
       "step": 9200
     },
     {
       "epoch": 49.11,
-      "learning_rate": 2.5412698412698415e-05,
-      "loss": 0.0379,
       "step": 9300
     },
     {
       "epoch": 49.64,
-      "learning_rate": 2.5148148148148148e-05,
-      "loss": 0.0367,
       "step": 9400
     },
     {
       "epoch": 50.17,
-      "learning_rate": 2.4883597883597884e-05,
-      "loss": 0.0331,
       "step": 9500
     },
     {
       "epoch": 50.69,
-      "learning_rate": 2.461904761904762e-05,
-      "loss": 0.0301,
       "step": 9600
     },
     {
       "epoch": 51.22,
-      "learning_rate": 2.4357142857142857e-05,
-      "loss": 0.0325,
       "step": 9700
     },
     {
       "epoch": 51.75,
-      "learning_rate": 2.4092592592592593e-05,
-      "loss": 0.0397,
       "step": 9800
     },
     {
       "epoch": 52.28,
-      "learning_rate": 2.382804232804233e-05,
-      "loss": 0.0396,
       "step": 9900
     },
     {
       "epoch": 52.81,
-      "learning_rate": 2.3563492063492065e-05,
-      "loss": 0.0412,
       "step": 10000
     },
     {
       "epoch": 52.81,
-      "eval_accuracy": 0.8762376308441162,
-      "eval_loss": 0.5958317518234253,
-      "eval_runtime": 50.4121,
-      "eval_samples_per_second": 48.084,
-      "eval_steps_per_second": 6.01,
       "step": 10000
     },
     {
       "epoch": 53.33,
-      "learning_rate": 2.32989417989418e-05,
-      "loss": 0.0427,
       "step": 10100
     },
     {
       "epoch": 53.86,
-      "learning_rate": 2.3034391534391538e-05,
-      "loss": 0.0317,
       "step": 10200
     },
     {
       "epoch": 54.39,
-      "learning_rate": 2.276984126984127e-05,
-      "loss": 0.0314,
       "step": 10300
     },
     {
       "epoch": 54.92,
-      "learning_rate": 2.2505291005291006e-05,
-      "loss": 0.0384,
       "step": 10400
     },
     {
       "epoch": 55.45,
-      "learning_rate": 2.2240740740740743e-05,
-      "loss": 0.0311,
       "step": 10500
     },
     {
       "epoch": 55.97,
-      "learning_rate": 2.197619047619048e-05,
-      "loss": 0.0315,
       "step": 10600
     },
     {
       "epoch": 56.5,
-      "learning_rate": 2.1711640211640215e-05,
-      "loss": 0.0263,
       "step": 10700
     },
     {
       "epoch": 57.03,
-      "learning_rate": 2.1447089947089947e-05,
-      "loss": 0.0319,
       "step": 10800
     },
     {
       "epoch": 57.56,
-      "learning_rate": 2.1182539682539683e-05,
-      "loss": 0.025,
       "step": 10900
     },
     {
       "epoch": 58.09,
-      "learning_rate": 2.091798941798942e-05,
-      "loss": 0.0323,
       "step": 11000
     },
     {
       "epoch": 58.61,
-      "learning_rate": 2.0653439153439156e-05,
-      "loss": 0.034,
       "step": 11100
     },
     {
       "epoch": 59.14,
-      "learning_rate": 2.0388888888888892e-05,
-      "loss": 0.0326,
       "step": 11200
     },
     {
       "epoch": 59.67,
-      "learning_rate": 2.0124338624338628e-05,
-      "loss": 0.0273,
       "step": 11300
     },
     {
-      "epoch": 60.2,
-      "learning_rate": 1.985978835978836e-05,
-      "loss": 0.0261,
-      "step": 11400
-    },
-    {
-      "epoch": 60.73,
-      "learning_rate": 1.9595238095238097e-05,
-      "loss": 0.0297,
-      "step": 11500
-    },
-    {
-      "epoch": 61.25,
-      "learning_rate": 1.9330687830687833e-05,
-      "loss": 0.0375,
-      "step": 11600
-    },
-    {
-      "epoch": 61.78,
-      "learning_rate": 1.906613756613757e-05,
-      "loss": 0.0262,
-      "step": 11700
-    },
-    {
-      "epoch": 62.31,
-      "learning_rate": 1.8801587301587305e-05,
-      "loss": 0.0333,
-      "step": 11800
-    },
-    {
-      "epoch": 62.84,
-      "learning_rate": 1.8537037037037037e-05,
-      "loss": 0.025,
-      "step": 11900
-    },
-    {
-      "epoch": 63.37,
-      "learning_rate": 1.8272486772486774e-05,
-      "loss": 0.0245,
-      "step": 12000
-    },
-    {
-      "epoch": 63.89,
-      "learning_rate": 1.800793650793651e-05,
-      "loss": 0.0261,
-      "step": 12100
-    },
-    {
-      "epoch": 64.42,
-      "learning_rate": 1.7743386243386246e-05,
-      "loss": 0.0277,
-      "step": 12200
-    },
-    {
-      "epoch": 64.95,
-      "learning_rate": 1.7478835978835982e-05,
-      "loss": 0.0306,
-      "step": 12300
-    },
-    {
-      "epoch": 65.48,
-      "learning_rate": 1.7214285714285715e-05,
-      "loss": 0.0287,
-      "step": 12400
-    },
-    {
-      "epoch": 66.01,
-      "learning_rate": 1.694973544973545e-05,
-      "loss": 0.0222,
-      "step": 12500
-    },
-    {
-      "epoch": 66.53,
-      "learning_rate": 1.6685185185185187e-05,
-      "loss": 0.0302,
-      "step": 12600
-    },
-    {
-      "epoch": 67.06,
-      "learning_rate": 1.6420634920634923e-05,
-      "loss": 0.0252,
-      "step": 12700
-    },
-    {
-      "epoch": 67.59,
-      "learning_rate": 1.615608465608466e-05,
-      "loss": 0.0221,
-      "step": 12800
-    },
-    {
-      "epoch": 68.12,
-      "learning_rate": 1.5891534391534395e-05,
-      "loss": 0.0383,
-      "step": 12900
-    },
-    {
-      "epoch": 68.65,
-      "learning_rate": 1.5626984126984128e-05,
-      "loss": 0.0242,
-      "step": 13000
-    },
-    {
-      "epoch": 69.17,
-      "learning_rate": 1.5362433862433864e-05,
-      "loss": 0.0194,
-      "step": 13100
-    },
-    {
-      "epoch": 69.7,
-      "learning_rate": 1.50978835978836e-05,
-      "loss": 0.0245,
-      "step": 13200
-    },
-    {
-      "epoch": 70.23,
-      "learning_rate": 1.4833333333333336e-05,
-      "loss": 0.0263,
-      "step": 13300
-    },
-    {
-      "epoch": 70.76,
-      "learning_rate": 1.456878306878307e-05,
-      "loss": 0.0276,
-      "step": 13400
-    },
-    {
-      "epoch": 71.29,
-      "learning_rate": 1.4304232804232806e-05,
-      "loss": 0.0213,
-      "step": 13500
-    },
-    {
-      "epoch": 71.82,
-      "learning_rate": 1.4042328042328043e-05,
-      "loss": 0.0296,
-      "step": 13600
-    },
-    {
-      "epoch": 72.34,
-      "learning_rate": 1.3777777777777778e-05,
-      "loss": 0.0231,
-      "step": 13700
-    },
-    {
-      "epoch": 72.87,
-      "learning_rate": 1.3513227513227514e-05,
-      "loss": 0.0241,
-      "step": 13800
-    },
-    {
-      "epoch": 73.4,
-      "learning_rate": 1.324867724867725e-05,
-      "loss": 0.0283,
-      "step": 13900
-    },
-    {
-      "epoch": 73.93,
-      "learning_rate": 1.2984126984126984e-05,
-      "loss": 0.0231,
-      "step": 14000
-    },
-    {
-      "epoch": 74.46,
-      "learning_rate": 1.271957671957672e-05,
-      "loss": 0.0179,
-      "step": 14100
-    },
-    {
-      "epoch": 74.98,
-      "learning_rate": 1.2455026455026456e-05,
-      "loss": 0.0208,
-      "step": 14200
-    },
-    {
-      "epoch": 75.51,
-      "learning_rate": 1.219047619047619e-05,
-      "loss": 0.0277,
-      "step": 14300
-    },
-    {
-      "epoch": 76.04,
-      "learning_rate": 1.1925925925925927e-05,
-      "loss": 0.0195,
-      "step": 14400
-    },
-    {
-      "epoch": 76.57,
-      "learning_rate": 1.1661375661375661e-05,
-      "loss": 0.0188,
-      "step": 14500
-    },
-    {
-      "epoch": 77.1,
-      "learning_rate": 1.1396825396825397e-05,
-      "loss": 0.0184,
-      "step": 14600
-    },
-    {
-      "epoch": 77.62,
-      "learning_rate": 1.1132275132275133e-05,
-      "loss": 0.0165,
-      "step": 14700
-    },
-    {
-      "epoch": 78.15,
-      "learning_rate": 1.0867724867724868e-05,
-      "loss": 0.0245,
-      "step": 14800
-    },
-    {
-      "epoch": 78.68,
-      "learning_rate": 1.0603174603174604e-05,
-      "loss": 0.0331,
-      "step": 14900
-    },
-    {
-      "epoch": 79.21,
-      "learning_rate": 1.033862433862434e-05,
-      "loss": 0.0173,
-      "step": 15000
-    },
-    {
-      "epoch": 79.21,
-      "eval_accuracy": 0.8968647122383118,
-      "eval_loss": 0.5708499550819397,
-      "eval_runtime": 49.6061,
-      "eval_samples_per_second": 48.865,
-      "eval_steps_per_second": 6.108,
-      "step": 15000
-    },
-    {
-      "epoch": 79.74,
-      "learning_rate": 1.0074074074074074e-05,
-      "loss": 0.0243,
-      "step": 15100
-    },
-    {
-      "epoch": 80.26,
-      "learning_rate": 9.80952380952381e-06,
-      "loss": 0.0203,
-      "step": 15200
-    },
-    {
-      "epoch": 80.79,
-      "learning_rate": 9.544973544973545e-06,
-      "loss": 0.018,
-      "step": 15300
-    },
-    {
-      "epoch": 81.32,
-      "learning_rate": 9.280423280423281e-06,
-      "loss": 0.0239,
-      "step": 15400
-    },
-    {
-      "epoch": 81.85,
-      "learning_rate": 9.015873015873017e-06,
-      "loss": 0.0176,
-      "step": 15500
-    },
-    {
-      "epoch": 82.38,
-      "learning_rate": 8.751322751322751e-06,
-      "loss": 0.0231,
-      "step": 15600
-    },
-    {
-      "epoch": 82.9,
-      "learning_rate": 8.486772486772487e-06,
-      "loss": 0.0181,
-      "step": 15700
-    },
-    {
-      "epoch": 83.43,
-      "learning_rate": 8.222222222222223e-06,
-      "loss": 0.0221,
-      "step": 15800
-    },
-    {
-      "epoch": 83.96,
-      "learning_rate": 7.957671957671958e-06,
-      "loss": 0.0132,
-      "step": 15900
-    },
-    {
-      "epoch": 84.49,
-      "learning_rate": 7.693121693121694e-06,
-      "loss": 0.0127,
-      "step": 16000
-    },
-    {
-      "epoch": 85.02,
-      "learning_rate": 7.428571428571429e-06,
-      "loss": 0.0178,
-      "step": 16100
-    },
-    {
-      "epoch": 85.54,
-      "learning_rate": 7.1640211640211644e-06,
-      "loss": 0.0176,
-      "step": 16200
-    },
-    {
-      "epoch": 86.07,
-      "learning_rate": 6.8994708994709e-06,
-      "loss": 0.0169,
-      "step": 16300
-    },
-    {
-      "epoch": 86.6,
-      "learning_rate": 6.634920634920636e-06,
-      "loss": 0.0163,
-      "step": 16400
-    },
-    {
-      "epoch": 87.13,
-      "learning_rate": 6.370370370370371e-06,
-      "loss": 0.015,
-      "step": 16500
-    },
-    {
-      "epoch": 87.66,
-      "learning_rate": 6.105820105820106e-06,
-      "loss": 0.022,
-      "step": 16600
-    },
-    {
-      "epoch": 88.18,
-      "learning_rate": 5.841269841269842e-06,
-      "loss": 0.0115,
-      "step": 16700
-    },
-    {
-      "epoch": 88.71,
-      "learning_rate": 5.576719576719577e-06,
-      "loss": 0.0148,
-      "step": 16800
-    },
-    {
-      "epoch": 89.24,
-      "learning_rate": 5.312169312169312e-06,
-      "loss": 0.0153,
-      "step": 16900
-    },
-    {
-      "epoch": 89.77,
-      "learning_rate": 5.047619047619047e-06,
-      "loss": 0.0194,
-      "step": 17000
-    },
-    {
-      "epoch": 90.3,
-      "learning_rate": 4.783068783068783e-06,
-      "loss": 0.0165,
-      "step": 17100
-    },
-    {
-      "epoch": 90.83,
-      "learning_rate": 4.5185185185185185e-06,
-      "loss": 0.013,
-      "step": 17200
-    },
-    {
-      "epoch": 91.35,
-      "learning_rate": 4.253968253968254e-06,
-      "loss": 0.0212,
-      "step": 17300
-    },
-    {
-      "epoch": 91.88,
-      "learning_rate": 3.989417989417989e-06,
-      "loss": 0.0192,
-      "step": 17400
-    },
-    {
-      "epoch": 92.41,
-      "learning_rate": 3.7248677248677246e-06,
-      "loss": 0.0152,
-      "step": 17500
-    },
-    {
-      "epoch": 92.94,
-      "learning_rate": 3.4603174603174603e-06,
-      "loss": 0.02,
-      "step": 17600
-    },
-    {
-      "epoch": 93.47,
-      "learning_rate": 3.1957671957671955e-06,
-      "loss": 0.0089,
-      "step": 17700
-    },
-    {
-      "epoch": 93.99,
-      "learning_rate": 2.9312169312169316e-06,
-      "loss": 0.0124,
-      "step": 17800
-    },
-    {
-      "epoch": 94.52,
-      "learning_rate": 2.666666666666667e-06,
-      "loss": 0.019,
-      "step": 17900
-    },
-    {
-      "epoch": 95.05,
-      "learning_rate": 2.402116402116402e-06,
-      "loss": 0.0151,
-      "step": 18000
-    },
-    {
-      "epoch": 95.58,
-      "learning_rate": 2.1375661375661377e-06,
-      "loss": 0.0184,
-      "step": 18100
-    },
-    {
-      "epoch": 96.11,
-      "learning_rate": 1.873015873015873e-06,
-      "loss": 0.0146,
-      "step": 18200
-    },
-    {
-      "epoch": 96.63,
-      "learning_rate": 1.6084656084656084e-06,
-      "loss": 0.0227,
-      "step": 18300
-    },
-    {
-      "epoch": 97.16,
-      "learning_rate": 1.343915343915344e-06,
-      "loss": 0.0149,
-      "step": 18400
-    },
-    {
-      "epoch": 97.69,
-      "learning_rate": 1.0793650793650795e-06,
-      "loss": 0.015,
-      "step": 18500
-    },
-    {
-      "epoch": 98.22,
-      "learning_rate": 8.148148148148147e-07,
-      "loss": 0.0166,
-      "step": 18600
-    },
-    {
-      "epoch": 98.75,
-      "learning_rate": 5.502645502645503e-07,
-      "loss": 0.0167,
-      "step": 18700
-    },
-    {
-      "epoch": 99.27,
-      "learning_rate": 2.8571428571428575e-07,
-      "loss": 0.0152,
-      "step": 18800
-    },
-    {
-      "epoch": 99.8,
-      "learning_rate": 2.1164021164021167e-08,
-      "loss": 0.0164,
-      "step": 18900
-    },
-    {
-      "epoch": 99.8,
-      "step": 18900,
-      "total_flos": 3.6752439370752e+19,
-      "train_loss": 0.05161126141825681,
-      "train_runtime": 41136.7074,
-      "train_samples_per_second": 29.463,
-      "train_steps_per_second": 0.459
     },
     {
-      "epoch": 99.8,
-      "eval_accuracy": 0.8910890817642212,
-      "eval_loss": 0.6214143633842468,
-      "eval_runtime": 50.0096,
-      "eval_samples_per_second": 48.471,
-      "eval_steps_per_second": 6.059,
-      "step": 18900
     }
   ],
   "logging_steps": 100,
-  "max_steps": 18900,
-  "num_train_epochs": 100,
   "save_steps": 2000,
-  "total_flos": 3.6752439370752e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 59.881188118811885,
+  "eval_steps": 1000,
+  "global_step": 11340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.53,
+      "learning_rate": 4.956349206349207e-05,
+      "loss": 0.0798,
       "step": 100
     },
     {
       "epoch": 1.06,
+      "learning_rate": 4.912257495590829e-05,
+      "loss": 0.0816,
       "step": 200
     },
     {
       "epoch": 1.58,
+      "learning_rate": 4.868165784832452e-05,
+      "loss": 0.0761,
       "step": 300
     },
     {
       "epoch": 2.11,
+      "learning_rate": 4.824514991181658e-05,
+      "loss": 0.0723,
       "step": 400
     },
     {
       "epoch": 2.64,
+      "learning_rate": 4.7804232804232806e-05,
+      "loss": 0.0601,
       "step": 500
     },
     {
       "epoch": 3.17,
+      "learning_rate": 4.736331569664903e-05,
+      "loss": 0.0593,
       "step": 600
     },
     {
       "epoch": 3.7,
+      "learning_rate": 4.692239858906526e-05,
+      "loss": 0.0692,
       "step": 700
     },
     {
       "epoch": 4.22,
+      "learning_rate": 4.648148148148148e-05,
+      "loss": 0.0587,
       "step": 800
     },
     {
       "epoch": 4.75,
+      "learning_rate": 4.604056437389771e-05,
+      "loss": 0.0598,
       "step": 900
     },
     {
       "epoch": 5.28,
+      "learning_rate": 4.559964726631393e-05,
+      "loss": 0.0559,
+      "step": 1000
+    },
+    {
+      "epoch": 5.28,
+      "eval_accuracy": 0.9191418886184692,
+      "eval_loss": 0.3096904754638672,
+      "eval_runtime": 51.3243,
+      "eval_samples_per_second": 47.229,
+      "eval_steps_per_second": 5.904,
       "step": 1000
     },
     {
       "epoch": 5.81,
+      "learning_rate": 4.515873015873016e-05,
+      "loss": 0.0552,
       "step": 1100
     },
     {
       "epoch": 6.34,
+      "learning_rate": 4.471781305114639e-05,
+      "loss": 0.0519,
       "step": 1200
     },
     {
       "epoch": 6.86,
+      "learning_rate": 4.428130511463845e-05,
+      "loss": 0.0536,
       "step": 1300
     },
     {
       "epoch": 7.39,
+      "learning_rate": 4.3840388007054675e-05,
+      "loss": 0.0438,
       "step": 1400
     },
     {
       "epoch": 7.92,
+      "learning_rate": 4.33994708994709e-05,
+      "loss": 0.0436,
       "step": 1500
     },
     {
       "epoch": 8.45,
+      "learning_rate": 4.295855379188713e-05,
+      "loss": 0.0447,
       "step": 1600
     },
     {
       "epoch": 8.98,
+      "learning_rate": 4.2517636684303355e-05,
+      "loss": 0.0535,
       "step": 1700
     },
     {
       "epoch": 9.5,
+      "learning_rate": 4.207671957671958e-05,
+      "loss": 0.0467,
       "step": 1800
     },
     {
       "epoch": 10.03,
+      "learning_rate": 4.16358024691358e-05,
+      "loss": 0.0557,
       "step": 1900
     },
     {
       "epoch": 10.56,
+      "learning_rate": 4.1194885361552036e-05,
+      "loss": 0.047,
+      "step": 2000
+    },
+    {
+      "epoch": 10.56,
+      "eval_accuracy": 0.9191418886184692,
+      "eval_loss": 0.34823155403137207,
+      "eval_runtime": 51.4649,
+      "eval_samples_per_second": 47.1,
+      "eval_steps_per_second": 5.888,
       "step": 2000
     },
     {
       "epoch": 11.09,
+      "learning_rate": 4.0753968253968256e-05,
+      "loss": 0.0397,
       "step": 2100
     },
     {
       "epoch": 11.62,
+      "learning_rate": 4.031305114638448e-05,
+      "loss": 0.0475,
       "step": 2200
     },
     {
       "epoch": 12.15,
+      "learning_rate": 3.987213403880071e-05,
+      "loss": 0.0478,
       "step": 2300
     },
     {
       "epoch": 12.67,
+      "learning_rate": 3.9431216931216936e-05,
+      "loss": 0.0421,
       "step": 2400
     },
     {
       "epoch": 13.2,
+      "learning_rate": 3.8994708994709e-05,
+      "loss": 0.0408,
       "step": 2500
     },
     {
       "epoch": 13.73,
+      "learning_rate": 3.8553791887125224e-05,
+      "loss": 0.0368,
       "step": 2600
     },
     {
       "epoch": 14.26,
+      "learning_rate": 3.8112874779541445e-05,
+      "loss": 0.0379,
       "step": 2700
     },
     {
       "epoch": 14.79,
+      "learning_rate": 3.767195767195768e-05,
+      "loss": 0.052,
       "step": 2800
     },
     {
       "epoch": 15.31,
+      "learning_rate": 3.72310405643739e-05,
+      "loss": 0.0424,
       "step": 2900
     },
     {
       "epoch": 15.84,
+      "learning_rate": 3.6790123456790125e-05,
+      "loss": 0.0402,
+      "step": 3000
+    },
+    {
+      "epoch": 15.84,
+      "eval_accuracy": 0.9080032706260681,
+      "eval_loss": 0.3889801502227783,
+      "eval_runtime": 50.7451,
+      "eval_samples_per_second": 47.768,
+      "eval_steps_per_second": 5.971,
       "step": 3000
     },
     {
       "epoch": 16.37,
+      "learning_rate": 3.634920634920635e-05,
+      "loss": 0.0417,
       "step": 3100
     },
     {
       "epoch": 16.9,
+      "learning_rate": 3.590828924162258e-05,
+      "loss": 0.0419,
       "step": 3200
     },
     {
       "epoch": 17.43,
+      "learning_rate": 3.54673721340388e-05,
+      "loss": 0.0439,
       "step": 3300
     },
     {
       "epoch": 17.95,
+      "learning_rate": 3.502645502645503e-05,
+      "loss": 0.0446,
       "step": 3400
     },
     {
       "epoch": 18.48,
+      "learning_rate": 3.458553791887125e-05,
+      "loss": 0.0339,
       "step": 3500
     },
     {
       "epoch": 19.01,
+      "learning_rate": 3.414462081128748e-05,
+      "loss": 0.0301,
       "step": 3600
     },
     {
       "epoch": 19.54,
+      "learning_rate": 3.3703703703703706e-05,
+      "loss": 0.0277,
       "step": 3700
     },
     {
       "epoch": 20.07,
+      "learning_rate": 3.326278659611993e-05,
+      "loss": 0.0333,
       "step": 3800
     },
     {
       "epoch": 20.59,
+      "learning_rate": 3.282186948853615e-05,
+      "loss": 0.0298,
       "step": 3900
     },
     {
       "epoch": 21.12,
+      "learning_rate": 3.2380952380952386e-05,
+      "loss": 0.0328,
+      "step": 4000
+    },
+    {
+      "epoch": 21.12,
+      "eval_accuracy": 0.9150164723396301,
+      "eval_loss": 0.37457939982414246,
+      "eval_runtime": 50.3165,
+      "eval_samples_per_second": 48.175,
+      "eval_steps_per_second": 6.022,
       "step": 4000
     },
     {
       "epoch": 21.65,
+      "learning_rate": 3.1940035273368606e-05,
+      "loss": 0.0298,
       "step": 4100
     },
     {
       "epoch": 22.18,
+      "learning_rate": 3.149911816578483e-05,
+      "loss": 0.0314,
       "step": 4200
     },
     {
       "epoch": 22.71,
+      "learning_rate": 3.105820105820106e-05,
+      "loss": 0.0253,
       "step": 4300
     },
     {
       "epoch": 23.23,
+      "learning_rate": 3.061728395061729e-05,
+      "loss": 0.0339,
       "step": 4400
     },
     {
       "epoch": 23.76,
+      "learning_rate": 3.017636684303351e-05,
+      "loss": 0.0266,
       "step": 4500
     },
     {
       "epoch": 24.29,
+      "learning_rate": 2.973544973544974e-05,
+      "loss": 0.0361,
       "step": 4600
     },
     {
       "epoch": 24.82,
+      "learning_rate": 2.929453262786596e-05,
+      "loss": 0.0305,
       "step": 4700
     },
     {
       "epoch": 25.35,
+      "learning_rate": 2.885361552028219e-05,
+      "loss": 0.0294,
       "step": 4800
     },
     {
       "epoch": 25.87,
+      "learning_rate": 2.8412698412698414e-05,
+      "loss": 0.0339,
       "step": 4900
     },
     {
       "epoch": 26.4,
+      "learning_rate": 2.797178130511464e-05,
+      "loss": 0.0189,
       "step": 5000
     },
     {
       "epoch": 26.4,
+      "eval_accuracy": 0.9113036394119263,
+      "eval_loss": 0.42735978960990906,
+      "eval_runtime": 49.4145,
+      "eval_samples_per_second": 49.054,
+      "eval_steps_per_second": 6.132,
       "step": 5000
     },
     {
       "epoch": 26.93,
+      "learning_rate": 2.7530864197530864e-05,
+      "loss": 0.0285,
       "step": 5100
     },
     {
       "epoch": 27.46,
+      "learning_rate": 2.7089947089947094e-05,
+      "loss": 0.0307,
       "step": 5200
     },
     {
       "epoch": 27.99,
+      "learning_rate": 2.6649029982363318e-05,
+      "loss": 0.0269,
       "step": 5300
     },
     {
       "epoch": 28.51,
+      "learning_rate": 2.6208112874779544e-05,
+      "loss": 0.0292,
       "step": 5400
     },
     {
       "epoch": 29.04,
+      "learning_rate": 2.5767195767195768e-05,
+      "loss": 0.032,
       "step": 5500
     },
     {
       "epoch": 29.57,
+      "learning_rate": 2.5326278659611995e-05,
+      "loss": 0.0297,
       "step": 5600
     },
     {
       "epoch": 30.1,
+      "learning_rate": 2.4885361552028218e-05,
+      "loss": 0.027,
       "step": 5700
     },
     {
       "epoch": 30.63,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.0258,
       "step": 5800
     },
     {
       "epoch": 31.16,
+      "learning_rate": 2.4003527336860672e-05,
+      "loss": 0.0237,
       "step": 5900
     },
     {
       "epoch": 31.68,
+      "learning_rate": 2.3562610229276895e-05,
+      "loss": 0.0187,
+      "step": 6000
+    },
+    {
+      "epoch": 31.68,
+      "eval_accuracy": 0.9100660085678101,
+      "eval_loss": 0.4131234884262085,
+      "eval_runtime": 49.5018,
+      "eval_samples_per_second": 48.968,
+      "eval_steps_per_second": 6.121,
       "step": 6000
     },
     {
       "epoch": 32.21,
+      "learning_rate": 2.3121693121693122e-05,
+      "loss": 0.0255,
       "step": 6100
     },
     {
       "epoch": 32.74,
+      "learning_rate": 2.268077601410935e-05,
+      "loss": 0.0244,
       "step": 6200
     },
     {
       "epoch": 33.27,
+      "learning_rate": 2.2239858906525572e-05,
+      "loss": 0.0273,
       "step": 6300
     },
     {
       "epoch": 33.8,
+      "learning_rate": 2.17989417989418e-05,
+      "loss": 0.0214,
       "step": 6400
     },
     {
       "epoch": 34.32,
+      "learning_rate": 2.1358024691358026e-05,
+      "loss": 0.0265,
       "step": 6500
     },
     {
       "epoch": 34.85,
+      "learning_rate": 2.091710758377425e-05,
+      "loss": 0.0276,
       "step": 6600
     },
     {
       "epoch": 35.38,
+      "learning_rate": 2.0476190476190476e-05,
+      "loss": 0.0153,
       "step": 6700
     },
     {
       "epoch": 35.91,
+      "learning_rate": 2.0035273368606703e-05,
+      "loss": 0.0246,
       "step": 6800
     },
     {
       "epoch": 36.44,
+      "learning_rate": 1.959435626102293e-05,
+      "loss": 0.0266,
       "step": 6900
     },
     {
       "epoch": 36.96,
+      "learning_rate": 1.9153439153439153e-05,
+      "loss": 0.0203,
+      "step": 7000
+    },
+    {
+      "epoch": 36.96,
+      "eval_accuracy": 0.9236798882484436,
+      "eval_loss": 0.3643423020839691,
+      "eval_runtime": 49.3507,
+      "eval_samples_per_second": 49.118,
+      "eval_steps_per_second": 6.14,
       "step": 7000
     },
     {
       "epoch": 37.49,
+      "learning_rate": 1.871252204585538e-05,
+      "loss": 0.0225,
       "step": 7100
     },
     {
       "epoch": 38.02,
+      "learning_rate": 1.8271604938271607e-05,
+      "loss": 0.0296,
       "step": 7200
     },
     {
       "epoch": 38.55,
+      "learning_rate": 1.783068783068783e-05,
+      "loss": 0.0181,
       "step": 7300
     },
     {
       "epoch": 39.08,
+      "learning_rate": 1.7389770723104057e-05,
+      "loss": 0.0184,
       "step": 7400
     },
     {
       "epoch": 39.6,
+      "learning_rate": 1.6948853615520284e-05,
+      "loss": 0.0191,
       "step": 7500
     },
     {
       "epoch": 40.13,
+      "learning_rate": 1.6507936507936507e-05,
+      "loss": 0.0224,
       "step": 7600
     },
     {
       "epoch": 40.66,
+      "learning_rate": 1.6067019400352734e-05,
+      "loss": 0.0161,
       "step": 7700
     },
     {
       "epoch": 41.19,
+      "learning_rate": 1.562610229276896e-05,
+      "loss": 0.0211,
       "step": 7800
     },
     {
       "epoch": 41.72,
+      "learning_rate": 1.5185185185185186e-05,
+      "loss": 0.0165,
       "step": 7900
     },
     {
       "epoch": 42.24,
+      "learning_rate": 1.4744268077601411e-05,
+      "loss": 0.0147,
+      "step": 8000
+    },
+    {
+      "epoch": 42.24,
+      "eval_accuracy": 0.9294554591178894,
+      "eval_loss": 0.3574332892894745,
+      "eval_runtime": 49.7962,
+      "eval_samples_per_second": 48.678,
+      "eval_steps_per_second": 6.085,
       "step": 8000
     },
     {
       "epoch": 42.77,
+      "learning_rate": 1.4303350970017638e-05,
+      "loss": 0.0235,
       "step": 8100
     },
     {
       "epoch": 43.3,
+      "learning_rate": 1.3862433862433863e-05,
+      "loss": 0.0207,
       "step": 8200
     },
     {
       "epoch": 43.83,
+      "learning_rate": 1.3421516754850088e-05,
+      "loss": 0.0139,
       "step": 8300
     },
     {
       "epoch": 44.36,
+      "learning_rate": 1.2980599647266315e-05,
+      "loss": 0.0168,
       "step": 8400
     },
     {
       "epoch": 44.88,
+      "learning_rate": 1.253968253968254e-05,
+      "loss": 0.0146,
       "step": 8500
     },
     {
       "epoch": 45.41,
+      "learning_rate": 1.2098765432098767e-05,
+      "loss": 0.0149,
       "step": 8600
     },
     {
       "epoch": 45.94,
+      "learning_rate": 1.1657848324514992e-05,
+      "loss": 0.0155,
       "step": 8700
     },
     {
       "epoch": 46.47,
+      "learning_rate": 1.1221340388007055e-05,
+      "loss": 0.0196,
       "step": 8800
     },
     {
       "epoch": 47.0,
+      "learning_rate": 1.0780423280423282e-05,
+      "loss": 0.0229,
       "step": 8900
     },
     {
       "epoch": 47.52,
+      "learning_rate": 1.0339506172839507e-05,
+      "loss": 0.0148,
+      "step": 9000
+    },
+    {
+      "epoch": 47.52,
+      "eval_accuracy": 0.9220296740531921,
+      "eval_loss": 0.36532989144325256,
+      "eval_runtime": 50.0277,
+      "eval_samples_per_second": 48.453,
+      "eval_steps_per_second": 6.057,
       "step": 9000
     },
     {
       "epoch": 48.05,
+      "learning_rate": 9.898589065255732e-06,
+      "loss": 0.0133,
       "step": 9100
     },
     {
       "epoch": 48.58,
+      "learning_rate": 9.457671957671959e-06,
+      "loss": 0.0131,
       "step": 9200
     },
     {
       "epoch": 49.11,
+      "learning_rate": 9.016754850088184e-06,
+      "loss": 0.0121,
       "step": 9300
     },
     {
       "epoch": 49.64,
+      "learning_rate": 8.575837742504409e-06,
+      "loss": 0.0168,
       "step": 9400
     },
     {
       "epoch": 50.17,
+      "learning_rate": 8.134920634920636e-06,
+      "loss": 0.0148,
       "step": 9500
     },
     {
       "epoch": 50.69,
+      "learning_rate": 7.694003527336861e-06,
+      "loss": 0.0129,
       "step": 9600
     },
     {
       "epoch": 51.22,
+      "learning_rate": 7.253086419753087e-06,
+      "loss": 0.012,
       "step": 9700
     },
     {
       "epoch": 51.75,
+      "learning_rate": 6.812169312169313e-06,
+      "loss": 0.0112,
       "step": 9800
     },
     {
       "epoch": 52.28,
+      "learning_rate": 6.371252204585539e-06,
+      "loss": 0.0193,
       "step": 9900
     },
     {
       "epoch": 52.81,
+      "learning_rate": 5.930335097001764e-06,
+      "loss": 0.0137,
       "step": 10000
     },
     {
       "epoch": 52.81,
+      "eval_accuracy": 0.9352310299873352,
+      "eval_loss": 0.3257134258747101,
+      "eval_runtime": 50.886,
+      "eval_samples_per_second": 47.636,
+      "eval_steps_per_second": 5.954,
       "step": 10000
     },
     {
       "epoch": 53.33,
+      "learning_rate": 5.489417989417989e-06,
+      "loss": 0.0171,
       "step": 10100
     },
     {
       "epoch": 53.86,
+      "learning_rate": 5.048500881834215e-06,
+      "loss": 0.0169,
       "step": 10200
     },
     {
       "epoch": 54.39,
+      "learning_rate": 4.611992945326279e-06,
+      "loss": 0.0136,
       "step": 10300
     },
     {
       "epoch": 54.92,
+      "learning_rate": 4.171075837742505e-06,
+      "loss": 0.0152,
       "step": 10400
     },
     {
       "epoch": 55.45,
+      "learning_rate": 3.7301587301587305e-06,
+      "loss": 0.015,
       "step": 10500
     },
     {
       "epoch": 55.97,
+      "learning_rate": 3.289241622574956e-06,
+      "loss": 0.0136,
       "step": 10600
     },
     {
       "epoch": 56.5,
+      "learning_rate": 2.848324514991182e-06,
+      "loss": 0.0156,
       "step": 10700
     },
     {
       "epoch": 57.03,
+      "learning_rate": 2.4074074074074075e-06,
+      "loss": 0.0137,
       "step": 10800
     },
     {
       "epoch": 57.56,
+      "learning_rate": 1.9664902998236335e-06,
+      "loss": 0.0147,
       "step": 10900
     },
     {
       "epoch": 58.09,
+      "learning_rate": 1.525573192239859e-06,
+      "loss": 0.0174,
+      "step": 11000
+    },
+    {
+      "epoch": 58.09,
+      "eval_accuracy": 0.933993399143219,
+      "eval_loss": 0.30968689918518066,
+      "eval_runtime": 51.0931,
+      "eval_samples_per_second": 47.443,
+      "eval_steps_per_second": 5.93,
       "step": 11000
     },
     {
       "epoch": 58.61,
+      "learning_rate": 1.0846560846560847e-06,
+      "loss": 0.0163,
       "step": 11100
     },
     {
       "epoch": 59.14,
+      "learning_rate": 6.437389770723105e-07,
+      "loss": 0.0096,
       "step": 11200
     },
     {
       "epoch": 59.67,
+      "learning_rate": 2.0282186948853617e-07,
+      "loss": 0.0121,
       "step": 11300
     },
     {
+      "epoch": 59.88,
+      "step": 11340,
+      "total_flos": 2.20514636224512e+19,
+      "train_loss": 0.030625741817122836,
+      "train_runtime": 25244.9182,
+      "train_samples_per_second": 28.806,
+      "train_steps_per_second": 0.449
     },
     {
+      "epoch": 59.88,
+      "eval_accuracy": 0.9323432445526123,
+      "eval_loss": 0.3117374777793884,
+      "eval_runtime": 50.8983,
+      "eval_samples_per_second": 47.624,
+      "eval_steps_per_second": 5.953,
+      "step": 11340
     }
   ],
   "logging_steps": 100,
+  "max_steps": 11340,
+  "num_train_epochs": 60,
   "save_steps": 2000,
+  "total_flos": 2.20514636224512e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe211c843b5d503caa749faf86af4e798d09fba3908277cc22163c26ef6460de
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:34a256b8a5d2d883823dcb395af53cbfffa6c0546324fd46a6cbd61fd66d4518
 size 4155