yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor

Browse files

Files changed (7) hide show

README.md +10 -15
all_results.json +11 -11
eval_results.json +6 -6
pytorch_model.bin +1 -1
train_results.json +6 -6
trainer_state.json +167 -524
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor](https://huggingface.co/yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2045
-- Accuracy: 0.9484
 ## Model description
@@ -39,27 +39,22 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
 - train_batch_size: 16
-- eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 100
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.0213        | 10.55 | 1000 | 0.2103          | 0.9460   |
-| 0.0192        | 21.11 | 2000 | 0.1935          | 0.9480   |
-| 0.0196        | 31.66 | 3000 | 0.2777          | 0.9278   |
-| 0.014         | 42.22 | 4000 | 0.1927          | 0.9480   |
-| 0.0141        | 52.77 | 5000 | 0.2184          | 0.9439   |
-| 0.0106        | 63.32 | 6000 | 0.2401          | 0.9348   |
-| 0.0112        | 73.88 | 7000 | 0.2206          | 0.9493   |
-| 0.0085        | 84.43 | 8000 | 0.1907          | 0.9526   |
-| 0.0079        | 94.99 | 9000 | 0.2052          | 0.9484   |
 ### Framework versions

 This model is a fine-tuned version of [yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor](https://huggingface.co/yashcode00/wav2vec2-large-xlsr-indian-language-classification-featureExtractor) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1719
+- Accuracy: 0.9554
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
 - train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 256
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 90
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.0103        | 21.11 | 1000 | 0.1802          | 0.9501   |
+| 0.009         | 42.22 | 2000 | 0.1717          | 0.9497   |
+| 0.0086        | 63.32 | 3000 | 0.1675          | 0.9546   |
+| 0.0073        | 84.43 | 4000 | 0.1686          | 0.9538   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 99.21,
-    "eval_accuracy": 0.9484323263168335,
-    "eval_loss": 0.2045244723558426,
-    "eval_runtime": 49.9991,
     "eval_samples": 2424,
-    "eval_samples_per_second": 48.481,
-    "eval_steps_per_second": 6.06,
-    "total_flos": 3.653391792237703e+19,
-    "train_loss": 0.013827496963612577,
-    "train_runtime": 35671.7984,
     "train_samples": 12120,
-    "train_samples_per_second": 33.976,
-    "train_steps_per_second": 0.264
 }

 {
+    "epoch": 89.29,
+    "eval_accuracy": 0.9554455280303955,
+    "eval_loss": 0.1719195693731308,
+    "eval_runtime": 50.8715,
     "eval_samples": 2424,
+    "eval_samples_per_second": 47.65,
+    "eval_steps_per_second": 2.988,
+    "total_flos": 3.2880550437308154e+19,
+    "train_loss": 0.00991302564845863,
+    "train_runtime": 33902.9866,
     "train_samples": 12120,
+    "train_samples_per_second": 32.174,
+    "train_steps_per_second": 0.125
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 99.21,
-    "eval_accuracy": 0.9484323263168335,
-    "eval_loss": 0.2045244723558426,
-    "eval_runtime": 49.9991,
     "eval_samples": 2424,
-    "eval_samples_per_second": 48.481,
-    "eval_steps_per_second": 6.06
 }

 {
+    "epoch": 89.29,
+    "eval_accuracy": 0.9554455280303955,
+    "eval_loss": 0.1719195693731308,
+    "eval_runtime": 50.8715,
     "eval_samples": 2424,
+    "eval_samples_per_second": 47.65,
+    "eval_steps_per_second": 2.988
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:077e7eb0595bb98c67ee4c36df372f7f8d867c46c7d5e528c1c4558712b46bff
 size 1266146037

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ceaacefa2250a52d0d79eeb85b6a0da21680d9b9b79e1d64c35a9ab6bd911c1
 size 1266146037

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 99.21,
-    "total_flos": 3.653391792237703e+19,
-    "train_loss": 0.013827496963612577,
-    "train_runtime": 35671.7984,
     "train_samples": 12120,
-    "train_samples_per_second": 33.976,
-    "train_steps_per_second": 0.264
 }

 {
+    "epoch": 89.29,
+    "total_flos": 3.2880550437308154e+19,
+    "train_loss": 0.00991302564845863,
+    "train_runtime": 33902.9866,
     "train_samples": 12120,
+    "train_samples_per_second": 32.174,
+    "train_steps_per_second": 0.125
 }

trainer_state.json CHANGED Viewed

@@ -1,682 +1,325 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 99.2084432717678,
   "eval_steps": 1000,
-  "global_step": 9400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 1.06,
-      "learning_rate": 4.946808510638298e-05,
-      "loss": 0.0232,
-      "step": 100
-    },
     {
       "epoch": 2.11,
-      "learning_rate": 4.893617021276596e-05,
-      "loss": 0.018,
-      "step": 200
-    },
-    {
-      "epoch": 3.17,
-      "learning_rate": 4.840425531914894e-05,
-      "loss": 0.0271,
-      "step": 300
     },
     {
       "epoch": 4.22,
-      "learning_rate": 4.787234042553192e-05,
-      "loss": 0.0241,
-      "step": 400
-    },
-    {
-      "epoch": 5.28,
-      "learning_rate": 4.734042553191489e-05,
-      "loss": 0.025,
-      "step": 500
     },
     {
       "epoch": 6.33,
-      "learning_rate": 4.680851063829788e-05,
-      "loss": 0.0183,
-      "step": 600
-    },
-    {
-      "epoch": 7.39,
-      "learning_rate": 4.627659574468085e-05,
-      "loss": 0.0216,
-      "step": 700
     },
     {
       "epoch": 8.44,
-      "learning_rate": 4.575e-05,
-      "loss": 0.0239,
-      "step": 800
-    },
-    {
-      "epoch": 9.5,
-      "learning_rate": 4.521808510638298e-05,
-      "loss": 0.025,
-      "step": 900
-    },
-    {
-      "epoch": 10.55,
-      "learning_rate": 4.468617021276596e-05,
-      "loss": 0.0213,
-      "step": 1000
     },
     {
       "epoch": 10.55,
-      "eval_accuracy": 0.9459571242332458,
-      "eval_loss": 0.2103370875120163,
-      "eval_runtime": 49.3555,
-      "eval_samples_per_second": 49.113,
-      "eval_steps_per_second": 6.139,
-      "step": 1000
-    },
-    {
-      "epoch": 11.61,
-      "learning_rate": 4.415425531914894e-05,
-      "loss": 0.0226,
-      "step": 1100
     },
     {
       "epoch": 12.66,
-      "learning_rate": 4.362234042553192e-05,
-      "loss": 0.0163,
-      "step": 1200
-    },
-    {
-      "epoch": 13.72,
-      "learning_rate": 4.30904255319149e-05,
-      "loss": 0.0196,
-      "step": 1300
     },
     {
       "epoch": 14.78,
-      "learning_rate": 4.2558510638297876e-05,
-      "loss": 0.0184,
-      "step": 1400
-    },
-    {
-      "epoch": 15.83,
-      "learning_rate": 4.2026595744680855e-05,
-      "loss": 0.0209,
-      "step": 1500
     },
     {
       "epoch": 16.89,
-      "learning_rate": 4.1494680851063834e-05,
-      "loss": 0.0186,
-      "step": 1600
-    },
-    {
-      "epoch": 17.94,
-      "learning_rate": 4.096276595744681e-05,
-      "loss": 0.0193,
-      "step": 1700
     },
     {
       "epoch": 19.0,
-      "learning_rate": 4.0430851063829786e-05,
-      "loss": 0.0198,
-      "step": 1800
-    },
-    {
-      "epoch": 20.05,
-      "learning_rate": 3.989893617021277e-05,
-      "loss": 0.0206,
-      "step": 1900
     },
     {
       "epoch": 21.11,
-      "learning_rate": 3.9367021276595744e-05,
-      "loss": 0.0192,
-      "step": 2000
     },
     {
       "epoch": 21.11,
-      "eval_accuracy": 0.948019802570343,
-      "eval_loss": 0.19352349638938904,
-      "eval_runtime": 49.5323,
-      "eval_samples_per_second": 48.938,
-      "eval_steps_per_second": 6.117,
-      "step": 2000
-    },
-    {
-      "epoch": 22.16,
-      "learning_rate": 3.8835106382978724e-05,
-      "loss": 0.015,
-      "step": 2100
     },
     {
       "epoch": 23.22,
-      "learning_rate": 3.83031914893617e-05,
-      "loss": 0.0197,
-      "step": 2200
-    },
-    {
-      "epoch": 24.27,
-      "learning_rate": 3.777127659574468e-05,
-      "loss": 0.0159,
-      "step": 2300
     },
     {
       "epoch": 25.33,
-      "learning_rate": 3.723936170212766e-05,
-      "loss": 0.0219,
-      "step": 2400
-    },
-    {
-      "epoch": 26.39,
-      "learning_rate": 3.670744680851064e-05,
-      "loss": 0.0145,
-      "step": 2500
     },
     {
       "epoch": 27.44,
-      "learning_rate": 3.617553191489362e-05,
-      "loss": 0.0153,
-      "step": 2600
-    },
-    {
-      "epoch": 28.5,
-      "learning_rate": 3.56436170212766e-05,
-      "loss": 0.0214,
-      "step": 2700
     },
     {
       "epoch": 29.55,
-      "learning_rate": 3.511170212765957e-05,
-      "loss": 0.0196,
-      "step": 2800
-    },
-    {
-      "epoch": 30.61,
-      "learning_rate": 3.457978723404256e-05,
-      "loss": 0.0147,
-      "step": 2900
-    },
-    {
-      "epoch": 31.66,
-      "learning_rate": 3.4047872340425536e-05,
-      "loss": 0.0196,
-      "step": 3000
     },
     {
       "epoch": 31.66,
-      "eval_accuracy": 0.9278053045272827,
-      "eval_loss": 0.2776908278465271,
-      "eval_runtime": 49.5681,
-      "eval_samples_per_second": 48.902,
-      "eval_steps_per_second": 6.113,
-      "step": 3000
-    },
-    {
-      "epoch": 32.72,
-      "learning_rate": 3.351595744680851e-05,
-      "loss": 0.0196,
-      "step": 3100
     },
     {
       "epoch": 33.77,
-      "learning_rate": 3.298404255319149e-05,
-      "loss": 0.0134,
-      "step": 3200
-    },
-    {
-      "epoch": 34.83,
-      "learning_rate": 3.2452127659574474e-05,
-      "loss": 0.015,
-      "step": 3300
     },
     {
       "epoch": 35.88,
-      "learning_rate": 3.1920212765957446e-05,
-      "loss": 0.0203,
-      "step": 3400
-    },
-    {
-      "epoch": 36.94,
-      "learning_rate": 3.1388297872340426e-05,
-      "loss": 0.0155,
-      "step": 3500
     },
     {
       "epoch": 37.99,
-      "learning_rate": 3.0861702127659576e-05,
-      "loss": 0.0123,
-      "step": 3600
-    },
-    {
-      "epoch": 39.05,
-      "learning_rate": 3.0329787234042556e-05,
-      "loss": 0.0166,
-      "step": 3700
     },
     {
       "epoch": 40.11,
-      "learning_rate": 2.979787234042553e-05,
-      "loss": 0.013,
-      "step": 3800
-    },
-    {
-      "epoch": 41.16,
-      "learning_rate": 2.926595744680851e-05,
-      "loss": 0.0176,
-      "step": 3900
     },
     {
       "epoch": 42.22,
-      "learning_rate": 2.8734042553191493e-05,
-      "loss": 0.014,
-      "step": 4000
     },
     {
       "epoch": 42.22,
-      "eval_accuracy": 0.948019802570343,
-      "eval_loss": 0.19270524382591248,
-      "eval_runtime": 49.5193,
-      "eval_samples_per_second": 48.951,
-      "eval_steps_per_second": 6.119,
-      "step": 4000
-    },
-    {
-      "epoch": 43.27,
-      "learning_rate": 2.820212765957447e-05,
-      "loss": 0.0154,
-      "step": 4100
     },
     {
       "epoch": 44.33,
-      "learning_rate": 2.7670212765957448e-05,
-      "loss": 0.0129,
-      "step": 4200
-    },
-    {
-      "epoch": 45.38,
-      "learning_rate": 2.713829787234043e-05,
-      "loss": 0.0121,
-      "step": 4300
     },
     {
       "epoch": 46.44,
-      "learning_rate": 2.6606382978723403e-05,
-      "loss": 0.0151,
-      "step": 4400
-    },
-    {
-      "epoch": 47.49,
-      "learning_rate": 2.607978723404255e-05,
-      "loss": 0.0169,
-      "step": 4500
     },
     {
       "epoch": 48.55,
-      "learning_rate": 2.5547872340425533e-05,
-      "loss": 0.0084,
-      "step": 4600
-    },
-    {
-      "epoch": 49.6,
-      "learning_rate": 2.5015957446808512e-05,
-      "loss": 0.0147,
-      "step": 4700
     },
     {
       "epoch": 50.66,
-      "learning_rate": 2.448404255319149e-05,
-      "loss": 0.0108,
-      "step": 4800
-    },
-    {
-      "epoch": 51.72,
-      "learning_rate": 2.395212765957447e-05,
-      "loss": 0.0113,
-      "step": 4900
-    },
-    {
-      "epoch": 52.77,
-      "learning_rate": 2.3420212765957447e-05,
-      "loss": 0.0141,
-      "step": 5000
     },
     {
       "epoch": 52.77,
-      "eval_accuracy": 0.9438943862915039,
-      "eval_loss": 0.2183828353881836,
-      "eval_runtime": 50.0576,
-      "eval_samples_per_second": 48.424,
-      "eval_steps_per_second": 6.053,
-      "step": 5000
-    },
-    {
-      "epoch": 53.83,
-      "learning_rate": 2.288829787234043e-05,
-      "loss": 0.011,
-      "step": 5100
     },
     {
       "epoch": 54.88,
-      "learning_rate": 2.2356382978723405e-05,
-      "loss": 0.014,
-      "step": 5200
-    },
-    {
-      "epoch": 55.94,
-      "learning_rate": 2.1824468085106384e-05,
-      "loss": 0.0101,
-      "step": 5300
     },
     {
       "epoch": 56.99,
-      "learning_rate": 2.1292553191489363e-05,
-      "loss": 0.0148,
-      "step": 5400
-    },
-    {
-      "epoch": 58.05,
-      "learning_rate": 2.0760638297872343e-05,
-      "loss": 0.0105,
-      "step": 5500
     },
     {
       "epoch": 59.1,
-      "learning_rate": 2.0228723404255322e-05,
-      "loss": 0.0113,
-      "step": 5600
-    },
-    {
-      "epoch": 60.16,
-      "learning_rate": 1.9696808510638298e-05,
-      "loss": 0.0089,
-      "step": 5700
     },
     {
       "epoch": 61.21,
-      "learning_rate": 1.9164893617021277e-05,
-      "loss": 0.0111,
-      "step": 5800
-    },
-    {
-      "epoch": 62.27,
-      "learning_rate": 1.8632978723404256e-05,
-      "loss": 0.0118,
-      "step": 5900
     },
     {
       "epoch": 63.32,
-      "learning_rate": 1.8101063829787235e-05,
-      "loss": 0.0106,
-      "step": 6000
     },
     {
       "epoch": 63.32,
-      "eval_accuracy": 0.9348185062408447,
-      "eval_loss": 0.24008634686470032,
-      "eval_runtime": 49.5139,
-      "eval_samples_per_second": 48.956,
-      "eval_steps_per_second": 6.119,
-      "step": 6000
-    },
-    {
-      "epoch": 64.38,
-      "learning_rate": 1.7569148936170214e-05,
-      "loss": 0.0104,
-      "step": 6100
     },
     {
       "epoch": 65.44,
-      "learning_rate": 1.7037234042553194e-05,
-      "loss": 0.0099,
-      "step": 6200
-    },
-    {
-      "epoch": 66.49,
-      "learning_rate": 1.6505319148936173e-05,
-      "loss": 0.0105,
-      "step": 6300
     },
     {
       "epoch": 67.55,
-      "learning_rate": 1.597340425531915e-05,
-      "loss": 0.0095,
-      "step": 6400
-    },
-    {
-      "epoch": 68.6,
-      "learning_rate": 1.5441489361702128e-05,
-      "loss": 0.0088,
-      "step": 6500
     },
     {
       "epoch": 69.66,
-      "learning_rate": 1.4909574468085109e-05,
-      "loss": 0.0106,
-      "step": 6600
-    },
-    {
-      "epoch": 70.71,
-      "learning_rate": 1.4377659574468086e-05,
-      "loss": 0.0081,
-      "step": 6700
     },
     {
       "epoch": 71.77,
-      "learning_rate": 1.3845744680851064e-05,
-      "loss": 0.0096,
-      "step": 6800
-    },
-    {
-      "epoch": 72.82,
-      "learning_rate": 1.3313829787234045e-05,
       "loss": 0.0074,
-      "step": 6900
-    },
-    {
-      "epoch": 73.88,
-      "learning_rate": 1.2781914893617022e-05,
-      "loss": 0.0112,
-      "step": 7000
     },
     {
       "epoch": 73.88,
-      "eval_accuracy": 0.9492574334144592,
-      "eval_loss": 0.22060245275497437,
-      "eval_runtime": 49.9232,
-      "eval_samples_per_second": 48.555,
-      "eval_steps_per_second": 6.069,
-      "step": 7000
-    },
-    {
-      "epoch": 74.93,
-      "learning_rate": 1.225e-05,
-      "loss": 0.0097,
-      "step": 7100
     },
     {
       "epoch": 75.99,
-      "learning_rate": 1.171808510638298e-05,
-      "loss": 0.0115,
-      "step": 7200
-    },
-    {
-      "epoch": 77.04,
-      "learning_rate": 1.1186170212765958e-05,
-      "loss": 0.0103,
-      "step": 7300
     },
     {
       "epoch": 78.1,
-      "learning_rate": 1.0654255319148937e-05,
-      "loss": 0.0091,
-      "step": 7400
-    },
-    {
-      "epoch": 79.16,
-      "learning_rate": 1.0122340425531915e-05,
-      "loss": 0.0085,
-      "step": 7500
     },
     {
       "epoch": 80.21,
-      "learning_rate": 9.590425531914894e-06,
-      "loss": 0.0074,
-      "step": 7600
-    },
-    {
-      "epoch": 81.27,
-      "learning_rate": 9.058510638297871e-06,
-      "loss": 0.0102,
-      "step": 7700
     },
     {
       "epoch": 82.32,
-      "learning_rate": 8.52659574468085e-06,
       "loss": 0.0072,
-      "step": 7800
-    },
-    {
-      "epoch": 83.38,
-      "learning_rate": 7.994680851063832e-06,
-      "loss": 0.0076,
-      "step": 7900
     },
     {
       "epoch": 84.43,
-      "learning_rate": 7.462765957446809e-06,
-      "loss": 0.0085,
-      "step": 8000
     },
     {
       "epoch": 84.43,
-      "eval_accuracy": 0.9525577425956726,
-      "eval_loss": 0.19072547554969788,
-      "eval_runtime": 50.1001,
-      "eval_samples_per_second": 48.383,
-      "eval_steps_per_second": 6.048,
-      "step": 8000
-    },
-    {
-      "epoch": 85.49,
-      "learning_rate": 6.930851063829788e-06,
-      "loss": 0.0082,
-      "step": 8100
     },
     {
       "epoch": 86.54,
-      "learning_rate": 6.398936170212766e-06,
-      "loss": 0.0068,
-      "step": 8200
-    },
-    {
-      "epoch": 87.6,
-      "learning_rate": 5.867021276595745e-06,
-      "loss": 0.0093,
-      "step": 8300
     },
     {
       "epoch": 88.65,
-      "learning_rate": 5.335106382978724e-06,
-      "loss": 0.0112,
-      "step": 8400
-    },
-    {
-      "epoch": 89.71,
-      "learning_rate": 4.8031914893617025e-06,
-      "loss": 0.0066,
-      "step": 8500
-    },
-    {
-      "epoch": 90.77,
-      "learning_rate": 4.271276595744681e-06,
-      "loss": 0.007,
-      "step": 8600
-    },
-    {
-      "epoch": 91.82,
-      "learning_rate": 3.7393617021276596e-06,
-      "loss": 0.0079,
-      "step": 8700
-    },
-    {
-      "epoch": 92.88,
-      "learning_rate": 3.2074468085106384e-06,
-      "loss": 0.0075,
-      "step": 8800
-    },
-    {
-      "epoch": 93.93,
-      "learning_rate": 2.6808510638297874e-06,
-      "loss": 0.008,
-      "step": 8900
-    },
-    {
-      "epoch": 94.99,
-      "learning_rate": 2.148936170212766e-06,
-      "loss": 0.0079,
-      "step": 9000
-    },
-    {
-      "epoch": 94.99,
-      "eval_accuracy": 0.9484323263168335,
-      "eval_loss": 0.20523911714553833,
-      "eval_runtime": 49.881,
-      "eval_samples_per_second": 48.596,
-      "eval_steps_per_second": 6.074,
-      "step": 9000
-    },
-    {
-      "epoch": 96.04,
-      "learning_rate": 1.6170212765957448e-06,
-      "loss": 0.0061,
-      "step": 9100
-    },
-    {
-      "epoch": 97.1,
-      "learning_rate": 1.0851063829787236e-06,
-      "loss": 0.0088,
-      "step": 9200
-    },
-    {
-      "epoch": 98.15,
-      "learning_rate": 5.531914893617021e-07,
-      "loss": 0.0077,
-      "step": 9300
-    },
-    {
-      "epoch": 99.21,
-      "learning_rate": 2.1276595744680853e-08,
-      "loss": 0.0077,
-      "step": 9400
     },
     {
-      "epoch": 99.21,
-      "step": 9400,
-      "total_flos": 3.653391792237703e+19,
-      "train_loss": 0.013827496963612577,
-      "train_runtime": 35671.7984,
-      "train_samples_per_second": 33.976,
-      "train_steps_per_second": 0.264
     },
     {
-      "epoch": 99.21,
-      "eval_accuracy": 0.9484323263168335,
-      "eval_loss": 0.2045244723558426,
-      "eval_runtime": 49.9991,
-      "eval_samples_per_second": 48.481,
-      "eval_steps_per_second": 6.06,
-      "step": 9400
     }
   ],
   "logging_steps": 100,
-  "max_steps": 9400,
-  "num_train_epochs": 100,
   "save_steps": 2000,
-  "total_flos": 3.653391792237703e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 89.28759894459102,
   "eval_steps": 1000,
+  "global_step": 4230,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 2.11,
+      "learning_rate": 4.8817966903073283e-05,
+      "loss": 0.0118,
+      "step": 100
     },
     {
       "epoch": 4.22,
+      "learning_rate": 4.763593380614658e-05,
+      "loss": 0.0156,
+      "step": 200
     },
     {
       "epoch": 6.33,
+      "learning_rate": 4.645390070921986e-05,
+      "loss": 0.0122,
+      "step": 300
     },
     {
       "epoch": 8.44,
+      "learning_rate": 4.527186761229315e-05,
+      "loss": 0.0148,
+      "step": 400
     },
     {
       "epoch": 10.55,
+      "learning_rate": 4.4089834515366435e-05,
+      "loss": 0.0114,
+      "step": 500
     },
     {
       "epoch": 12.66,
+      "learning_rate": 4.2907801418439716e-05,
+      "loss": 0.0143,
+      "step": 600
     },
     {
       "epoch": 14.78,
+      "learning_rate": 4.1725768321513004e-05,
+      "loss": 0.0149,
+      "step": 700
     },
     {
       "epoch": 16.89,
+      "learning_rate": 4.0543735224586285e-05,
+      "loss": 0.0139,
+      "step": 800
     },
     {
       "epoch": 19.0,
+      "learning_rate": 3.936170212765958e-05,
+      "loss": 0.0125,
+      "step": 900
     },
     {
       "epoch": 21.11,
+      "learning_rate": 3.817966903073286e-05,
+      "loss": 0.0103,
+      "step": 1000
     },
     {
       "epoch": 21.11,
+      "eval_accuracy": 0.9500824809074402,
+      "eval_loss": 0.18024244904518127,
+      "eval_runtime": 47.0038,
+      "eval_samples_per_second": 51.57,
+      "eval_steps_per_second": 3.234,
+      "step": 1000
     },
     {
       "epoch": 23.22,
+      "learning_rate": 3.699763593380615e-05,
+      "loss": 0.0111,
+      "step": 1100
     },
     {
       "epoch": 25.33,
+      "learning_rate": 3.5815602836879437e-05,
+      "loss": 0.0093,
+      "step": 1200
     },
     {
       "epoch": 27.44,
+      "learning_rate": 3.463356973995272e-05,
+      "loss": 0.0109,
+      "step": 1300
     },
     {
       "epoch": 29.55,
+      "learning_rate": 3.3451536643026005e-05,
+      "loss": 0.0102,
+      "step": 1400
     },
     {
       "epoch": 31.66,
+      "learning_rate": 3.226950354609929e-05,
+      "loss": 0.012,
+      "step": 1500
     },
     {
       "epoch": 33.77,
+      "learning_rate": 3.108747044917258e-05,
+      "loss": 0.0116,
+      "step": 1600
     },
     {
       "epoch": 35.88,
+      "learning_rate": 2.9905437352245862e-05,
+      "loss": 0.0145,
+      "step": 1700
     },
     {
       "epoch": 37.99,
+      "learning_rate": 2.8723404255319154e-05,
+      "loss": 0.011,
+      "step": 1800
     },
     {
       "epoch": 40.11,
+      "learning_rate": 2.7541371158392438e-05,
+      "loss": 0.0108,
+      "step": 1900
     },
     {
       "epoch": 42.22,
+      "learning_rate": 2.6359338061465723e-05,
+      "loss": 0.009,
+      "step": 2000
     },
     {
       "epoch": 42.22,
+      "eval_accuracy": 0.9496699571609497,
+      "eval_loss": 0.1716560274362564,
+      "eval_runtime": 51.12,
+      "eval_samples_per_second": 47.418,
+      "eval_steps_per_second": 2.973,
+      "step": 2000
     },
     {
       "epoch": 44.33,
+      "learning_rate": 2.5177304964539007e-05,
+      "loss": 0.0101,
+      "step": 2100
     },
     {
       "epoch": 46.44,
+      "learning_rate": 2.3995271867612295e-05,
+      "loss": 0.0087,
+      "step": 2200
     },
     {
       "epoch": 48.55,
+      "learning_rate": 2.281323877068558e-05,
+      "loss": 0.0114,
+      "step": 2300
     },
     {
       "epoch": 50.66,
+      "learning_rate": 2.1631205673758867e-05,
+      "loss": 0.0076,
+      "step": 2400
     },
     {
       "epoch": 52.77,
+      "learning_rate": 2.0449172576832152e-05,
+      "loss": 0.0088,
+      "step": 2500
     },
     {
       "epoch": 54.88,
+      "learning_rate": 1.926713947990544e-05,
+      "loss": 0.0084,
+      "step": 2600
     },
     {
       "epoch": 56.99,
+      "learning_rate": 1.8085106382978724e-05,
+      "loss": 0.0095,
+      "step": 2700
     },
     {
       "epoch": 59.1,
+      "learning_rate": 1.690307328605201e-05,
+      "loss": 0.0075,
+      "step": 2800
     },
     {
       "epoch": 61.21,
+      "learning_rate": 1.5721040189125296e-05,
+      "loss": 0.0097,
+      "step": 2900
     },
     {
       "epoch": 63.32,
+      "learning_rate": 1.4539007092198581e-05,
+      "loss": 0.0086,
+      "step": 3000
     },
     {
       "epoch": 63.32,
+      "eval_accuracy": 0.9546204805374146,
+      "eval_loss": 0.16754871606826782,
+      "eval_runtime": 52.1005,
+      "eval_samples_per_second": 46.525,
+      "eval_steps_per_second": 2.917,
+      "step": 3000
     },
     {
       "epoch": 65.44,
+      "learning_rate": 1.3356973995271869e-05,
+      "loss": 0.0079,
+      "step": 3100
     },
     {
       "epoch": 67.55,
+      "learning_rate": 1.2174940898345153e-05,
+      "loss": 0.0076,
+      "step": 3200
     },
     {
       "epoch": 69.66,
+      "learning_rate": 1.0992907801418441e-05,
+      "loss": 0.0072,
+      "step": 3300
     },
     {
       "epoch": 71.77,
+      "learning_rate": 9.810874704491727e-06,
       "loss": 0.0074,
+      "step": 3400
     },
     {
       "epoch": 73.88,
+      "learning_rate": 8.628841607565012e-06,
+      "loss": 0.0076,
+      "step": 3500
     },
     {
       "epoch": 75.99,
+      "learning_rate": 7.446808510638298e-06,
+      "loss": 0.0069,
+      "step": 3600
     },
     {
       "epoch": 78.1,
+      "learning_rate": 6.264775413711583e-06,
+      "loss": 0.0068,
+      "step": 3700
     },
     {
       "epoch": 80.21,
+      "learning_rate": 5.08274231678487e-06,
+      "loss": 0.007,
+      "step": 3800
     },
     {
       "epoch": 82.32,
+      "learning_rate": 3.9007092198581565e-06,
       "loss": 0.0072,
+      "step": 3900
     },
     {
       "epoch": 84.43,
+      "learning_rate": 2.7186761229314422e-06,
+      "loss": 0.0073,
+      "step": 4000
     },
     {
       "epoch": 84.43,
+      "eval_accuracy": 0.9537953734397888,
+      "eval_loss": 0.16863200068473816,
+      "eval_runtime": 51.419,
+      "eval_samples_per_second": 47.142,
+      "eval_steps_per_second": 2.956,
+      "step": 4000
     },
     {
       "epoch": 86.54,
+      "learning_rate": 1.5484633569739953e-06,
+      "loss": 0.0065,
+      "step": 4100
     },
     {
       "epoch": 88.65,
+      "learning_rate": 3.6643026004728135e-07,
+      "loss": 0.0058,
+      "step": 4200
     },
     {
+      "epoch": 89.29,
+      "step": 4230,
+      "total_flos": 3.2880550437308154e+19,
+      "train_loss": 0.00991302564845863,
+      "train_runtime": 33902.9866,
+      "train_samples_per_second": 32.174,
+      "train_steps_per_second": 0.125
     },
     {
+      "epoch": 89.29,
+      "eval_accuracy": 0.9554455280303955,
+      "eval_loss": 0.1719195693731308,
+      "eval_runtime": 50.8715,
+      "eval_samples_per_second": 47.65,
+      "eval_steps_per_second": 2.988,
+      "step": 4230
     }
   ],
   "logging_steps": 100,
+  "max_steps": 4230,
+  "num_train_epochs": 90,
   "save_steps": 2000,
+  "total_flos": 3.2880550437308154e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c70a44bda6db02475f8931fe8cc433c517fc85e0209b10da04cf01b310a6ea2
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:afafbb8d751fc33fbf51d1298497b2fbbc858aa6e7af5c8ee9fc1310c74fcc53
 size 4155