Upload with huggingface_hub

Browse files

Files changed (10) hide show

config.json +42 -0
generation_config.json +110 -0
optimizer.pt +3 -0
preprocessor_config.json +0 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
trainer_state.json +292 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "openai/whisper-large-v2",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 1280,
+  "decoder_attention_heads": 20,
+  "decoder_ffn_dim": 5120,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 32,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 20,
+  "encoder_ffn_dim": 5120,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 32,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 32,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "suppress_tokens": [],
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0",
+  "use_cache": true,
+  "vocab_size": 51865
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,110 @@

+{
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "decoder_start_token_id": 50258,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": [
+    [
+      1,
+      null
+    ],
+    [
+      2,
+      50359
+    ]
+  ],
+  "max_length": 448,
+  "pad_token_id": 50257,
+  "suppress_tokens": [
+    1,
+    2,
+    7,
+    8,
+    9,
+    10,
+    14,
+    25,
+    26,
+    27,
+    28,
+    29,
+    31,
+    58,
+    59,
+    60,
+    61,
+    62,
+    63,
+    90,
+    91,
+    92,
+    93,
+    359,
+    503,
+    522,
+    542,
+    873,
+    893,
+    902,
+    918,
+    922,
+    931,
+    1350,
+    1853,
+    1982,
+    2460,
+    2627,
+    3246,
+    3253,
+    3268,
+    3536,
+    3846,
+    3961,
+    4183,
+    4667,
+    6585,
+    6647,
+    7273,
+    9061,
+    9383,
+    10428,
+    10929,
+    11938,
+    12033,
+    12331,
+    12562,
+    13793,
+    14157,
+    14635,
+    15265,
+    15618,
+    16553,
+    16604,
+    18362,
+    18956,
+    20075,
+    21675,
+    22520,
+    26130,
+    26161,
+    26435,
+    28279,
+    29464,
+    31650,
+    32302,
+    32470,
+    36865,
+    42863,
+    47425,
+    49870,
+    50254,
+    50258,
+    50360,
+    50361,
+    50362
+  ],
+  "transformers_version": "4.26.0"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2624b978b63e333746695aeaba2215d84f3ae2c78a2d09acef9dc4918144d06
+size 12347192855

preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c292a6c8a245d2f642972ffa2f990f68fe1ae45065ad5f49f4aa6095cb1f39cc
+size 6173655480

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4945e0121f845df89f2b0db9831e9e7d064ef5da2bb53d3a1314db926b9f3902
+size 14575

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:998d4eacdbef91608d198f105a089c75ab1afe20a76754d937a6d94a961d56ae
+size 557

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:755ca42b61149b7620b23e35201f706865dde7e8bb4e79019f726f13eddf8278
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,292 @@

+{
+  "best_metric": 27.0875,
+  "best_model_checkpoint": "./whisper-large-v2-with-google-fleurs-ar/checkpoint-750",
+  "epoch": 3.802281368821293,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 1.2614,
+      "step": 25
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 0.8943,
+      "step": 50
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 0.5812,
+      "step": 75
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8800000000000002e-06,
+      "loss": 0.4916,
+      "step": 100
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.38e-06,
+      "loss": 0.4206,
+      "step": 125
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.86e-06,
+      "loss": 0.3381,
+      "step": 150
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.3600000000000004e-06,
+      "loss": 0.2693,
+      "step": 175
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.86e-06,
+      "loss": 0.2596,
+      "step": 200
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.360000000000001e-06,
+      "loss": 0.2374,
+      "step": 225
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.86e-06,
+      "loss": 0.258,
+      "step": 250
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.22044143080711365,
+      "eval_runtime": 377.2375,
+      "eval_samples_per_second": 1.135,
+      "eval_steps_per_second": 0.143,
+      "eval_wer": 49.675000000000004,
+      "step": 250
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 5.36e-06,
+      "loss": 0.2108,
+      "step": 275
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 5.86e-06,
+      "loss": 0.1385,
+      "step": 300
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.360000000000001e-06,
+      "loss": 0.1565,
+      "step": 325
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 6.860000000000001e-06,
+      "loss": 0.1777,
+      "step": 350
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 7.360000000000001e-06,
+      "loss": 0.1401,
+      "step": 375
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 7.860000000000001e-06,
+      "loss": 0.1584,
+      "step": 400
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 8.36e-06,
+      "loss": 0.1569,
+      "step": 425
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 8.860000000000002e-06,
+      "loss": 0.1836,
+      "step": 450
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 9.360000000000002e-06,
+      "loss": 0.182,
+      "step": 475
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 9.86e-06,
+      "loss": 0.1762,
+      "step": 500
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.24587205052375793,
+      "eval_runtime": 397.383,
+      "eval_samples_per_second": 1.077,
+      "eval_steps_per_second": 0.136,
+      "eval_wer": 29.562500000000004,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.640000000000001e-06,
+      "loss": 0.1894,
+      "step": 525
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.14e-06,
+      "loss": 0.0819,
+      "step": 550
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.64e-06,
+      "loss": 0.0843,
+      "step": 575
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 8.14e-06,
+      "loss": 0.0843,
+      "step": 600
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 7.640000000000001e-06,
+      "loss": 0.0823,
+      "step": 625
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 7.14e-06,
+      "loss": 0.0783,
+      "step": 650
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 6.640000000000001e-06,
+      "loss": 0.08,
+      "step": 675
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 6.1400000000000005e-06,
+      "loss": 0.07,
+      "step": 700
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 5.64e-06,
+      "loss": 0.0798,
+      "step": 725
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.140000000000001e-06,
+      "loss": 0.0578,
+      "step": 750
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.24375540018081665,
+      "eval_runtime": 398.6003,
+      "eval_samples_per_second": 1.074,
+      "eval_steps_per_second": 0.135,
+      "eval_wer": 27.0875,
+      "step": 750
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 4.6400000000000005e-06,
+      "loss": 0.0559,
+      "step": 775
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 4.14e-06,
+      "loss": 0.0408,
+      "step": 800
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 3.6400000000000003e-06,
+      "loss": 0.0289,
+      "step": 825
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 3.1400000000000004e-06,
+      "loss": 0.0238,
+      "step": 850
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 2.64e-06,
+      "loss": 0.0167,
+      "step": 875
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 2.1400000000000003e-06,
+      "loss": 0.0171,
+      "step": 900
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 1.6400000000000002e-06,
+      "loss": 0.0219,
+      "step": 925
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.14e-06,
+      "loss": 0.0147,
+      "step": 950
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 6.4e-07,
+      "loss": 0.0211,
+      "step": 975
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 1.4e-07,
+      "loss": 0.0186,
+      "step": 1000
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.2395983189344406,
+      "eval_runtime": 444.9144,
+      "eval_samples_per_second": 0.962,
+      "eval_steps_per_second": 0.121,
+      "eval_wer": 34.65,
+      "step": 1000
+    }
+  ],
+  "max_steps": 1000,
+  "num_train_epochs": 4,
+  "total_flos": 1.69853681664e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c802fdf54fe9595195c971b352cda96c2c0b0ed91d43049d318e6e51037990d
+size 3643