{
  "best_metric": 0.3662048876285553,
  "best_model_checkpoint": "/scratch/skscla001/speech/results/whisper-medium-swagen-combined-25hrs-model/checkpoint-4000",
  "epoch": 2.28504034761018,
  "eval_steps": 200,
  "global_step": 4600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.012414649286157667,
      "grad_norm": 128.67588806152344,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 10.5484,
      "step": 25
    },
    {
      "epoch": 0.024829298572315334,
      "grad_norm": 123.8255844116211,
      "learning_rate": 9.000000000000001e-07,
      "loss": 8.1464,
      "step": 50
    },
    {
      "epoch": 0.037243947858473,
      "grad_norm": 79.1299057006836,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 5.9439,
      "step": 75
    },
    {
      "epoch": 0.04965859714463067,
      "grad_norm": 79.47651672363281,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 4.1515,
      "step": 100
    },
    {
      "epoch": 0.06207324643078833,
      "grad_norm": 68.2268295288086,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 3.4012,
      "step": 125
    },
    {
      "epoch": 0.074487895716946,
      "grad_norm": 81.23241424560547,
      "learning_rate": 2.9e-06,
      "loss": 3.3427,
      "step": 150
    },
    {
      "epoch": 0.08690254500310367,
      "grad_norm": 66.99320983886719,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 2.968,
      "step": 175
    },
    {
      "epoch": 0.09931719428926133,
      "grad_norm": 78.05485534667969,
      "learning_rate": 3.900000000000001e-06,
      "loss": 2.8233,
      "step": 200
    },
    {
      "epoch": 0.09931719428926133,
      "eval_loss": 0.804746150970459,
      "eval_runtime": 563.0664,
      "eval_samples_per_second": 1.931,
      "eval_steps_per_second": 0.966,
      "eval_wer": 0.489650974025974,
      "step": 200
    },
    {
      "epoch": 0.11173184357541899,
      "grad_norm": 46.1437873840332,
      "learning_rate": 4.4e-06,
      "loss": 2.6012,
      "step": 225
    },
    {
      "epoch": 0.12414649286157665,
      "grad_norm": 99.51728057861328,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 2.2989,
      "step": 250
    },
    {
      "epoch": 0.13656114214773432,
      "grad_norm": 49.41315460205078,
      "learning_rate": 5.400000000000001e-06,
      "loss": 2.2207,
      "step": 275
    },
    {
      "epoch": 0.148975791433892,
      "grad_norm": 53.38062286376953,
      "learning_rate": 5.9e-06,
      "loss": 2.202,
      "step": 300
    },
    {
      "epoch": 0.16139044072004965,
      "grad_norm": 49.83573913574219,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 2.2695,
      "step": 325
    },
    {
      "epoch": 0.17380509000620734,
      "grad_norm": 75.33547973632812,
      "learning_rate": 6.9e-06,
      "loss": 1.9705,
      "step": 350
    },
    {
      "epoch": 0.186219739292365,
      "grad_norm": 55.35056686401367,
      "learning_rate": 7.4e-06,
      "loss": 2.0473,
      "step": 375
    },
    {
      "epoch": 0.19863438857852267,
      "grad_norm": 46.99931335449219,
      "learning_rate": 7.9e-06,
      "loss": 1.9329,
      "step": 400
    },
    {
      "epoch": 0.19863438857852267,
      "eval_loss": 0.6190668940544128,
      "eval_runtime": 574.5315,
      "eval_samples_per_second": 1.892,
      "eval_steps_per_second": 0.947,
      "eval_wer": 0.401075487012987,
      "step": 400
    },
    {
      "epoch": 0.21104903786468032,
      "grad_norm": 57.05539321899414,
      "learning_rate": 8.400000000000001e-06,
      "loss": 1.8312,
      "step": 425
    },
    {
      "epoch": 0.22346368715083798,
      "grad_norm": 53.04418182373047,
      "learning_rate": 8.900000000000001e-06,
      "loss": 1.8474,
      "step": 450
    },
    {
      "epoch": 0.23587833643699566,
      "grad_norm": 53.90583801269531,
      "learning_rate": 9.4e-06,
      "loss": 1.9193,
      "step": 475
    },
    {
      "epoch": 0.2482929857231533,
      "grad_norm": 51.17042922973633,
      "learning_rate": 9.9e-06,
      "loss": 1.725,
      "step": 500
    },
    {
      "epoch": 0.260707635009311,
      "grad_norm": 42.38318634033203,
      "learning_rate": 9.996660544331274e-06,
      "loss": 1.8561,
      "step": 525
    },
    {
      "epoch": 0.27312228429546864,
      "grad_norm": 51.599029541015625,
      "learning_rate": 9.992486224745367e-06,
      "loss": 1.9738,
      "step": 550
    },
    {
      "epoch": 0.2855369335816263,
      "grad_norm": 59.115108489990234,
      "learning_rate": 9.98831190515946e-06,
      "loss": 1.6793,
      "step": 575
    },
    {
      "epoch": 0.297951582867784,
      "grad_norm": 42.64860534667969,
      "learning_rate": 9.984137585573552e-06,
      "loss": 1.6927,
      "step": 600
    },
    {
      "epoch": 0.297951582867784,
      "eval_loss": 0.5420816540718079,
      "eval_runtime": 589.5719,
      "eval_samples_per_second": 1.844,
      "eval_steps_per_second": 0.923,
      "eval_wer": 0.37905844155844154,
      "step": 600
    },
    {
      "epoch": 0.31036623215394166,
      "grad_norm": 44.46907043457031,
      "learning_rate": 9.979963265987644e-06,
      "loss": 1.6992,
      "step": 625
    },
    {
      "epoch": 0.3227808814400993,
      "grad_norm": 38.840396881103516,
      "learning_rate": 9.975788946401737e-06,
      "loss": 1.5042,
      "step": 650
    },
    {
      "epoch": 0.33519553072625696,
      "grad_norm": 46.88064956665039,
      "learning_rate": 9.97161462681583e-06,
      "loss": 1.7753,
      "step": 675
    },
    {
      "epoch": 0.34761018001241467,
      "grad_norm": 44.91327667236328,
      "learning_rate": 9.967440307229922e-06,
      "loss": 1.7618,
      "step": 700
    },
    {
      "epoch": 0.3600248292985723,
      "grad_norm": 42.24628448486328,
      "learning_rate": 9.963265987644016e-06,
      "loss": 1.6682,
      "step": 725
    },
    {
      "epoch": 0.37243947858473,
      "grad_norm": 45.74182891845703,
      "learning_rate": 9.959091668058107e-06,
      "loss": 1.5824,
      "step": 750
    },
    {
      "epoch": 0.38485412787088763,
      "grad_norm": 25.388633728027344,
      "learning_rate": 9.954917348472199e-06,
      "loss": 1.6692,
      "step": 775
    },
    {
      "epoch": 0.39726877715704534,
      "grad_norm": 33.251548767089844,
      "learning_rate": 9.950743028886292e-06,
      "loss": 1.6183,
      "step": 800
    },
    {
      "epoch": 0.39726877715704534,
      "eval_loss": 0.48888257145881653,
      "eval_runtime": 577.1733,
      "eval_samples_per_second": 1.883,
      "eval_steps_per_second": 0.943,
      "eval_wer": 0.3210227272727273,
      "step": 800
    },
    {
      "epoch": 0.409683426443203,
      "grad_norm": 30.38732147216797,
      "learning_rate": 9.946568709300385e-06,
      "loss": 1.4884,
      "step": 825
    },
    {
      "epoch": 0.42209807572936064,
      "grad_norm": 48.94175338745117,
      "learning_rate": 9.942394389714477e-06,
      "loss": 1.4615,
      "step": 850
    },
    {
      "epoch": 0.4345127250155183,
      "grad_norm": 29.04236602783203,
      "learning_rate": 9.93822007012857e-06,
      "loss": 1.5201,
      "step": 875
    },
    {
      "epoch": 0.44692737430167595,
      "grad_norm": 41.91320037841797,
      "learning_rate": 9.934045750542662e-06,
      "loss": 1.5147,
      "step": 900
    },
    {
      "epoch": 0.45934202358783366,
      "grad_norm": 40.610572814941406,
      "learning_rate": 9.929871430956755e-06,
      "loss": 1.4561,
      "step": 925
    },
    {
      "epoch": 0.4717566728739913,
      "grad_norm": 33.01325988769531,
      "learning_rate": 9.925697111370847e-06,
      "loss": 1.3772,
      "step": 950
    },
    {
      "epoch": 0.48417132216014896,
      "grad_norm": 40.93734359741211,
      "learning_rate": 9.92152279178494e-06,
      "loss": 1.549,
      "step": 975
    },
    {
      "epoch": 0.4965859714463066,
      "grad_norm": 41.81599044799805,
      "learning_rate": 9.917348472199032e-06,
      "loss": 1.4431,
      "step": 1000
    },
    {
      "epoch": 0.4965859714463066,
      "eval_loss": 0.4683995544910431,
      "eval_runtime": 563.8925,
      "eval_samples_per_second": 1.928,
      "eval_steps_per_second": 0.965,
      "eval_wer": 0.28662743506493504,
      "step": 1000
    },
    {
      "epoch": 0.5090006207324643,
      "grad_norm": 23.732839584350586,
      "learning_rate": 9.913174152613125e-06,
      "loss": 1.2911,
      "step": 1025
    },
    {
      "epoch": 0.521415270018622,
      "grad_norm": 35.39672088623047,
      "learning_rate": 9.908999833027217e-06,
      "loss": 1.2753,
      "step": 1050
    },
    {
      "epoch": 0.5338299193047796,
      "grad_norm": 20.741168975830078,
      "learning_rate": 9.90482551344131e-06,
      "loss": 1.4464,
      "step": 1075
    },
    {
      "epoch": 0.5462445685909373,
      "grad_norm": 44.05943298339844,
      "learning_rate": 9.900651193855404e-06,
      "loss": 1.2189,
      "step": 1100
    },
    {
      "epoch": 0.5586592178770949,
      "grad_norm": 30.3934268951416,
      "learning_rate": 9.896476874269495e-06,
      "loss": 1.357,
      "step": 1125
    },
    {
      "epoch": 0.5710738671632526,
      "grad_norm": 39.36647415161133,
      "learning_rate": 9.892302554683587e-06,
      "loss": 1.3864,
      "step": 1150
    },
    {
      "epoch": 0.5834885164494104,
      "grad_norm": 39.50497055053711,
      "learning_rate": 9.88812823509768e-06,
      "loss": 1.5879,
      "step": 1175
    },
    {
      "epoch": 0.595903165735568,
      "grad_norm": 52.04657745361328,
      "learning_rate": 9.883953915511772e-06,
      "loss": 1.4117,
      "step": 1200
    },
    {
      "epoch": 0.595903165735568,
      "eval_loss": 0.42576098442077637,
      "eval_runtime": 574.3755,
      "eval_samples_per_second": 1.892,
      "eval_steps_per_second": 0.947,
      "eval_wer": 0.2650162337662338,
      "step": 1200
    },
    {
      "epoch": 0.6083178150217257,
      "grad_norm": 41.47892761230469,
      "learning_rate": 9.879779595925865e-06,
      "loss": 1.2806,
      "step": 1225
    },
    {
      "epoch": 0.6207324643078833,
      "grad_norm": 35.136695861816406,
      "learning_rate": 9.875605276339958e-06,
      "loss": 1.2739,
      "step": 1250
    },
    {
      "epoch": 0.633147113594041,
      "grad_norm": 29.484039306640625,
      "learning_rate": 9.87143095675405e-06,
      "loss": 1.1364,
      "step": 1275
    },
    {
      "epoch": 0.6455617628801986,
      "grad_norm": 47.20607376098633,
      "learning_rate": 9.867256637168142e-06,
      "loss": 1.1565,
      "step": 1300
    },
    {
      "epoch": 0.6579764121663563,
      "grad_norm": 44.51639938354492,
      "learning_rate": 9.863082317582235e-06,
      "loss": 1.2704,
      "step": 1325
    },
    {
      "epoch": 0.6703910614525139,
      "grad_norm": 56.79221725463867,
      "learning_rate": 9.858907997996328e-06,
      "loss": 1.3655,
      "step": 1350
    },
    {
      "epoch": 0.6828057107386716,
      "grad_norm": 31.851566314697266,
      "learning_rate": 9.85473367841042e-06,
      "loss": 1.2962,
      "step": 1375
    },
    {
      "epoch": 0.6952203600248293,
      "grad_norm": 48.65141677856445,
      "learning_rate": 9.850559358824512e-06,
      "loss": 1.2699,
      "step": 1400
    },
    {
      "epoch": 0.6952203600248293,
      "eval_loss": 0.4222487807273865,
      "eval_runtime": 572.8012,
      "eval_samples_per_second": 1.898,
      "eval_steps_per_second": 0.95,
      "eval_wer": 0.26653814935064934,
      "step": 1400
    },
    {
      "epoch": 0.707635009310987,
      "grad_norm": 32.21327209472656,
      "learning_rate": 9.846385039238605e-06,
      "loss": 1.1561,
      "step": 1425
    },
    {
      "epoch": 0.7200496585971446,
      "grad_norm": 38.31489181518555,
      "learning_rate": 9.842210719652696e-06,
      "loss": 1.3146,
      "step": 1450
    },
    {
      "epoch": 0.7324643078833023,
      "grad_norm": 56.665260314941406,
      "learning_rate": 9.83803640006679e-06,
      "loss": 1.3184,
      "step": 1475
    },
    {
      "epoch": 0.74487895716946,
      "grad_norm": 49.64814758300781,
      "learning_rate": 9.833862080480883e-06,
      "loss": 1.0521,
      "step": 1500
    },
    {
      "epoch": 0.7572936064556176,
      "grad_norm": 32.33070373535156,
      "learning_rate": 9.829687760894975e-06,
      "loss": 1.2677,
      "step": 1525
    },
    {
      "epoch": 0.7697082557417753,
      "grad_norm": 27.896947860717773,
      "learning_rate": 9.825513441309066e-06,
      "loss": 1.3059,
      "step": 1550
    },
    {
      "epoch": 0.7821229050279329,
      "grad_norm": 28.060487747192383,
      "learning_rate": 9.82133912172316e-06,
      "loss": 1.3901,
      "step": 1575
    },
    {
      "epoch": 0.7945375543140907,
      "grad_norm": 32.01655578613281,
      "learning_rate": 9.817164802137253e-06,
      "loss": 1.0532,
      "step": 1600
    },
    {
      "epoch": 0.7945375543140907,
      "eval_loss": 0.41084742546081543,
      "eval_runtime": 564.5825,
      "eval_samples_per_second": 1.925,
      "eval_steps_per_second": 0.964,
      "eval_wer": 0.2513189935064935,
      "step": 1600
    },
    {
      "epoch": 0.8069522036002483,
      "grad_norm": 37.56877136230469,
      "learning_rate": 9.812990482551345e-06,
      "loss": 1.2314,
      "step": 1625
    },
    {
      "epoch": 0.819366852886406,
      "grad_norm": 23.31650161743164,
      "learning_rate": 9.808816162965438e-06,
      "loss": 1.214,
      "step": 1650
    },
    {
      "epoch": 0.8317815021725636,
      "grad_norm": 52.62869644165039,
      "learning_rate": 9.80464184337953e-06,
      "loss": 1.1148,
      "step": 1675
    },
    {
      "epoch": 0.8441961514587213,
      "grad_norm": 37.902523040771484,
      "learning_rate": 9.800467523793621e-06,
      "loss": 1.1947,
      "step": 1700
    },
    {
      "epoch": 0.8566108007448789,
      "grad_norm": 46.63554382324219,
      "learning_rate": 9.796293204207715e-06,
      "loss": 1.1841,
      "step": 1725
    },
    {
      "epoch": 0.8690254500310366,
      "grad_norm": 24.407249450683594,
      "learning_rate": 9.792118884621808e-06,
      "loss": 1.0706,
      "step": 1750
    },
    {
      "epoch": 0.8814400993171942,
      "grad_norm": 33.92270278930664,
      "learning_rate": 9.7879445650359e-06,
      "loss": 1.0771,
      "step": 1775
    },
    {
      "epoch": 0.8938547486033519,
      "grad_norm": 36.15495681762695,
      "learning_rate": 9.783770245449993e-06,
      "loss": 1.0589,
      "step": 1800
    },
    {
      "epoch": 0.8938547486033519,
      "eval_loss": 0.39820805191993713,
      "eval_runtime": 559.8426,
      "eval_samples_per_second": 1.942,
      "eval_steps_per_second": 0.972,
      "eval_wer": 0.22909902597402598,
      "step": 1800
    },
    {
      "epoch": 0.9062693978895097,
      "grad_norm": 39.94309616088867,
      "learning_rate": 9.779595925864084e-06,
      "loss": 1.219,
      "step": 1825
    },
    {
      "epoch": 0.9186840471756673,
      "grad_norm": 29.685474395751953,
      "learning_rate": 9.775421606278178e-06,
      "loss": 1.2091,
      "step": 1850
    },
    {
      "epoch": 0.931098696461825,
      "grad_norm": 39.77056121826172,
      "learning_rate": 9.771247286692271e-06,
      "loss": 1.2096,
      "step": 1875
    },
    {
      "epoch": 0.9435133457479826,
      "grad_norm": 22.495344161987305,
      "learning_rate": 9.767072967106363e-06,
      "loss": 1.1108,
      "step": 1900
    },
    {
      "epoch": 0.9559279950341403,
      "grad_norm": 42.11180114746094,
      "learning_rate": 9.762898647520454e-06,
      "loss": 1.0949,
      "step": 1925
    },
    {
      "epoch": 0.9683426443202979,
      "grad_norm": 41.73212432861328,
      "learning_rate": 9.758724327934548e-06,
      "loss": 1.2428,
      "step": 1950
    },
    {
      "epoch": 0.9807572936064556,
      "grad_norm": 39.16131591796875,
      "learning_rate": 9.75455000834864e-06,
      "loss": 0.9964,
      "step": 1975
    },
    {
      "epoch": 0.9931719428926132,
      "grad_norm": 27.52761459350586,
      "learning_rate": 9.750375688762733e-06,
      "loss": 1.1856,
      "step": 2000
    },
    {
      "epoch": 0.9931719428926132,
      "eval_loss": 0.3853071331977844,
      "eval_runtime": 565.6151,
      "eval_samples_per_second": 1.922,
      "eval_steps_per_second": 0.962,
      "eval_wer": 0.23549107142857142,
      "step": 2000
    },
    {
      "epoch": 1.0059590316573557,
      "grad_norm": 19.790531158447266,
      "learning_rate": 9.746201369176826e-06,
      "loss": 0.9702,
      "step": 2025
    },
    {
      "epoch": 1.0183736809435133,
      "grad_norm": 24.30504035949707,
      "learning_rate": 9.742027049590918e-06,
      "loss": 0.6177,
      "step": 2050
    },
    {
      "epoch": 1.030788330229671,
      "grad_norm": 25.81077003479004,
      "learning_rate": 9.73785273000501e-06,
      "loss": 0.5878,
      "step": 2075
    },
    {
      "epoch": 1.0432029795158286,
      "grad_norm": 29.500877380371094,
      "learning_rate": 9.733678410419102e-06,
      "loss": 0.6152,
      "step": 2100
    },
    {
      "epoch": 1.0556176288019863,
      "grad_norm": 18.39103889465332,
      "learning_rate": 9.729504090833196e-06,
      "loss": 0.5966,
      "step": 2125
    },
    {
      "epoch": 1.068032278088144,
      "grad_norm": 42.394142150878906,
      "learning_rate": 9.725329771247287e-06,
      "loss": 0.6365,
      "step": 2150
    },
    {
      "epoch": 1.0804469273743016,
      "grad_norm": 19.30755043029785,
      "learning_rate": 9.72115545166138e-06,
      "loss": 0.6584,
      "step": 2175
    },
    {
      "epoch": 1.0928615766604592,
      "grad_norm": 22.643875122070312,
      "learning_rate": 9.716981132075472e-06,
      "loss": 0.6692,
      "step": 2200
    },
    {
      "epoch": 1.0928615766604592,
      "eval_loss": 0.40007734298706055,
      "eval_runtime": 581.1524,
      "eval_samples_per_second": 1.87,
      "eval_steps_per_second": 0.936,
      "eval_wer": 0.2650162337662338,
      "step": 2200
    },
    {
      "epoch": 1.105276225946617,
      "grad_norm": 28.355436325073242,
      "learning_rate": 9.712806812489564e-06,
      "loss": 0.6398,
      "step": 2225
    },
    {
      "epoch": 1.1176908752327748,
      "grad_norm": 29.392656326293945,
      "learning_rate": 9.708632492903657e-06,
      "loss": 0.64,
      "step": 2250
    },
    {
      "epoch": 1.1301055245189324,
      "grad_norm": 25.52250099182129,
      "learning_rate": 9.70445817331775e-06,
      "loss": 0.6339,
      "step": 2275
    },
    {
      "epoch": 1.14252017380509,
      "grad_norm": 26.52411460876465,
      "learning_rate": 9.700283853731842e-06,
      "loss": 0.5372,
      "step": 2300
    },
    {
      "epoch": 1.1549348230912477,
      "grad_norm": 26.201452255249023,
      "learning_rate": 9.696109534145936e-06,
      "loss": 0.5878,
      "step": 2325
    },
    {
      "epoch": 1.1673494723774054,
      "grad_norm": 23.98987579345703,
      "learning_rate": 9.691935214560027e-06,
      "loss": 0.5349,
      "step": 2350
    },
    {
      "epoch": 1.179764121663563,
      "grad_norm": 32.815521240234375,
      "learning_rate": 9.68776089497412e-06,
      "loss": 0.7508,
      "step": 2375
    },
    {
      "epoch": 1.1921787709497207,
      "grad_norm": 23.12726593017578,
      "learning_rate": 9.683586575388212e-06,
      "loss": 0.6505,
      "step": 2400
    },
    {
      "epoch": 1.1921787709497207,
      "eval_loss": 0.39191773533821106,
      "eval_runtime": 571.3726,
      "eval_samples_per_second": 1.902,
      "eval_steps_per_second": 0.952,
      "eval_wer": 0.23894074675324675,
      "step": 2400
    },
    {
      "epoch": 1.2045934202358783,
      "grad_norm": 19.867704391479492,
      "learning_rate": 9.679412255802305e-06,
      "loss": 0.5807,
      "step": 2425
    },
    {
      "epoch": 1.217008069522036,
      "grad_norm": 19.685293197631836,
      "learning_rate": 9.675237936216397e-06,
      "loss": 0.7044,
      "step": 2450
    },
    {
      "epoch": 1.2294227188081936,
      "grad_norm": 28.70237159729004,
      "learning_rate": 9.67106361663049e-06,
      "loss": 0.6598,
      "step": 2475
    },
    {
      "epoch": 1.2418373680943513,
      "grad_norm": 36.98805618286133,
      "learning_rate": 9.666889297044582e-06,
      "loss": 0.6079,
      "step": 2500
    },
    {
      "epoch": 1.254252017380509,
      "grad_norm": 22.906494140625,
      "learning_rate": 9.662714977458675e-06,
      "loss": 0.7132,
      "step": 2525
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 21.013233184814453,
      "learning_rate": 9.658540657872769e-06,
      "loss": 0.6346,
      "step": 2550
    },
    {
      "epoch": 1.2790813159528243,
      "grad_norm": 22.889606475830078,
      "learning_rate": 9.65436633828686e-06,
      "loss": 0.5689,
      "step": 2575
    },
    {
      "epoch": 1.291495965238982,
      "grad_norm": 21.3165225982666,
      "learning_rate": 9.650192018700952e-06,
      "loss": 0.6613,
      "step": 2600
    },
    {
      "epoch": 1.291495965238982,
      "eval_loss": 0.3809148669242859,
      "eval_runtime": 575.5999,
      "eval_samples_per_second": 1.888,
      "eval_steps_per_second": 0.945,
      "eval_wer": 0.2385349025974026,
      "step": 2600
    },
    {
      "epoch": 1.3039106145251398,
      "grad_norm": 31.75080108642578,
      "learning_rate": 9.646017699115045e-06,
      "loss": 0.6436,
      "step": 2625
    },
    {
      "epoch": 1.3163252638112972,
      "grad_norm": 30.9864559173584,
      "learning_rate": 9.641843379529137e-06,
      "loss": 0.696,
      "step": 2650
    },
    {
      "epoch": 1.328739913097455,
      "grad_norm": 30.82682991027832,
      "learning_rate": 9.63766905994323e-06,
      "loss": 0.5955,
      "step": 2675
    },
    {
      "epoch": 1.3411545623836125,
      "grad_norm": 34.10749435424805,
      "learning_rate": 9.633494740357322e-06,
      "loss": 0.7117,
      "step": 2700
    },
    {
      "epoch": 1.3535692116697704,
      "grad_norm": 30.104955673217773,
      "learning_rate": 9.629320420771415e-06,
      "loss": 0.5666,
      "step": 2725
    },
    {
      "epoch": 1.365983860955928,
      "grad_norm": 23.225740432739258,
      "learning_rate": 9.625146101185507e-06,
      "loss": 0.5734,
      "step": 2750
    },
    {
      "epoch": 1.3783985102420857,
      "grad_norm": 20.32614517211914,
      "learning_rate": 9.6209717815996e-06,
      "loss": 0.6535,
      "step": 2775
    },
    {
      "epoch": 1.3908131595282434,
      "grad_norm": 23.999792098999023,
      "learning_rate": 9.616797462013693e-06,
      "loss": 0.6194,
      "step": 2800
    },
    {
      "epoch": 1.3908131595282434,
      "eval_loss": 0.3873368799686432,
      "eval_runtime": 568.9878,
      "eval_samples_per_second": 1.91,
      "eval_steps_per_second": 0.956,
      "eval_wer": 0.23427353896103897,
      "step": 2800
    },
    {
      "epoch": 1.403227808814401,
      "grad_norm": 18.715627670288086,
      "learning_rate": 9.612623142427785e-06,
      "loss": 0.5924,
      "step": 2825
    },
    {
      "epoch": 1.4156424581005587,
      "grad_norm": 24.6026611328125,
      "learning_rate": 9.608448822841877e-06,
      "loss": 0.5588,
      "step": 2850
    },
    {
      "epoch": 1.4280571073867163,
      "grad_norm": 32.74100875854492,
      "learning_rate": 9.60427450325597e-06,
      "loss": 0.6261,
      "step": 2875
    },
    {
      "epoch": 1.440471756672874,
      "grad_norm": 31.3200740814209,
      "learning_rate": 9.600100183670062e-06,
      "loss": 0.756,
      "step": 2900
    },
    {
      "epoch": 1.4528864059590316,
      "grad_norm": 19.404541015625,
      "learning_rate": 9.595925864084155e-06,
      "loss": 0.6082,
      "step": 2925
    },
    {
      "epoch": 1.4653010552451893,
      "grad_norm": 16.61175537109375,
      "learning_rate": 9.591751544498248e-06,
      "loss": 0.6567,
      "step": 2950
    },
    {
      "epoch": 1.477715704531347,
      "grad_norm": 22.71599006652832,
      "learning_rate": 9.587744197695776e-06,
      "loss": 0.6098,
      "step": 2975
    },
    {
      "epoch": 1.4901303538175046,
      "grad_norm": 32.15653610229492,
      "learning_rate": 9.583569878109869e-06,
      "loss": 0.6358,
      "step": 3000
    },
    {
      "epoch": 1.4901303538175046,
      "eval_loss": 0.38495373725891113,
      "eval_runtime": 561.3182,
      "eval_samples_per_second": 1.937,
      "eval_steps_per_second": 0.969,
      "eval_wer": 0.21418425324675325,
      "step": 3000
    },
    {
      "epoch": 1.5025450031036622,
      "grad_norm": 22.268293380737305,
      "learning_rate": 9.579395558523962e-06,
      "loss": 0.5949,
      "step": 3025
    },
    {
      "epoch": 1.51495965238982,
      "grad_norm": 28.58846092224121,
      "learning_rate": 9.575221238938054e-06,
      "loss": 0.6006,
      "step": 3050
    },
    {
      "epoch": 1.5273743016759775,
      "grad_norm": 25.382551193237305,
      "learning_rate": 9.571046919352145e-06,
      "loss": 0.5811,
      "step": 3075
    },
    {
      "epoch": 1.5397889509621354,
      "grad_norm": 34.780006408691406,
      "learning_rate": 9.566872599766239e-06,
      "loss": 0.5968,
      "step": 3100
    },
    {
      "epoch": 1.5522036002482928,
      "grad_norm": 21.326889038085938,
      "learning_rate": 9.562698280180332e-06,
      "loss": 0.4749,
      "step": 3125
    },
    {
      "epoch": 1.5646182495344507,
      "grad_norm": 27.90545654296875,
      "learning_rate": 9.558523960594424e-06,
      "loss": 0.6064,
      "step": 3150
    },
    {
      "epoch": 1.5770328988206082,
      "grad_norm": 22.328035354614258,
      "learning_rate": 9.554349641008517e-06,
      "loss": 0.5755,
      "step": 3175
    },
    {
      "epoch": 1.589447548106766,
      "grad_norm": 23.400901794433594,
      "learning_rate": 9.550175321422609e-06,
      "loss": 0.6208,
      "step": 3200
    },
    {
      "epoch": 1.589447548106766,
      "eval_loss": 0.37794527411460876,
      "eval_runtime": 565.9599,
      "eval_samples_per_second": 1.921,
      "eval_steps_per_second": 0.961,
      "eval_wer": 0.23883928571428573,
      "step": 3200
    },
    {
      "epoch": 1.6018621973929237,
      "grad_norm": 21.570287704467773,
      "learning_rate": 9.5460010018367e-06,
      "loss": 0.5788,
      "step": 3225
    },
    {
      "epoch": 1.6142768466790813,
      "grad_norm": 27.813451766967773,
      "learning_rate": 9.541826682250794e-06,
      "loss": 0.6945,
      "step": 3250
    },
    {
      "epoch": 1.626691495965239,
      "grad_norm": 30.955820083618164,
      "learning_rate": 9.537652362664887e-06,
      "loss": 0.5379,
      "step": 3275
    },
    {
      "epoch": 1.6391061452513966,
      "grad_norm": 20.53118133544922,
      "learning_rate": 9.533478043078979e-06,
      "loss": 0.6171,
      "step": 3300
    },
    {
      "epoch": 1.6515207945375543,
      "grad_norm": 23.763132095336914,
      "learning_rate": 9.529303723493072e-06,
      "loss": 0.6021,
      "step": 3325
    },
    {
      "epoch": 1.663935443823712,
      "grad_norm": 26.67987632751465,
      "learning_rate": 9.525129403907164e-06,
      "loss": 0.6727,
      "step": 3350
    },
    {
      "epoch": 1.6763500931098696,
      "grad_norm": 25.991594314575195,
      "learning_rate": 9.520955084321257e-06,
      "loss": 0.7155,
      "step": 3375
    },
    {
      "epoch": 1.6887647423960273,
      "grad_norm": 19.079315185546875,
      "learning_rate": 9.51678076473535e-06,
      "loss": 0.5932,
      "step": 3400
    },
    {
      "epoch": 1.6887647423960273,
      "eval_loss": 0.3724534511566162,
      "eval_runtime": 550.7846,
      "eval_samples_per_second": 1.974,
      "eval_steps_per_second": 0.988,
      "eval_wer": 0.20403814935064934,
      "step": 3400
    },
    {
      "epoch": 1.7011793916821851,
      "grad_norm": 18.52420997619629,
      "learning_rate": 9.512606445149442e-06,
      "loss": 0.6704,
      "step": 3425
    },
    {
      "epoch": 1.7135940409683426,
      "grad_norm": 19.514951705932617,
      "learning_rate": 9.508432125563533e-06,
      "loss": 0.5896,
      "step": 3450
    },
    {
      "epoch": 1.7260086902545004,
      "grad_norm": 28.89137840270996,
      "learning_rate": 9.504257805977627e-06,
      "loss": 0.5097,
      "step": 3475
    },
    {
      "epoch": 1.7384233395406579,
      "grad_norm": 32.02205276489258,
      "learning_rate": 9.500083486391718e-06,
      "loss": 0.6217,
      "step": 3500
    },
    {
      "epoch": 1.7508379888268157,
      "grad_norm": 36.85642623901367,
      "learning_rate": 9.495909166805812e-06,
      "loss": 0.666,
      "step": 3525
    },
    {
      "epoch": 1.7632526381129732,
      "grad_norm": 37.10481262207031,
      "learning_rate": 9.491734847219905e-06,
      "loss": 0.5903,
      "step": 3550
    },
    {
      "epoch": 1.775667287399131,
      "grad_norm": 19.526355743408203,
      "learning_rate": 9.487560527633997e-06,
      "loss": 0.5304,
      "step": 3575
    },
    {
      "epoch": 1.7880819366852885,
      "grad_norm": 30.528167724609375,
      "learning_rate": 9.483386208048088e-06,
      "loss": 0.5797,
      "step": 3600
    },
    {
      "epoch": 1.7880819366852885,
      "eval_loss": 0.3712182641029358,
      "eval_runtime": 558.4122,
      "eval_samples_per_second": 1.947,
      "eval_steps_per_second": 0.974,
      "eval_wer": 0.20921266233766234,
      "step": 3600
    },
    {
      "epoch": 1.8004965859714464,
      "grad_norm": 29.263221740722656,
      "learning_rate": 9.479211888462182e-06,
      "loss": 0.6156,
      "step": 3625
    },
    {
      "epoch": 1.812911235257604,
      "grad_norm": 23.728296279907227,
      "learning_rate": 9.475037568876275e-06,
      "loss": 0.6568,
      "step": 3650
    },
    {
      "epoch": 1.8253258845437617,
      "grad_norm": 15.723759651184082,
      "learning_rate": 9.470863249290367e-06,
      "loss": 0.566,
      "step": 3675
    },
    {
      "epoch": 1.8377405338299193,
      "grad_norm": 39.088584899902344,
      "learning_rate": 9.466688929704458e-06,
      "loss": 0.7007,
      "step": 3700
    },
    {
      "epoch": 1.850155183116077,
      "grad_norm": 20.931364059448242,
      "learning_rate": 9.462514610118551e-06,
      "loss": 0.6843,
      "step": 3725
    },
    {
      "epoch": 1.8625698324022346,
      "grad_norm": 23.179536819458008,
      "learning_rate": 9.458340290532643e-06,
      "loss": 0.6391,
      "step": 3750
    },
    {
      "epoch": 1.8749844816883923,
      "grad_norm": 31.087736129760742,
      "learning_rate": 9.454165970946736e-06,
      "loss": 0.6611,
      "step": 3775
    },
    {
      "epoch": 1.88739913097455,
      "grad_norm": 22.13474464416504,
      "learning_rate": 9.44999165136083e-06,
      "loss": 0.5707,
      "step": 3800
    },
    {
      "epoch": 1.88739913097455,
      "eval_loss": 0.37375178933143616,
      "eval_runtime": 565.1592,
      "eval_samples_per_second": 1.923,
      "eval_steps_per_second": 0.963,
      "eval_wer": 0.23417207792207792,
      "step": 3800
    },
    {
      "epoch": 1.8998137802607076,
      "grad_norm": 22.615114212036133,
      "learning_rate": 9.445817331774921e-06,
      "loss": 0.5573,
      "step": 3825
    },
    {
      "epoch": 1.9122284295468654,
      "grad_norm": 32.943199157714844,
      "learning_rate": 9.441643012189013e-06,
      "loss": 0.6528,
      "step": 3850
    },
    {
      "epoch": 1.9246430788330229,
      "grad_norm": 29.096609115600586,
      "learning_rate": 9.437468692603106e-06,
      "loss": 0.7014,
      "step": 3875
    },
    {
      "epoch": 1.9370577281191808,
      "grad_norm": 18.50649642944336,
      "learning_rate": 9.4332943730172e-06,
      "loss": 0.5836,
      "step": 3900
    },
    {
      "epoch": 1.9494723774053382,
      "grad_norm": 27.316129684448242,
      "learning_rate": 9.429120053431291e-06,
      "loss": 0.5993,
      "step": 3925
    },
    {
      "epoch": 1.961887026691496,
      "grad_norm": 26.35407257080078,
      "learning_rate": 9.424945733845385e-06,
      "loss": 0.5874,
      "step": 3950
    },
    {
      "epoch": 1.9743016759776535,
      "grad_norm": 23.183897018432617,
      "learning_rate": 9.420771414259476e-06,
      "loss": 0.6319,
      "step": 3975
    },
    {
      "epoch": 1.9867163252638114,
      "grad_norm": 25.644729614257812,
      "learning_rate": 9.416597094673568e-06,
      "loss": 0.5928,
      "step": 4000
    },
    {
      "epoch": 1.9867163252638114,
      "eval_loss": 0.3662048876285553,
      "eval_runtime": 574.0467,
      "eval_samples_per_second": 1.894,
      "eval_steps_per_second": 0.948,
      "eval_wer": 0.25892857142857145,
      "step": 4000
    },
    {
      "epoch": 1.9991309745499688,
      "grad_norm": 15.862359046936035,
      "learning_rate": 9.412422775087661e-06,
      "loss": 0.5867,
      "step": 4025
    },
    {
      "epoch": 2.0119180633147113,
      "grad_norm": 15.233346939086914,
      "learning_rate": 9.408248455501754e-06,
      "loss": 0.2928,
      "step": 4050
    },
    {
      "epoch": 2.024332712600869,
      "grad_norm": 41.226078033447266,
      "learning_rate": 9.404074135915846e-06,
      "loss": 0.2906,
      "step": 4075
    },
    {
      "epoch": 2.0367473618870267,
      "grad_norm": 16.719274520874023,
      "learning_rate": 9.39989981632994e-06,
      "loss": 0.3043,
      "step": 4100
    },
    {
      "epoch": 2.0491620111731845,
      "grad_norm": 17.11972999572754,
      "learning_rate": 9.395725496744031e-06,
      "loss": 0.3007,
      "step": 4125
    },
    {
      "epoch": 2.061576660459342,
      "grad_norm": 25.817195892333984,
      "learning_rate": 9.391551177158124e-06,
      "loss": 0.3189,
      "step": 4150
    },
    {
      "epoch": 2.0739913097455,
      "grad_norm": 22.05105972290039,
      "learning_rate": 9.387376857572218e-06,
      "loss": 0.2891,
      "step": 4175
    },
    {
      "epoch": 2.0864059590316573,
      "grad_norm": 21.231904983520508,
      "learning_rate": 9.38320253798631e-06,
      "loss": 0.2626,
      "step": 4200
    },
    {
      "epoch": 2.0864059590316573,
      "eval_loss": 0.3803122341632843,
      "eval_runtime": 575.7956,
      "eval_samples_per_second": 1.888,
      "eval_steps_per_second": 0.945,
      "eval_wer": 0.26968344155844154,
      "step": 4200
    },
    {
      "epoch": 2.098820608317815,
      "grad_norm": 21.424543380737305,
      "learning_rate": 9.379028218400401e-06,
      "loss": 0.2837,
      "step": 4225
    },
    {
      "epoch": 2.1112352576039726,
      "grad_norm": 20.14120864868164,
      "learning_rate": 9.374853898814494e-06,
      "loss": 0.2861,
      "step": 4250
    },
    {
      "epoch": 2.1236499068901304,
      "grad_norm": 29.401103973388672,
      "learning_rate": 9.370679579228586e-06,
      "loss": 0.28,
      "step": 4275
    },
    {
      "epoch": 2.136064556176288,
      "grad_norm": 15.73469352722168,
      "learning_rate": 9.36650525964268e-06,
      "loss": 0.2564,
      "step": 4300
    },
    {
      "epoch": 2.1484792054624458,
      "grad_norm": 16.33969497680664,
      "learning_rate": 9.362330940056773e-06,
      "loss": 0.2648,
      "step": 4325
    },
    {
      "epoch": 2.160893854748603,
      "grad_norm": 13.485337257385254,
      "learning_rate": 9.358156620470864e-06,
      "loss": 0.2615,
      "step": 4350
    },
    {
      "epoch": 2.173308504034761,
      "grad_norm": 17.95641326904297,
      "learning_rate": 9.353982300884956e-06,
      "loss": 0.2943,
      "step": 4375
    },
    {
      "epoch": 2.1857231533209185,
      "grad_norm": 20.702796936035156,
      "learning_rate": 9.349807981299049e-06,
      "loss": 0.2557,
      "step": 4400
    },
    {
      "epoch": 2.1857231533209185,
      "eval_loss": 0.3853345811367035,
      "eval_runtime": 558.2923,
      "eval_samples_per_second": 1.947,
      "eval_steps_per_second": 0.974,
      "eval_wer": 0.21022727272727273,
      "step": 4400
    },
    {
      "epoch": 2.1981378026070764,
      "grad_norm": 19.750181198120117,
      "learning_rate": 9.345633661713142e-06,
      "loss": 0.2404,
      "step": 4425
    },
    {
      "epoch": 2.210552451893234,
      "grad_norm": 21.653345108032227,
      "learning_rate": 9.341459342127234e-06,
      "loss": 0.3591,
      "step": 4450
    },
    {
      "epoch": 2.2229671011793917,
      "grad_norm": 17.557680130004883,
      "learning_rate": 9.337285022541327e-06,
      "loss": 0.3089,
      "step": 4475
    },
    {
      "epoch": 2.2353817504655495,
      "grad_norm": 6.009192943572998,
      "learning_rate": 9.333110702955419e-06,
      "loss": 0.3418,
      "step": 4500
    },
    {
      "epoch": 2.247796399751707,
      "grad_norm": 17.482463836669922,
      "learning_rate": 9.32893638336951e-06,
      "loss": 0.2301,
      "step": 4525
    },
    {
      "epoch": 2.260211049037865,
      "grad_norm": 13.825834274291992,
      "learning_rate": 9.324762063783604e-06,
      "loss": 0.3232,
      "step": 4550
    },
    {
      "epoch": 2.2726256983240223,
      "grad_norm": 9.021127700805664,
      "learning_rate": 9.320587744197697e-06,
      "loss": 0.3317,
      "step": 4575
    },
    {
      "epoch": 2.28504034761018,
      "grad_norm": 22.399105072021484,
      "learning_rate": 9.316413424611789e-06,
      "loss": 0.3342,
      "step": 4600
    },
    {
      "epoch": 2.28504034761018,
      "eval_loss": 0.38909900188446045,
      "eval_runtime": 555.7727,
      "eval_samples_per_second": 1.956,
      "eval_steps_per_second": 0.979,
      "eval_wer": 0.20616883116883117,
      "step": 4600
    },
    {
      "epoch": 2.28504034761018,
      "step": 4600,
      "total_flos": 3.756642543599616e+19,
      "train_loss": 1.1144439057681872,
      "train_runtime": 22344.0923,
      "train_samples_per_second": 21.63,
      "train_steps_per_second": 2.703
    }
  ],
  "logging_steps": 25,
  "max_steps": 60390,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 30,
  "save_steps": 200,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 3
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.756642543599616e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}