{
  "best_metric": 1.3224910497665405,
  "best_model_checkpoint": "miner_id_24/checkpoint-1050",
  "epoch": 0.9657392504023914,
  "eval_steps": 150,
  "global_step": 1050,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009197516670498966,
      "grad_norm": 6.181552886962891,
      "learning_rate": 5e-06,
      "loss": 6.0754,
      "step": 1
    },
    {
      "epoch": 0.0009197516670498966,
      "eval_loss": 4.431160926818848,
      "eval_runtime": 49.8075,
      "eval_samples_per_second": 165.437,
      "eval_steps_per_second": 20.68,
      "step": 1
    },
    {
      "epoch": 0.0018395033340997931,
      "grad_norm": 6.504417896270752,
      "learning_rate": 1e-05,
      "loss": 5.7192,
      "step": 2
    },
    {
      "epoch": 0.0027592550011496897,
      "grad_norm": 7.00899076461792,
      "learning_rate": 1.5e-05,
      "loss": 5.533,
      "step": 3
    },
    {
      "epoch": 0.0036790066681995862,
      "grad_norm": 6.67568826675415,
      "learning_rate": 2e-05,
      "loss": 5.0143,
      "step": 4
    },
    {
      "epoch": 0.004598758335249482,
      "grad_norm": 6.313548564910889,
      "learning_rate": 2.5e-05,
      "loss": 4.6726,
      "step": 5
    },
    {
      "epoch": 0.005518510002299379,
      "grad_norm": 5.2927422523498535,
      "learning_rate": 3e-05,
      "loss": 4.6566,
      "step": 6
    },
    {
      "epoch": 0.0064382616693492755,
      "grad_norm": 4.771329879760742,
      "learning_rate": 3.5e-05,
      "loss": 4.3112,
      "step": 7
    },
    {
      "epoch": 0.0073580133363991725,
      "grad_norm": 3.6339666843414307,
      "learning_rate": 4e-05,
      "loss": 4.1199,
      "step": 8
    },
    {
      "epoch": 0.008277765003449069,
      "grad_norm": 2.8113648891448975,
      "learning_rate": 4.5e-05,
      "loss": 3.9369,
      "step": 9
    },
    {
      "epoch": 0.009197516670498965,
      "grad_norm": 2.2301437854766846,
      "learning_rate": 5e-05,
      "loss": 3.7798,
      "step": 10
    },
    {
      "epoch": 0.010117268337548863,
      "grad_norm": 2.4432830810546875,
      "learning_rate": 5.500000000000001e-05,
      "loss": 3.8405,
      "step": 11
    },
    {
      "epoch": 0.011037020004598759,
      "grad_norm": 1.870229721069336,
      "learning_rate": 6e-05,
      "loss": 3.6539,
      "step": 12
    },
    {
      "epoch": 0.011956771671648655,
      "grad_norm": 1.9459682703018188,
      "learning_rate": 6.500000000000001e-05,
      "loss": 3.5456,
      "step": 13
    },
    {
      "epoch": 0.012876523338698551,
      "grad_norm": 1.4028608798980713,
      "learning_rate": 7e-05,
      "loss": 3.4191,
      "step": 14
    },
    {
      "epoch": 0.013796275005748447,
      "grad_norm": 1.9811638593673706,
      "learning_rate": 7.500000000000001e-05,
      "loss": 3.6083,
      "step": 15
    },
    {
      "epoch": 0.014716026672798345,
      "grad_norm": 1.952579379081726,
      "learning_rate": 8e-05,
      "loss": 3.4243,
      "step": 16
    },
    {
      "epoch": 0.01563577833984824,
      "grad_norm": 1.5935711860656738,
      "learning_rate": 8.5e-05,
      "loss": 3.3783,
      "step": 17
    },
    {
      "epoch": 0.016555530006898137,
      "grad_norm": 1.475130558013916,
      "learning_rate": 9e-05,
      "loss": 3.3419,
      "step": 18
    },
    {
      "epoch": 0.017475281673948035,
      "grad_norm": 1.465334177017212,
      "learning_rate": 9.5e-05,
      "loss": 3.2841,
      "step": 19
    },
    {
      "epoch": 0.01839503334099793,
      "grad_norm": 1.5258549451828003,
      "learning_rate": 0.0001,
      "loss": 3.1315,
      "step": 20
    },
    {
      "epoch": 0.019314785008047827,
      "grad_norm": 1.2697194814682007,
      "learning_rate": 9.999978367986987e-05,
      "loss": 3.1049,
      "step": 21
    },
    {
      "epoch": 0.020234536675097725,
      "grad_norm": 1.0417594909667969,
      "learning_rate": 9.999913472135125e-05,
      "loss": 3.0702,
      "step": 22
    },
    {
      "epoch": 0.02115428834214762,
      "grad_norm": 0.8249285221099854,
      "learning_rate": 9.999805313005946e-05,
      "loss": 3.0126,
      "step": 23
    },
    {
      "epoch": 0.022074040009197517,
      "grad_norm": 0.8856204152107239,
      "learning_rate": 9.99965389153533e-05,
      "loss": 2.936,
      "step": 24
    },
    {
      "epoch": 0.022993791676247412,
      "grad_norm": 1.0896774530410767,
      "learning_rate": 9.999459209033495e-05,
      "loss": 3.0088,
      "step": 25
    },
    {
      "epoch": 0.02391354334329731,
      "grad_norm": 0.878311276435852,
      "learning_rate": 9.999221267184993e-05,
      "loss": 2.8434,
      "step": 26
    },
    {
      "epoch": 0.024833295010347207,
      "grad_norm": 0.6598113179206848,
      "learning_rate": 9.998940068048688e-05,
      "loss": 2.7397,
      "step": 27
    },
    {
      "epoch": 0.025753046677397102,
      "grad_norm": 0.8144488334655762,
      "learning_rate": 9.998615614057742e-05,
      "loss": 2.7315,
      "step": 28
    },
    {
      "epoch": 0.026672798344447,
      "grad_norm": 0.8650857210159302,
      "learning_rate": 9.998247908019593e-05,
      "loss": 2.8126,
      "step": 29
    },
    {
      "epoch": 0.027592550011496894,
      "grad_norm": 0.6536254286766052,
      "learning_rate": 9.997836953115926e-05,
      "loss": 2.7479,
      "step": 30
    },
    {
      "epoch": 0.028512301678546792,
      "grad_norm": 1.0240334272384644,
      "learning_rate": 9.997382752902657e-05,
      "loss": 2.7575,
      "step": 31
    },
    {
      "epoch": 0.02943205334559669,
      "grad_norm": 0.6431864500045776,
      "learning_rate": 9.996885311309891e-05,
      "loss": 2.6497,
      "step": 32
    },
    {
      "epoch": 0.030351805012646584,
      "grad_norm": 0.6775922179222107,
      "learning_rate": 9.996344632641894e-05,
      "loss": 2.6301,
      "step": 33
    },
    {
      "epoch": 0.03127155667969648,
      "grad_norm": 0.9252532124519348,
      "learning_rate": 9.995760721577052e-05,
      "loss": 2.6123,
      "step": 34
    },
    {
      "epoch": 0.032191308346746376,
      "grad_norm": 0.6126474738121033,
      "learning_rate": 9.995133583167832e-05,
      "loss": 2.5311,
      "step": 35
    },
    {
      "epoch": 0.033111060013796274,
      "grad_norm": 0.7896717190742493,
      "learning_rate": 9.994463222840746e-05,
      "loss": 2.5242,
      "step": 36
    },
    {
      "epoch": 0.03403081168084617,
      "grad_norm": 0.6513295769691467,
      "learning_rate": 9.993749646396286e-05,
      "loss": 2.4802,
      "step": 37
    },
    {
      "epoch": 0.03495056334789607,
      "grad_norm": 0.6320262551307678,
      "learning_rate": 9.992992860008892e-05,
      "loss": 2.5144,
      "step": 38
    },
    {
      "epoch": 0.03587031501494597,
      "grad_norm": 0.9524784684181213,
      "learning_rate": 9.992192870226889e-05,
      "loss": 2.5425,
      "step": 39
    },
    {
      "epoch": 0.03679006668199586,
      "grad_norm": 0.5857168436050415,
      "learning_rate": 9.991349683972434e-05,
      "loss": 2.447,
      "step": 40
    },
    {
      "epoch": 0.03770981834904576,
      "grad_norm": 0.7533925175666809,
      "learning_rate": 9.990463308541451e-05,
      "loss": 2.3431,
      "step": 41
    },
    {
      "epoch": 0.038629570016095655,
      "grad_norm": 0.5700300931930542,
      "learning_rate": 9.989533751603577e-05,
      "loss": 2.3499,
      "step": 42
    },
    {
      "epoch": 0.03954932168314555,
      "grad_norm": 0.8808962106704712,
      "learning_rate": 9.988561021202083e-05,
      "loss": 2.3962,
      "step": 43
    },
    {
      "epoch": 0.04046907335019545,
      "grad_norm": 0.7045830488204956,
      "learning_rate": 9.987545125753819e-05,
      "loss": 2.2948,
      "step": 44
    },
    {
      "epoch": 0.04138882501724534,
      "grad_norm": 0.8472001552581787,
      "learning_rate": 9.986486074049131e-05,
      "loss": 2.3045,
      "step": 45
    },
    {
      "epoch": 0.04230857668429524,
      "grad_norm": 0.7173092365264893,
      "learning_rate": 9.985383875251783e-05,
      "loss": 2.2929,
      "step": 46
    },
    {
      "epoch": 0.04322832835134514,
      "grad_norm": 0.7962790727615356,
      "learning_rate": 9.984238538898891e-05,
      "loss": 2.327,
      "step": 47
    },
    {
      "epoch": 0.044148080018395035,
      "grad_norm": 0.8624216318130493,
      "learning_rate": 9.983050074900824e-05,
      "loss": 2.187,
      "step": 48
    },
    {
      "epoch": 0.04506783168544493,
      "grad_norm": 0.917926549911499,
      "learning_rate": 9.98181849354113e-05,
      "loss": 2.1946,
      "step": 49
    },
    {
      "epoch": 0.045987583352494824,
      "grad_norm": 0.8663224577903748,
      "learning_rate": 9.980543805476446e-05,
      "loss": 2.0988,
      "step": 50
    },
    {
      "epoch": 0.04690733501954472,
      "grad_norm": 11.713833808898926,
      "learning_rate": 9.979226021736396e-05,
      "loss": 4.3627,
      "step": 51
    },
    {
      "epoch": 0.04782708668659462,
      "grad_norm": 5.917041301727295,
      "learning_rate": 9.977865153723507e-05,
      "loss": 3.7012,
      "step": 52
    },
    {
      "epoch": 0.04874683835364452,
      "grad_norm": 3.241976499557495,
      "learning_rate": 9.976461213213104e-05,
      "loss": 3.1752,
      "step": 53
    },
    {
      "epoch": 0.049666590020694415,
      "grad_norm": 3.6020805835723877,
      "learning_rate": 9.975014212353213e-05,
      "loss": 3.019,
      "step": 54
    },
    {
      "epoch": 0.050586341687744306,
      "grad_norm": 3.3399133682250977,
      "learning_rate": 9.973524163664447e-05,
      "loss": 2.7453,
      "step": 55
    },
    {
      "epoch": 0.051506093354794204,
      "grad_norm": 2.34346604347229,
      "learning_rate": 9.97199108003991e-05,
      "loss": 2.5133,
      "step": 56
    },
    {
      "epoch": 0.0524258450218441,
      "grad_norm": 1.2596639394760132,
      "learning_rate": 9.970414974745076e-05,
      "loss": 2.5255,
      "step": 57
    },
    {
      "epoch": 0.053345596688894,
      "grad_norm": 2.061197519302368,
      "learning_rate": 9.968795861417676e-05,
      "loss": 2.4012,
      "step": 58
    },
    {
      "epoch": 0.0542653483559439,
      "grad_norm": 2.119333028793335,
      "learning_rate": 9.967133754067582e-05,
      "loss": 2.3668,
      "step": 59
    },
    {
      "epoch": 0.05518510002299379,
      "grad_norm": 1.2170815467834473,
      "learning_rate": 9.965428667076686e-05,
      "loss": 2.4343,
      "step": 60
    },
    {
      "epoch": 0.056104851690043686,
      "grad_norm": 1.0711098909378052,
      "learning_rate": 9.963680615198773e-05,
      "loss": 2.3052,
      "step": 61
    },
    {
      "epoch": 0.057024603357093584,
      "grad_norm": 1.64667809009552,
      "learning_rate": 9.961889613559395e-05,
      "loss": 2.3781,
      "step": 62
    },
    {
      "epoch": 0.05794435502414348,
      "grad_norm": 1.2105283737182617,
      "learning_rate": 9.960055677655742e-05,
      "loss": 2.357,
      "step": 63
    },
    {
      "epoch": 0.05886410669119338,
      "grad_norm": 1.0943785905838013,
      "learning_rate": 9.958178823356503e-05,
      "loss": 2.2903,
      "step": 64
    },
    {
      "epoch": 0.05978385835824328,
      "grad_norm": 1.5415120124816895,
      "learning_rate": 9.956259066901733e-05,
      "loss": 2.3312,
      "step": 65
    },
    {
      "epoch": 0.06070361002529317,
      "grad_norm": 0.8917611837387085,
      "learning_rate": 9.954296424902708e-05,
      "loss": 2.32,
      "step": 66
    },
    {
      "epoch": 0.061623361692343066,
      "grad_norm": 0.7154043316841125,
      "learning_rate": 9.952290914341791e-05,
      "loss": 2.24,
      "step": 67
    },
    {
      "epoch": 0.06254311335939296,
      "grad_norm": 1.1616435050964355,
      "learning_rate": 9.950242552572271e-05,
      "loss": 2.2741,
      "step": 68
    },
    {
      "epoch": 0.06346286502644286,
      "grad_norm": 0.7844848036766052,
      "learning_rate": 9.948151357318228e-05,
      "loss": 2.2333,
      "step": 69
    },
    {
      "epoch": 0.06438261669349275,
      "grad_norm": 0.7282043695449829,
      "learning_rate": 9.946017346674361e-05,
      "loss": 2.1664,
      "step": 70
    },
    {
      "epoch": 0.06530236836054265,
      "grad_norm": 0.7888442873954773,
      "learning_rate": 9.943840539105854e-05,
      "loss": 2.2735,
      "step": 71
    },
    {
      "epoch": 0.06622212002759255,
      "grad_norm": 0.5766344666481018,
      "learning_rate": 9.941620953448194e-05,
      "loss": 2.1517,
      "step": 72
    },
    {
      "epoch": 0.06714187169464245,
      "grad_norm": 0.7196112871170044,
      "learning_rate": 9.939358608907026e-05,
      "loss": 2.1162,
      "step": 73
    },
    {
      "epoch": 0.06806162336169234,
      "grad_norm": 0.7088760137557983,
      "learning_rate": 9.937053525057977e-05,
      "loss": 2.1777,
      "step": 74
    },
    {
      "epoch": 0.06898137502874224,
      "grad_norm": 0.5653288960456848,
      "learning_rate": 9.934705721846487e-05,
      "loss": 2.1762,
      "step": 75
    },
    {
      "epoch": 0.06990112669579214,
      "grad_norm": 0.8287534117698669,
      "learning_rate": 9.93231521958764e-05,
      "loss": 2.1711,
      "step": 76
    },
    {
      "epoch": 0.07082087836284204,
      "grad_norm": 0.4657200872898102,
      "learning_rate": 9.929882038965989e-05,
      "loss": 2.1953,
      "step": 77
    },
    {
      "epoch": 0.07174063002989194,
      "grad_norm": 0.47897377610206604,
      "learning_rate": 9.927406201035368e-05,
      "loss": 2.1214,
      "step": 78
    },
    {
      "epoch": 0.07266038169694182,
      "grad_norm": 0.678236722946167,
      "learning_rate": 9.924887727218724e-05,
      "loss": 2.0763,
      "step": 79
    },
    {
      "epoch": 0.07358013336399172,
      "grad_norm": 0.4475807249546051,
      "learning_rate": 9.922326639307917e-05,
      "loss": 2.16,
      "step": 80
    },
    {
      "epoch": 0.07449988503104162,
      "grad_norm": 0.49449393153190613,
      "learning_rate": 9.919722959463544e-05,
      "loss": 2.1382,
      "step": 81
    },
    {
      "epoch": 0.07541963669809151,
      "grad_norm": 0.5139850974082947,
      "learning_rate": 9.917076710214739e-05,
      "loss": 2.1543,
      "step": 82
    },
    {
      "epoch": 0.07633938836514141,
      "grad_norm": 0.5776795148849487,
      "learning_rate": 9.914387914458982e-05,
      "loss": 2.157,
      "step": 83
    },
    {
      "epoch": 0.07725914003219131,
      "grad_norm": 0.573421061038971,
      "learning_rate": 9.911656595461898e-05,
      "loss": 2.0451,
      "step": 84
    },
    {
      "epoch": 0.07817889169924121,
      "grad_norm": 0.6673893332481384,
      "learning_rate": 9.908882776857056e-05,
      "loss": 2.11,
      "step": 85
    },
    {
      "epoch": 0.0790986433662911,
      "grad_norm": 0.5322157740592957,
      "learning_rate": 9.906066482645772e-05,
      "loss": 2.0667,
      "step": 86
    },
    {
      "epoch": 0.080018395033341,
      "grad_norm": 0.7134078741073608,
      "learning_rate": 9.903207737196891e-05,
      "loss": 2.0217,
      "step": 87
    },
    {
      "epoch": 0.0809381467003909,
      "grad_norm": 0.5911161303520203,
      "learning_rate": 9.900306565246578e-05,
      "loss": 2.0574,
      "step": 88
    },
    {
      "epoch": 0.08185789836744078,
      "grad_norm": 0.6985921263694763,
      "learning_rate": 9.897362991898109e-05,
      "loss": 2.0796,
      "step": 89
    },
    {
      "epoch": 0.08277765003449068,
      "grad_norm": 0.5797624588012695,
      "learning_rate": 9.894377042621655e-05,
      "loss": 2.0293,
      "step": 90
    },
    {
      "epoch": 0.08369740170154058,
      "grad_norm": 0.6441212296485901,
      "learning_rate": 9.891348743254046e-05,
      "loss": 2.0006,
      "step": 91
    },
    {
      "epoch": 0.08461715336859048,
      "grad_norm": 0.5719017386436462,
      "learning_rate": 9.888278119998573e-05,
      "loss": 1.9847,
      "step": 92
    },
    {
      "epoch": 0.08553690503564038,
      "grad_norm": 0.618574857711792,
      "learning_rate": 9.885165199424738e-05,
      "loss": 1.9194,
      "step": 93
    },
    {
      "epoch": 0.08645665670269027,
      "grad_norm": 0.8214313983917236,
      "learning_rate": 9.882010008468036e-05,
      "loss": 1.8845,
      "step": 94
    },
    {
      "epoch": 0.08737640836974017,
      "grad_norm": 0.6314259767532349,
      "learning_rate": 9.878812574429721e-05,
      "loss": 1.8474,
      "step": 95
    },
    {
      "epoch": 0.08829616003679007,
      "grad_norm": 0.6584024429321289,
      "learning_rate": 9.875572924976568e-05,
      "loss": 1.8843,
      "step": 96
    },
    {
      "epoch": 0.08921591170383997,
      "grad_norm": 0.7131389379501343,
      "learning_rate": 9.87229108814063e-05,
      "loss": 1.9198,
      "step": 97
    },
    {
      "epoch": 0.09013566337088987,
      "grad_norm": 0.824288010597229,
      "learning_rate": 9.868967092319003e-05,
      "loss": 1.8658,
      "step": 98
    },
    {
      "epoch": 0.09105541503793976,
      "grad_norm": 0.7455874681472778,
      "learning_rate": 9.865600966273575e-05,
      "loss": 1.7975,
      "step": 99
    },
    {
      "epoch": 0.09197516670498965,
      "grad_norm": 1.2152295112609863,
      "learning_rate": 9.86219273913078e-05,
      "loss": 1.7226,
      "step": 100
    },
    {
      "epoch": 0.09289491837203954,
      "grad_norm": 5.640716552734375,
      "learning_rate": 9.858742440381343e-05,
      "loss": 3.5625,
      "step": 101
    },
    {
      "epoch": 0.09381467003908944,
      "grad_norm": 3.7876381874084473,
      "learning_rate": 9.855250099880025e-05,
      "loss": 3.0309,
      "step": 102
    },
    {
      "epoch": 0.09473442170613934,
      "grad_norm": 2.426966428756714,
      "learning_rate": 9.851715747845373e-05,
      "loss": 2.6085,
      "step": 103
    },
    {
      "epoch": 0.09565417337318924,
      "grad_norm": 2.368666172027588,
      "learning_rate": 9.848139414859441e-05,
      "loss": 2.457,
      "step": 104
    },
    {
      "epoch": 0.09657392504023914,
      "grad_norm": 1.607815146446228,
      "learning_rate": 9.844521131867546e-05,
      "loss": 2.2837,
      "step": 105
    },
    {
      "epoch": 0.09749367670728903,
      "grad_norm": 1.2020126581192017,
      "learning_rate": 9.840860930177983e-05,
      "loss": 2.1918,
      "step": 106
    },
    {
      "epoch": 0.09841342837433893,
      "grad_norm": 1.469667673110962,
      "learning_rate": 9.837158841461766e-05,
      "loss": 2.1856,
      "step": 107
    },
    {
      "epoch": 0.09933318004138883,
      "grad_norm": 1.2101978063583374,
      "learning_rate": 9.833414897752347e-05,
      "loss": 2.1572,
      "step": 108
    },
    {
      "epoch": 0.10025293170843873,
      "grad_norm": 1.0145184993743896,
      "learning_rate": 9.829629131445342e-05,
      "loss": 2.0651,
      "step": 109
    },
    {
      "epoch": 0.10117268337548861,
      "grad_norm": 1.0942986011505127,
      "learning_rate": 9.825801575298248e-05,
      "loss": 2.1006,
      "step": 110
    },
    {
      "epoch": 0.10209243504253851,
      "grad_norm": 0.812549889087677,
      "learning_rate": 9.821932262430165e-05,
      "loss": 2.0787,
      "step": 111
    },
    {
      "epoch": 0.10301218670958841,
      "grad_norm": 0.9913772344589233,
      "learning_rate": 9.8180212263215e-05,
      "loss": 2.0555,
      "step": 112
    },
    {
      "epoch": 0.1039319383766383,
      "grad_norm": 0.7573890686035156,
      "learning_rate": 9.814068500813692e-05,
      "loss": 2.022,
      "step": 113
    },
    {
      "epoch": 0.1048516900436882,
      "grad_norm": 0.876980185508728,
      "learning_rate": 9.8100741201089e-05,
      "loss": 2.0677,
      "step": 114
    },
    {
      "epoch": 0.1057714417107381,
      "grad_norm": 0.8768622875213623,
      "learning_rate": 9.806038118769723e-05,
      "loss": 2.0766,
      "step": 115
    },
    {
      "epoch": 0.106691193377788,
      "grad_norm": 0.6824678182601929,
      "learning_rate": 9.801960531718896e-05,
      "loss": 2.1323,
      "step": 116
    },
    {
      "epoch": 0.1076109450448379,
      "grad_norm": 0.9467669129371643,
      "learning_rate": 9.797841394238986e-05,
      "loss": 1.9414,
      "step": 117
    },
    {
      "epoch": 0.1085306967118878,
      "grad_norm": 0.5850769281387329,
      "learning_rate": 9.793680741972084e-05,
      "loss": 1.9249,
      "step": 118
    },
    {
      "epoch": 0.10945044837893769,
      "grad_norm": 0.8185686469078064,
      "learning_rate": 9.789478610919507e-05,
      "loss": 1.9541,
      "step": 119
    },
    {
      "epoch": 0.11037020004598758,
      "grad_norm": 0.9609946608543396,
      "learning_rate": 9.785235037441474e-05,
      "loss": 1.943,
      "step": 120
    },
    {
      "epoch": 0.11128995171303747,
      "grad_norm": 0.6438754796981812,
      "learning_rate": 9.780950058256802e-05,
      "loss": 1.9613,
      "step": 121
    },
    {
      "epoch": 0.11220970338008737,
      "grad_norm": 1.0584321022033691,
      "learning_rate": 9.776623710442579e-05,
      "loss": 1.9652,
      "step": 122
    },
    {
      "epoch": 0.11312945504713727,
      "grad_norm": 0.5727084279060364,
      "learning_rate": 9.772256031433849e-05,
      "loss": 1.9769,
      "step": 123
    },
    {
      "epoch": 0.11404920671418717,
      "grad_norm": 0.8819255828857422,
      "learning_rate": 9.767847059023291e-05,
      "loss": 2.0024,
      "step": 124
    },
    {
      "epoch": 0.11496895838123707,
      "grad_norm": 0.8120801448822021,
      "learning_rate": 9.763396831360884e-05,
      "loss": 1.9066,
      "step": 125
    },
    {
      "epoch": 0.11588871004828696,
      "grad_norm": 0.5545021891593933,
      "learning_rate": 9.758905386953579e-05,
      "loss": 1.9619,
      "step": 126
    },
    {
      "epoch": 0.11680846171533686,
      "grad_norm": 1.0289326906204224,
      "learning_rate": 9.754372764664969e-05,
      "loss": 1.9098,
      "step": 127
    },
    {
      "epoch": 0.11772821338238676,
      "grad_norm": 0.609516441822052,
      "learning_rate": 9.749799003714954e-05,
      "loss": 1.9147,
      "step": 128
    },
    {
      "epoch": 0.11864796504943666,
      "grad_norm": 0.7941620945930481,
      "learning_rate": 9.745184143679397e-05,
      "loss": 1.8968,
      "step": 129
    },
    {
      "epoch": 0.11956771671648656,
      "grad_norm": 0.787964940071106,
      "learning_rate": 9.74052822448978e-05,
      "loss": 1.9712,
      "step": 130
    },
    {
      "epoch": 0.12048746838353644,
      "grad_norm": 0.730323314666748,
      "learning_rate": 9.735831286432868e-05,
      "loss": 1.8993,
      "step": 131
    },
    {
      "epoch": 0.12140722005058634,
      "grad_norm": 0.8297889232635498,
      "learning_rate": 9.731093370150349e-05,
      "loss": 1.9682,
      "step": 132
    },
    {
      "epoch": 0.12232697171763623,
      "grad_norm": 0.768775463104248,
      "learning_rate": 9.72631451663849e-05,
      "loss": 1.8542,
      "step": 133
    },
    {
      "epoch": 0.12324672338468613,
      "grad_norm": 0.7137448787689209,
      "learning_rate": 9.721494767247779e-05,
      "loss": 1.8801,
      "step": 134
    },
    {
      "epoch": 0.12416647505173603,
      "grad_norm": 0.6385506987571716,
      "learning_rate": 9.716634163682569e-05,
      "loss": 1.8384,
      "step": 135
    },
    {
      "epoch": 0.12508622671878591,
      "grad_norm": 0.7410357594490051,
      "learning_rate": 9.71173274800072e-05,
      "loss": 1.8761,
      "step": 136
    },
    {
      "epoch": 0.12600597838583583,
      "grad_norm": 0.7702000737190247,
      "learning_rate": 9.706790562613219e-05,
      "loss": 1.8183,
      "step": 137
    },
    {
      "epoch": 0.1269257300528857,
      "grad_norm": 0.6795453429222107,
      "learning_rate": 9.701807650283839e-05,
      "loss": 1.8434,
      "step": 138
    },
    {
      "epoch": 0.12784548171993562,
      "grad_norm": 0.8809398412704468,
      "learning_rate": 9.696784054128749e-05,
      "loss": 1.8462,
      "step": 139
    },
    {
      "epoch": 0.1287652333869855,
      "grad_norm": 0.9881577491760254,
      "learning_rate": 9.691719817616147e-05,
      "loss": 1.7828,
      "step": 140
    },
    {
      "epoch": 0.12968498505403542,
      "grad_norm": 0.9603993892669678,
      "learning_rate": 9.686614984565887e-05,
      "loss": 1.8768,
      "step": 141
    },
    {
      "epoch": 0.1306047367210853,
      "grad_norm": 1.0421313047409058,
      "learning_rate": 9.681469599149092e-05,
      "loss": 1.8302,
      "step": 142
    },
    {
      "epoch": 0.1315244883881352,
      "grad_norm": 0.8529607653617859,
      "learning_rate": 9.676283705887783e-05,
      "loss": 1.7531,
      "step": 143
    },
    {
      "epoch": 0.1324442400551851,
      "grad_norm": 0.8817620277404785,
      "learning_rate": 9.67105734965448e-05,
      "loss": 1.7358,
      "step": 144
    },
    {
      "epoch": 0.133363991722235,
      "grad_norm": 0.9506654739379883,
      "learning_rate": 9.665790575671829e-05,
      "loss": 1.7789,
      "step": 145
    },
    {
      "epoch": 0.1342837433892849,
      "grad_norm": 1.1102913618087769,
      "learning_rate": 9.660483429512199e-05,
      "loss": 1.7401,
      "step": 146
    },
    {
      "epoch": 0.13520349505633478,
      "grad_norm": 0.7556246519088745,
      "learning_rate": 9.65513595709729e-05,
      "loss": 1.728,
      "step": 147
    },
    {
      "epoch": 0.1361232467233847,
      "grad_norm": 1.1163665056228638,
      "learning_rate": 9.64974820469774e-05,
      "loss": 1.6618,
      "step": 148
    },
    {
      "epoch": 0.13704299839043457,
      "grad_norm": 0.9814196228981018,
      "learning_rate": 9.644320218932722e-05,
      "loss": 1.616,
      "step": 149
    },
    {
      "epoch": 0.13796275005748448,
      "grad_norm": 1.2995212078094482,
      "learning_rate": 9.638852046769539e-05,
      "loss": 1.6275,
      "step": 150
    },
    {
      "epoch": 0.13796275005748448,
      "eval_loss": 1.9198498725891113,
      "eval_runtime": 50.0535,
      "eval_samples_per_second": 164.624,
      "eval_steps_per_second": 20.578,
      "step": 150
    },
    {
      "epoch": 0.13888250172453437,
      "grad_norm": 3.668370485305786,
      "learning_rate": 9.633343735523219e-05,
      "loss": 2.841,
      "step": 151
    },
    {
      "epoch": 0.13980225339158428,
      "grad_norm": 2.5073230266571045,
      "learning_rate": 9.627795332856107e-05,
      "loss": 2.3706,
      "step": 152
    },
    {
      "epoch": 0.14072200505863416,
      "grad_norm": 1.542073130607605,
      "learning_rate": 9.622206886777448e-05,
      "loss": 2.1699,
      "step": 153
    },
    {
      "epoch": 0.14164175672568408,
      "grad_norm": 1.3604127168655396,
      "learning_rate": 9.616578445642981e-05,
      "loss": 1.9859,
      "step": 154
    },
    {
      "epoch": 0.14256150839273396,
      "grad_norm": 1.1186628341674805,
      "learning_rate": 9.61091005815451e-05,
      "loss": 1.9205,
      "step": 155
    },
    {
      "epoch": 0.14348126005978387,
      "grad_norm": 1.1308863162994385,
      "learning_rate": 9.605201773359485e-05,
      "loss": 1.9819,
      "step": 156
    },
    {
      "epoch": 0.14440101172683376,
      "grad_norm": 1.0661953687667847,
      "learning_rate": 9.599453640650585e-05,
      "loss": 1.9109,
      "step": 157
    },
    {
      "epoch": 0.14532076339388364,
      "grad_norm": 0.7912338376045227,
      "learning_rate": 9.59366570976528e-05,
      "loss": 1.9331,
      "step": 158
    },
    {
      "epoch": 0.14624051506093355,
      "grad_norm": 0.9056004881858826,
      "learning_rate": 9.587838030785413e-05,
      "loss": 1.9323,
      "step": 159
    },
    {
      "epoch": 0.14716026672798344,
      "grad_norm": 1.0585856437683105,
      "learning_rate": 9.581970654136751e-05,
      "loss": 1.9443,
      "step": 160
    },
    {
      "epoch": 0.14808001839503335,
      "grad_norm": 1.0043240785598755,
      "learning_rate": 9.576063630588563e-05,
      "loss": 1.8468,
      "step": 161
    },
    {
      "epoch": 0.14899977006208323,
      "grad_norm": 0.9187436699867249,
      "learning_rate": 9.570117011253174e-05,
      "loss": 1.9558,
      "step": 162
    },
    {
      "epoch": 0.14991952172913314,
      "grad_norm": 0.862158477306366,
      "learning_rate": 9.56413084758552e-05,
      "loss": 1.851,
      "step": 163
    },
    {
      "epoch": 0.15083927339618303,
      "grad_norm": 1.04788076877594,
      "learning_rate": 9.55810519138271e-05,
      "loss": 1.884,
      "step": 164
    },
    {
      "epoch": 0.15175902506323294,
      "grad_norm": 0.807015597820282,
      "learning_rate": 9.552040094783574e-05,
      "loss": 1.8688,
      "step": 165
    },
    {
      "epoch": 0.15267877673028282,
      "grad_norm": 0.8749469518661499,
      "learning_rate": 9.545935610268211e-05,
      "loss": 1.8487,
      "step": 166
    },
    {
      "epoch": 0.1535985283973327,
      "grad_norm": 0.7388503551483154,
      "learning_rate": 9.539791790657538e-05,
      "loss": 1.8447,
      "step": 167
    },
    {
      "epoch": 0.15451828006438262,
      "grad_norm": 0.8812807202339172,
      "learning_rate": 9.533608689112827e-05,
      "loss": 1.8848,
      "step": 168
    },
    {
      "epoch": 0.1554380317314325,
      "grad_norm": 0.6926305890083313,
      "learning_rate": 9.527386359135253e-05,
      "loss": 1.824,
      "step": 169
    },
    {
      "epoch": 0.15635778339848241,
      "grad_norm": 0.7211126089096069,
      "learning_rate": 9.521124854565425e-05,
      "loss": 1.8291,
      "step": 170
    },
    {
      "epoch": 0.1572775350655323,
      "grad_norm": 0.717591404914856,
      "learning_rate": 9.514824229582921e-05,
      "loss": 1.8463,
      "step": 171
    },
    {
      "epoch": 0.1581972867325822,
      "grad_norm": 0.5658002495765686,
      "learning_rate": 9.508484538705824e-05,
      "loss": 1.8864,
      "step": 172
    },
    {
      "epoch": 0.1591170383996321,
      "grad_norm": 0.8670650720596313,
      "learning_rate": 9.50210583679024e-05,
      "loss": 1.8437,
      "step": 173
    },
    {
      "epoch": 0.160036790066682,
      "grad_norm": 0.6736385822296143,
      "learning_rate": 9.495688179029838e-05,
      "loss": 1.8376,
      "step": 174
    },
    {
      "epoch": 0.1609565417337319,
      "grad_norm": 0.7114839553833008,
      "learning_rate": 9.489231620955359e-05,
      "loss": 1.8259,
      "step": 175
    },
    {
      "epoch": 0.1618762934007818,
      "grad_norm": 0.8745600581169128,
      "learning_rate": 9.482736218434143e-05,
      "loss": 1.8571,
      "step": 176
    },
    {
      "epoch": 0.16279604506783169,
      "grad_norm": 0.594724714756012,
      "learning_rate": 9.476202027669643e-05,
      "loss": 1.8385,
      "step": 177
    },
    {
      "epoch": 0.16371579673488157,
      "grad_norm": 0.8559861183166504,
      "learning_rate": 9.469629105200937e-05,
      "loss": 1.805,
      "step": 178
    },
    {
      "epoch": 0.16463554840193148,
      "grad_norm": 0.6145199537277222,
      "learning_rate": 9.463017507902244e-05,
      "loss": 1.8331,
      "step": 179
    },
    {
      "epoch": 0.16555530006898136,
      "grad_norm": 1.0015912055969238,
      "learning_rate": 9.456367292982429e-05,
      "loss": 1.7974,
      "step": 180
    },
    {
      "epoch": 0.16647505173603128,
      "grad_norm": 0.5909841060638428,
      "learning_rate": 9.449678517984502e-05,
      "loss": 1.787,
      "step": 181
    },
    {
      "epoch": 0.16739480340308116,
      "grad_norm": 0.766480565071106,
      "learning_rate": 9.442951240785135e-05,
      "loss": 1.7213,
      "step": 182
    },
    {
      "epoch": 0.16831455507013107,
      "grad_norm": 0.6516543626785278,
      "learning_rate": 9.436185519594145e-05,
      "loss": 1.7548,
      "step": 183
    },
    {
      "epoch": 0.16923430673718096,
      "grad_norm": 0.7793421745300293,
      "learning_rate": 9.429381412953999e-05,
      "loss": 1.7481,
      "step": 184
    },
    {
      "epoch": 0.17015405840423087,
      "grad_norm": 0.8920656442642212,
      "learning_rate": 9.422538979739307e-05,
      "loss": 1.805,
      "step": 185
    },
    {
      "epoch": 0.17107381007128075,
      "grad_norm": 0.8302977085113525,
      "learning_rate": 9.415658279156311e-05,
      "loss": 1.7267,
      "step": 186
    },
    {
      "epoch": 0.17199356173833066,
      "grad_norm": 0.8947249054908752,
      "learning_rate": 9.408739370742373e-05,
      "loss": 1.6794,
      "step": 187
    },
    {
      "epoch": 0.17291331340538055,
      "grad_norm": 0.6332067251205444,
      "learning_rate": 9.401782314365457e-05,
      "loss": 1.7127,
      "step": 188
    },
    {
      "epoch": 0.17383306507243043,
      "grad_norm": 0.830932080745697,
      "learning_rate": 9.39478717022362e-05,
      "loss": 1.6696,
      "step": 189
    },
    {
      "epoch": 0.17475281673948034,
      "grad_norm": 0.6934016942977905,
      "learning_rate": 9.387753998844482e-05,
      "loss": 1.6327,
      "step": 190
    },
    {
      "epoch": 0.17567256840653023,
      "grad_norm": 0.733917236328125,
      "learning_rate": 9.380682861084701e-05,
      "loss": 1.6992,
      "step": 191
    },
    {
      "epoch": 0.17659232007358014,
      "grad_norm": 0.7675406336784363,
      "learning_rate": 9.373573818129458e-05,
      "loss": 1.6759,
      "step": 192
    },
    {
      "epoch": 0.17751207174063002,
      "grad_norm": 0.8431460857391357,
      "learning_rate": 9.366426931491916e-05,
      "loss": 1.6044,
      "step": 193
    },
    {
      "epoch": 0.17843182340767993,
      "grad_norm": 0.7542397975921631,
      "learning_rate": 9.359242263012693e-05,
      "loss": 1.6274,
      "step": 194
    },
    {
      "epoch": 0.17935157507472982,
      "grad_norm": 0.8931959867477417,
      "learning_rate": 9.352019874859325e-05,
      "loss": 1.6006,
      "step": 195
    },
    {
      "epoch": 0.18027132674177973,
      "grad_norm": 0.8215823769569397,
      "learning_rate": 9.344759829525733e-05,
      "loss": 1.5865,
      "step": 196
    },
    {
      "epoch": 0.18119107840882961,
      "grad_norm": 0.7112393379211426,
      "learning_rate": 9.337462189831669e-05,
      "loss": 1.5478,
      "step": 197
    },
    {
      "epoch": 0.18211083007587953,
      "grad_norm": 1.0283434391021729,
      "learning_rate": 9.330127018922194e-05,
      "loss": 1.5316,
      "step": 198
    },
    {
      "epoch": 0.1830305817429294,
      "grad_norm": 0.9886683225631714,
      "learning_rate": 9.322754380267109e-05,
      "loss": 1.4653,
      "step": 199
    },
    {
      "epoch": 0.1839503334099793,
      "grad_norm": 1.064937949180603,
      "learning_rate": 9.315344337660421e-05,
      "loss": 1.4673,
      "step": 200
    },
    {
      "epoch": 0.1848700850770292,
      "grad_norm": 3.375886917114258,
      "learning_rate": 9.307896955219786e-05,
      "loss": 2.5919,
      "step": 201
    },
    {
      "epoch": 0.1857898367440791,
      "grad_norm": 2.260359764099121,
      "learning_rate": 9.300412297385954e-05,
      "loss": 2.1729,
      "step": 202
    },
    {
      "epoch": 0.186709588411129,
      "grad_norm": 1.4669098854064941,
      "learning_rate": 9.292890428922209e-05,
      "loss": 1.9383,
      "step": 203
    },
    {
      "epoch": 0.18762934007817889,
      "grad_norm": 1.037178635597229,
      "learning_rate": 9.285331414913815e-05,
      "loss": 1.9071,
      "step": 204
    },
    {
      "epoch": 0.1885490917452288,
      "grad_norm": 1.154489517211914,
      "learning_rate": 9.277735320767449e-05,
      "loss": 1.8216,
      "step": 205
    },
    {
      "epoch": 0.18946884341227868,
      "grad_norm": 1.0613019466400146,
      "learning_rate": 9.270102212210632e-05,
      "loss": 1.7831,
      "step": 206
    },
    {
      "epoch": 0.1903885950793286,
      "grad_norm": 1.1248329877853394,
      "learning_rate": 9.262432155291167e-05,
      "loss": 1.8591,
      "step": 207
    },
    {
      "epoch": 0.19130834674637848,
      "grad_norm": 0.8293649554252625,
      "learning_rate": 9.254725216376561e-05,
      "loss": 1.8205,
      "step": 208
    },
    {
      "epoch": 0.19222809841342836,
      "grad_norm": 0.9506818652153015,
      "learning_rate": 9.246981462153456e-05,
      "loss": 1.8283,
      "step": 209
    },
    {
      "epoch": 0.19314785008047827,
      "grad_norm": 0.8719251155853271,
      "learning_rate": 9.239200959627048e-05,
      "loss": 1.7719,
      "step": 210
    },
    {
      "epoch": 0.19406760174752816,
      "grad_norm": 0.808614194393158,
      "learning_rate": 9.231383776120512e-05,
      "loss": 1.8825,
      "step": 211
    },
    {
      "epoch": 0.19498735341457807,
      "grad_norm": 0.897612988948822,
      "learning_rate": 9.22352997927441e-05,
      "loss": 1.8061,
      "step": 212
    },
    {
      "epoch": 0.19590710508162795,
      "grad_norm": 0.7289676070213318,
      "learning_rate": 9.215639637046121e-05,
      "loss": 1.8348,
      "step": 213
    },
    {
      "epoch": 0.19682685674867786,
      "grad_norm": 0.8267980813980103,
      "learning_rate": 9.207712817709236e-05,
      "loss": 1.7645,
      "step": 214
    },
    {
      "epoch": 0.19774660841572775,
      "grad_norm": 0.7317152619361877,
      "learning_rate": 9.19974958985298e-05,
      "loss": 1.7478,
      "step": 215
    },
    {
      "epoch": 0.19866636008277766,
      "grad_norm": 0.6896607875823975,
      "learning_rate": 9.191750022381614e-05,
      "loss": 1.7699,
      "step": 216
    },
    {
      "epoch": 0.19958611174982754,
      "grad_norm": 0.7086347937583923,
      "learning_rate": 9.183714184513832e-05,
      "loss": 1.7938,
      "step": 217
    },
    {
      "epoch": 0.20050586341687746,
      "grad_norm": 0.6830713152885437,
      "learning_rate": 9.175642145782179e-05,
      "loss": 1.7568,
      "step": 218
    },
    {
      "epoch": 0.20142561508392734,
      "grad_norm": 0.5826436281204224,
      "learning_rate": 9.167533976032429e-05,
      "loss": 1.7548,
      "step": 219
    },
    {
      "epoch": 0.20234536675097722,
      "grad_norm": 0.669696569442749,
      "learning_rate": 9.159389745423002e-05,
      "loss": 1.8096,
      "step": 220
    },
    {
      "epoch": 0.20326511841802714,
      "grad_norm": 0.6378855109214783,
      "learning_rate": 9.151209524424333e-05,
      "loss": 1.7248,
      "step": 221
    },
    {
      "epoch": 0.20418487008507702,
      "grad_norm": 0.7418368458747864,
      "learning_rate": 9.142993383818283e-05,
      "loss": 1.6951,
      "step": 222
    },
    {
      "epoch": 0.20510462175212693,
      "grad_norm": 0.6502818465232849,
      "learning_rate": 9.134741394697517e-05,
      "loss": 1.6809,
      "step": 223
    },
    {
      "epoch": 0.20602437341917682,
      "grad_norm": 0.6646417379379272,
      "learning_rate": 9.126453628464888e-05,
      "loss": 1.7178,
      "step": 224
    },
    {
      "epoch": 0.20694412508622673,
      "grad_norm": 0.7070106267929077,
      "learning_rate": 9.118130156832823e-05,
      "loss": 1.7629,
      "step": 225
    },
    {
      "epoch": 0.2078638767532766,
      "grad_norm": 0.6244888305664062,
      "learning_rate": 9.109771051822702e-05,
      "loss": 1.763,
      "step": 226
    },
    {
      "epoch": 0.20878362842032652,
      "grad_norm": 0.6641138195991516,
      "learning_rate": 9.10137638576423e-05,
      "loss": 1.7016,
      "step": 227
    },
    {
      "epoch": 0.2097033800873764,
      "grad_norm": 0.7198558449745178,
      "learning_rate": 9.092946231294819e-05,
      "loss": 1.7247,
      "step": 228
    },
    {
      "epoch": 0.21062313175442632,
      "grad_norm": 0.5700192451477051,
      "learning_rate": 9.084480661358953e-05,
      "loss": 1.6782,
      "step": 229
    },
    {
      "epoch": 0.2115428834214762,
      "grad_norm": 0.8081958293914795,
      "learning_rate": 9.075979749207561e-05,
      "loss": 1.7437,
      "step": 230
    },
    {
      "epoch": 0.2124626350885261,
      "grad_norm": 0.7449802756309509,
      "learning_rate": 9.067443568397378e-05,
      "loss": 1.6924,
      "step": 231
    },
    {
      "epoch": 0.213382386755576,
      "grad_norm": 0.8385685086250305,
      "learning_rate": 9.058872192790313e-05,
      "loss": 1.6572,
      "step": 232
    },
    {
      "epoch": 0.21430213842262588,
      "grad_norm": 0.7077139616012573,
      "learning_rate": 9.050265696552812e-05,
      "loss": 1.6949,
      "step": 233
    },
    {
      "epoch": 0.2152218900896758,
      "grad_norm": 0.7295122742652893,
      "learning_rate": 9.041624154155208e-05,
      "loss": 1.6745,
      "step": 234
    },
    {
      "epoch": 0.21614164175672568,
      "grad_norm": 0.6347808241844177,
      "learning_rate": 9.032947640371086e-05,
      "loss": 1.6441,
      "step": 235
    },
    {
      "epoch": 0.2170613934237756,
      "grad_norm": 0.8323748707771301,
      "learning_rate": 9.024236230276629e-05,
      "loss": 1.6198,
      "step": 236
    },
    {
      "epoch": 0.21798114509082547,
      "grad_norm": 0.7440972328186035,
      "learning_rate": 9.01548999924997e-05,
      "loss": 1.6405,
      "step": 237
    },
    {
      "epoch": 0.21890089675787539,
      "grad_norm": 0.7849915623664856,
      "learning_rate": 9.006709022970547e-05,
      "loss": 1.6361,
      "step": 238
    },
    {
      "epoch": 0.21982064842492527,
      "grad_norm": 0.7478511929512024,
      "learning_rate": 8.997893377418432e-05,
      "loss": 1.543,
      "step": 239
    },
    {
      "epoch": 0.22074040009197515,
      "grad_norm": 0.6225507259368896,
      "learning_rate": 8.98904313887369e-05,
      "loss": 1.6248,
      "step": 240
    },
    {
      "epoch": 0.22166015175902506,
      "grad_norm": 0.6926827430725098,
      "learning_rate": 8.980158383915713e-05,
      "loss": 1.6449,
      "step": 241
    },
    {
      "epoch": 0.22257990342607495,
      "grad_norm": 0.6942108869552612,
      "learning_rate": 8.971239189422555e-05,
      "loss": 1.5912,
      "step": 242
    },
    {
      "epoch": 0.22349965509312486,
      "grad_norm": 0.623525857925415,
      "learning_rate": 8.962285632570267e-05,
      "loss": 1.5436,
      "step": 243
    },
    {
      "epoch": 0.22441940676017474,
      "grad_norm": 0.5779447555541992,
      "learning_rate": 8.953297790832231e-05,
      "loss": 1.5747,
      "step": 244
    },
    {
      "epoch": 0.22533915842722466,
      "grad_norm": 0.7703275680541992,
      "learning_rate": 8.944275741978493e-05,
      "loss": 1.5648,
      "step": 245
    },
    {
      "epoch": 0.22625891009427454,
      "grad_norm": 0.7855743765830994,
      "learning_rate": 8.935219564075085e-05,
      "loss": 1.5246,
      "step": 246
    },
    {
      "epoch": 0.22717866176132445,
      "grad_norm": 0.851977527141571,
      "learning_rate": 8.926129335483349e-05,
      "loss": 1.4777,
      "step": 247
    },
    {
      "epoch": 0.22809841342837434,
      "grad_norm": 0.8636126518249512,
      "learning_rate": 8.917005134859263e-05,
      "loss": 1.5235,
      "step": 248
    },
    {
      "epoch": 0.22901816509542425,
      "grad_norm": 1.055405616760254,
      "learning_rate": 8.907847041152756e-05,
      "loss": 1.5131,
      "step": 249
    },
    {
      "epoch": 0.22993791676247413,
      "grad_norm": 1.2434190511703491,
      "learning_rate": 8.89865513360703e-05,
      "loss": 1.3169,
      "step": 250
    },
    {
      "epoch": 0.23085766842952402,
      "grad_norm": 2.794989585876465,
      "learning_rate": 8.889429491757871e-05,
      "loss": 2.3149,
      "step": 251
    },
    {
      "epoch": 0.23177742009657393,
      "grad_norm": 2.0627057552337646,
      "learning_rate": 8.88017019543296e-05,
      "loss": 2.0616,
      "step": 252
    },
    {
      "epoch": 0.2326971717636238,
      "grad_norm": 1.3948839902877808,
      "learning_rate": 8.870877324751184e-05,
      "loss": 1.9026,
      "step": 253
    },
    {
      "epoch": 0.23361692343067372,
      "grad_norm": 0.9678890109062195,
      "learning_rate": 8.861550960121945e-05,
      "loss": 1.8307,
      "step": 254
    },
    {
      "epoch": 0.2345366750977236,
      "grad_norm": 1.0957893133163452,
      "learning_rate": 8.852191182244456e-05,
      "loss": 1.7364,
      "step": 255
    },
    {
      "epoch": 0.23545642676477352,
      "grad_norm": 0.9677236676216125,
      "learning_rate": 8.842798072107054e-05,
      "loss": 1.762,
      "step": 256
    },
    {
      "epoch": 0.2363761784318234,
      "grad_norm": 1.012479305267334,
      "learning_rate": 8.833371710986493e-05,
      "loss": 1.6711,
      "step": 257
    },
    {
      "epoch": 0.23729593009887331,
      "grad_norm": 0.8846522569656372,
      "learning_rate": 8.823912180447236e-05,
      "loss": 1.8402,
      "step": 258
    },
    {
      "epoch": 0.2382156817659232,
      "grad_norm": 1.0523695945739746,
      "learning_rate": 8.81441956234076e-05,
      "loss": 1.703,
      "step": 259
    },
    {
      "epoch": 0.2391354334329731,
      "grad_norm": 1.0177359580993652,
      "learning_rate": 8.80489393880484e-05,
      "loss": 1.7218,
      "step": 260
    },
    {
      "epoch": 0.240055185100023,
      "grad_norm": 0.8454842567443848,
      "learning_rate": 8.79533539226284e-05,
      "loss": 1.6839,
      "step": 261
    },
    {
      "epoch": 0.24097493676707288,
      "grad_norm": 0.9161872863769531,
      "learning_rate": 8.785744005423002e-05,
      "loss": 1.7333,
      "step": 262
    },
    {
      "epoch": 0.2418946884341228,
      "grad_norm": 0.7548457384109497,
      "learning_rate": 8.77611986127773e-05,
      "loss": 1.696,
      "step": 263
    },
    {
      "epoch": 0.24281444010117267,
      "grad_norm": 0.9760596752166748,
      "learning_rate": 8.766463043102864e-05,
      "loss": 1.7102,
      "step": 264
    },
    {
      "epoch": 0.24373419176822259,
      "grad_norm": 0.7247944474220276,
      "learning_rate": 8.756773634456975e-05,
      "loss": 1.7439,
      "step": 265
    },
    {
      "epoch": 0.24465394343527247,
      "grad_norm": 0.7252097129821777,
      "learning_rate": 8.747051719180626e-05,
      "loss": 1.7811,
      "step": 266
    },
    {
      "epoch": 0.24557369510232238,
      "grad_norm": 0.6071887016296387,
      "learning_rate": 8.737297381395657e-05,
      "loss": 1.6398,
      "step": 267
    },
    {
      "epoch": 0.24649344676937227,
      "grad_norm": 0.7072895765304565,
      "learning_rate": 8.727510705504454e-05,
      "loss": 1.68,
      "step": 268
    },
    {
      "epoch": 0.24741319843642218,
      "grad_norm": 0.7006264925003052,
      "learning_rate": 8.717691776189214e-05,
      "loss": 1.6814,
      "step": 269
    },
    {
      "epoch": 0.24833295010347206,
      "grad_norm": 0.6832376718521118,
      "learning_rate": 8.707840678411224e-05,
      "loss": 1.6259,
      "step": 270
    },
    {
      "epoch": 0.24925270177052197,
      "grad_norm": 0.5689120292663574,
      "learning_rate": 8.697957497410108e-05,
      "loss": 1.6786,
      "step": 271
    },
    {
      "epoch": 0.25017245343757183,
      "grad_norm": 0.8517261743545532,
      "learning_rate": 8.688042318703111e-05,
      "loss": 1.6644,
      "step": 272
    },
    {
      "epoch": 0.25109220510462177,
      "grad_norm": 0.5697482824325562,
      "learning_rate": 8.678095228084343e-05,
      "loss": 1.6705,
      "step": 273
    },
    {
      "epoch": 0.25201195677167165,
      "grad_norm": 0.6067523956298828,
      "learning_rate": 8.66811631162404e-05,
      "loss": 1.7022,
      "step": 274
    },
    {
      "epoch": 0.25293170843872154,
      "grad_norm": 0.6944383382797241,
      "learning_rate": 8.65810565566782e-05,
      "loss": 1.6235,
      "step": 275
    },
    {
      "epoch": 0.2538514601057714,
      "grad_norm": 0.5674624443054199,
      "learning_rate": 8.648063346835942e-05,
      "loss": 1.6757,
      "step": 276
    },
    {
      "epoch": 0.25477121177282136,
      "grad_norm": 0.6712316274642944,
      "learning_rate": 8.637989472022549e-05,
      "loss": 1.627,
      "step": 277
    },
    {
      "epoch": 0.25569096343987124,
      "grad_norm": 0.5806477069854736,
      "learning_rate": 8.627884118394913e-05,
      "loss": 1.6709,
      "step": 278
    },
    {
      "epoch": 0.25661071510692113,
      "grad_norm": 0.5989074110984802,
      "learning_rate": 8.617747373392696e-05,
      "loss": 1.6802,
      "step": 279
    },
    {
      "epoch": 0.257530466773971,
      "grad_norm": 0.6222725510597229,
      "learning_rate": 8.607579324727175e-05,
      "loss": 1.5823,
      "step": 280
    },
    {
      "epoch": 0.25845021844102095,
      "grad_norm": 0.6905350685119629,
      "learning_rate": 8.597380060380493e-05,
      "loss": 1.5795,
      "step": 281
    },
    {
      "epoch": 0.25936997010807084,
      "grad_norm": 0.9093815684318542,
      "learning_rate": 8.5871496686049e-05,
      "loss": 1.6131,
      "step": 282
    },
    {
      "epoch": 0.2602897217751207,
      "grad_norm": 0.8468539714813232,
      "learning_rate": 8.576888237921983e-05,
      "loss": 1.5836,
      "step": 283
    },
    {
      "epoch": 0.2612094734421706,
      "grad_norm": 0.8949149250984192,
      "learning_rate": 8.566595857121902e-05,
      "loss": 1.5574,
      "step": 284
    },
    {
      "epoch": 0.2621292251092205,
      "grad_norm": 0.7991402745246887,
      "learning_rate": 8.556272615262622e-05,
      "loss": 1.5941,
      "step": 285
    },
    {
      "epoch": 0.2630489767762704,
      "grad_norm": 1.0631219148635864,
      "learning_rate": 8.545918601669147e-05,
      "loss": 1.6469,
      "step": 286
    },
    {
      "epoch": 0.2639687284433203,
      "grad_norm": 0.6237906217575073,
      "learning_rate": 8.535533905932738e-05,
      "loss": 1.5148,
      "step": 287
    },
    {
      "epoch": 0.2648884801103702,
      "grad_norm": 0.9192318320274353,
      "learning_rate": 8.525118617910143e-05,
      "loss": 1.4909,
      "step": 288
    },
    {
      "epoch": 0.2658082317774201,
      "grad_norm": 0.8480085134506226,
      "learning_rate": 8.514672827722824e-05,
      "loss": 1.4746,
      "step": 289
    },
    {
      "epoch": 0.26672798344447,
      "grad_norm": 0.9110789895057678,
      "learning_rate": 8.504196625756166e-05,
      "loss": 1.5245,
      "step": 290
    },
    {
      "epoch": 0.2676477351115199,
      "grad_norm": 0.7915551066398621,
      "learning_rate": 8.493690102658703e-05,
      "loss": 1.4658,
      "step": 291
    },
    {
      "epoch": 0.2685674867785698,
      "grad_norm": 0.8689735531806946,
      "learning_rate": 8.483153349341335e-05,
      "loss": 1.5159,
      "step": 292
    },
    {
      "epoch": 0.26948723844561967,
      "grad_norm": 0.966712474822998,
      "learning_rate": 8.472586456976535e-05,
      "loss": 1.4782,
      "step": 293
    },
    {
      "epoch": 0.27040699011266955,
      "grad_norm": 0.8555867075920105,
      "learning_rate": 8.461989516997565e-05,
      "loss": 1.5046,
      "step": 294
    },
    {
      "epoch": 0.2713267417797195,
      "grad_norm": 0.8497052192687988,
      "learning_rate": 8.45136262109768e-05,
      "loss": 1.3816,
      "step": 295
    },
    {
      "epoch": 0.2722464934467694,
      "grad_norm": 0.776263952255249,
      "learning_rate": 8.440705861229344e-05,
      "loss": 1.5065,
      "step": 296
    },
    {
      "epoch": 0.27316624511381926,
      "grad_norm": 1.1991870403289795,
      "learning_rate": 8.430019329603422e-05,
      "loss": 1.4482,
      "step": 297
    },
    {
      "epoch": 0.27408599678086915,
      "grad_norm": 0.9438532590866089,
      "learning_rate": 8.41930311868839e-05,
      "loss": 1.4023,
      "step": 298
    },
    {
      "epoch": 0.2750057484479191,
      "grad_norm": 1.3889118432998657,
      "learning_rate": 8.408557321209534e-05,
      "loss": 1.3493,
      "step": 299
    },
    {
      "epoch": 0.27592550011496897,
      "grad_norm": 1.7762432098388672,
      "learning_rate": 8.397782030148147e-05,
      "loss": 1.257,
      "step": 300
    },
    {
      "epoch": 0.27592550011496897,
      "eval_loss": 1.6551681756973267,
      "eval_runtime": 50.0018,
      "eval_samples_per_second": 164.794,
      "eval_steps_per_second": 20.599,
      "step": 300
    },
    {
      "epoch": 0.27684525178201885,
      "grad_norm": 2.846353530883789,
      "learning_rate": 8.386977338740724e-05,
      "loss": 2.0714,
      "step": 301
    },
    {
      "epoch": 0.27776500344906874,
      "grad_norm": 2.5227103233337402,
      "learning_rate": 8.376143340478153e-05,
      "loss": 1.8748,
      "step": 302
    },
    {
      "epoch": 0.2786847551161186,
      "grad_norm": 2.0501370429992676,
      "learning_rate": 8.365280129104912e-05,
      "loss": 1.7948,
      "step": 303
    },
    {
      "epoch": 0.27960450678316856,
      "grad_norm": 1.0905100107192993,
      "learning_rate": 8.354387798618253e-05,
      "loss": 1.7508,
      "step": 304
    },
    {
      "epoch": 0.28052425845021844,
      "grad_norm": 1.1486353874206543,
      "learning_rate": 8.343466443267391e-05,
      "loss": 1.7368,
      "step": 305
    },
    {
      "epoch": 0.28144401011726833,
      "grad_norm": 1.1892223358154297,
      "learning_rate": 8.332516157552684e-05,
      "loss": 1.6652,
      "step": 306
    },
    {
      "epoch": 0.2823637617843182,
      "grad_norm": 1.027815341949463,
      "learning_rate": 8.321537036224822e-05,
      "loss": 1.6847,
      "step": 307
    },
    {
      "epoch": 0.28328351345136815,
      "grad_norm": 1.1536738872528076,
      "learning_rate": 8.310529174284004e-05,
      "loss": 1.7384,
      "step": 308
    },
    {
      "epoch": 0.28420326511841804,
      "grad_norm": 0.8124598264694214,
      "learning_rate": 8.299492666979113e-05,
      "loss": 1.6906,
      "step": 309
    },
    {
      "epoch": 0.2851230167854679,
      "grad_norm": 1.1598918437957764,
      "learning_rate": 8.2884276098069e-05,
      "loss": 1.7223,
      "step": 310
    },
    {
      "epoch": 0.2860427684525178,
      "grad_norm": 1.1664563417434692,
      "learning_rate": 8.277334098511147e-05,
      "loss": 1.6548,
      "step": 311
    },
    {
      "epoch": 0.28696252011956774,
      "grad_norm": 0.6637358069419861,
      "learning_rate": 8.266212229081847e-05,
      "loss": 1.6638,
      "step": 312
    },
    {
      "epoch": 0.2878822717866176,
      "grad_norm": 0.987754225730896,
      "learning_rate": 8.255062097754372e-05,
      "loss": 1.7133,
      "step": 313
    },
    {
      "epoch": 0.2888020234536675,
      "grad_norm": 0.7713818550109863,
      "learning_rate": 8.243883801008632e-05,
      "loss": 1.6705,
      "step": 314
    },
    {
      "epoch": 0.2897217751207174,
      "grad_norm": 1.0500911474227905,
      "learning_rate": 8.232677435568252e-05,
      "loss": 1.5651,
      "step": 315
    },
    {
      "epoch": 0.2906415267877673,
      "grad_norm": 0.7900861501693726,
      "learning_rate": 8.221443098399732e-05,
      "loss": 1.6276,
      "step": 316
    },
    {
      "epoch": 0.2915612784548172,
      "grad_norm": 0.7363952994346619,
      "learning_rate": 8.210180886711602e-05,
      "loss": 1.5795,
      "step": 317
    },
    {
      "epoch": 0.2924810301218671,
      "grad_norm": 0.895269513130188,
      "learning_rate": 8.198890897953586e-05,
      "loss": 1.6644,
      "step": 318
    },
    {
      "epoch": 0.293400781788917,
      "grad_norm": 0.9014370441436768,
      "learning_rate": 8.187573229815758e-05,
      "loss": 1.619,
      "step": 319
    },
    {
      "epoch": 0.29432053345596687,
      "grad_norm": 1.06600821018219,
      "learning_rate": 8.176227980227694e-05,
      "loss": 1.6779,
      "step": 320
    },
    {
      "epoch": 0.2952402851230168,
      "grad_norm": 1.0690526962280273,
      "learning_rate": 8.164855247357627e-05,
      "loss": 1.553,
      "step": 321
    },
    {
      "epoch": 0.2961600367900667,
      "grad_norm": 0.8835525512695312,
      "learning_rate": 8.153455129611605e-05,
      "loss": 1.614,
      "step": 322
    },
    {
      "epoch": 0.2970797884571166,
      "grad_norm": 1.1458913087844849,
      "learning_rate": 8.142027725632623e-05,
      "loss": 1.6015,
      "step": 323
    },
    {
      "epoch": 0.29799954012416646,
      "grad_norm": 0.6511287093162537,
      "learning_rate": 8.130573134299782e-05,
      "loss": 1.6129,
      "step": 324
    },
    {
      "epoch": 0.29891929179121635,
      "grad_norm": 1.1985218524932861,
      "learning_rate": 8.119091454727428e-05,
      "loss": 1.564,
      "step": 325
    },
    {
      "epoch": 0.2998390434582663,
      "grad_norm": 1.0999850034713745,
      "learning_rate": 8.107582786264299e-05,
      "loss": 1.6318,
      "step": 326
    },
    {
      "epoch": 0.30075879512531617,
      "grad_norm": 0.664042055606842,
      "learning_rate": 8.09604722849266e-05,
      "loss": 1.6049,
      "step": 327
    },
    {
      "epoch": 0.30167854679236605,
      "grad_norm": 0.9706513285636902,
      "learning_rate": 8.084484881227448e-05,
      "loss": 1.6157,
      "step": 328
    },
    {
      "epoch": 0.30259829845941594,
      "grad_norm": 0.7374880909919739,
      "learning_rate": 8.072895844515398e-05,
      "loss": 1.573,
      "step": 329
    },
    {
      "epoch": 0.3035180501264659,
      "grad_norm": 0.9631950855255127,
      "learning_rate": 8.061280218634192e-05,
      "loss": 1.5568,
      "step": 330
    },
    {
      "epoch": 0.30443780179351576,
      "grad_norm": 0.9304092526435852,
      "learning_rate": 8.049638104091575e-05,
      "loss": 1.6135,
      "step": 331
    },
    {
      "epoch": 0.30535755346056564,
      "grad_norm": 0.7095350027084351,
      "learning_rate": 8.037969601624495e-05,
      "loss": 1.5427,
      "step": 332
    },
    {
      "epoch": 0.30627730512761553,
      "grad_norm": 1.130644679069519,
      "learning_rate": 8.026274812198234e-05,
      "loss": 1.5704,
      "step": 333
    },
    {
      "epoch": 0.3071970567946654,
      "grad_norm": 0.6161345839500427,
      "learning_rate": 8.014553837005527e-05,
      "loss": 1.5705,
      "step": 334
    },
    {
      "epoch": 0.30811680846171535,
      "grad_norm": 0.7174437046051025,
      "learning_rate": 8.002806777465685e-05,
      "loss": 1.599,
      "step": 335
    },
    {
      "epoch": 0.30903656012876524,
      "grad_norm": 1.0651494264602661,
      "learning_rate": 7.991033735223729e-05,
      "loss": 1.538,
      "step": 336
    },
    {
      "epoch": 0.3099563117958151,
      "grad_norm": 0.7327350974082947,
      "learning_rate": 7.979234812149501e-05,
      "loss": 1.4112,
      "step": 337
    },
    {
      "epoch": 0.310876063462865,
      "grad_norm": 0.8603296279907227,
      "learning_rate": 7.967410110336782e-05,
      "loss": 1.4141,
      "step": 338
    },
    {
      "epoch": 0.31179581512991494,
      "grad_norm": 0.7242352962493896,
      "learning_rate": 7.955559732102414e-05,
      "loss": 1.4316,
      "step": 339
    },
    {
      "epoch": 0.31271556679696483,
      "grad_norm": 0.7651688456535339,
      "learning_rate": 7.943683779985413e-05,
      "loss": 1.5116,
      "step": 340
    },
    {
      "epoch": 0.3136353184640147,
      "grad_norm": 0.6736311316490173,
      "learning_rate": 7.931782356746076e-05,
      "loss": 1.4454,
      "step": 341
    },
    {
      "epoch": 0.3145550701310646,
      "grad_norm": 0.6474123597145081,
      "learning_rate": 7.919855565365102e-05,
      "loss": 1.4616,
      "step": 342
    },
    {
      "epoch": 0.31547482179811454,
      "grad_norm": 0.6624403595924377,
      "learning_rate": 7.907903509042696e-05,
      "loss": 1.4973,
      "step": 343
    },
    {
      "epoch": 0.3163945734651644,
      "grad_norm": 0.6722452640533447,
      "learning_rate": 7.895926291197667e-05,
      "loss": 1.4452,
      "step": 344
    },
    {
      "epoch": 0.3173143251322143,
      "grad_norm": 0.8001620769500732,
      "learning_rate": 7.883924015466553e-05,
      "loss": 1.4532,
      "step": 345
    },
    {
      "epoch": 0.3182340767992642,
      "grad_norm": 0.8588351011276245,
      "learning_rate": 7.871896785702707e-05,
      "loss": 1.4036,
      "step": 346
    },
    {
      "epoch": 0.31915382846631407,
      "grad_norm": 0.8040063977241516,
      "learning_rate": 7.859844705975404e-05,
      "loss": 1.3815,
      "step": 347
    },
    {
      "epoch": 0.320073580133364,
      "grad_norm": 1.0031120777130127,
      "learning_rate": 7.847767880568945e-05,
      "loss": 1.3611,
      "step": 348
    },
    {
      "epoch": 0.3209933318004139,
      "grad_norm": 0.8174616098403931,
      "learning_rate": 7.835666413981743e-05,
      "loss": 1.2897,
      "step": 349
    },
    {
      "epoch": 0.3219130834674638,
      "grad_norm": 1.1649737358093262,
      "learning_rate": 7.823540410925435e-05,
      "loss": 1.22,
      "step": 350
    },
    {
      "epoch": 0.32283283513451366,
      "grad_norm": 2.4392778873443604,
      "learning_rate": 7.811389976323961e-05,
      "loss": 1.9789,
      "step": 351
    },
    {
      "epoch": 0.3237525868015636,
      "grad_norm": 1.9123626947402954,
      "learning_rate": 7.799215215312667e-05,
      "loss": 1.817,
      "step": 352
    },
    {
      "epoch": 0.3246723384686135,
      "grad_norm": 1.556714653968811,
      "learning_rate": 7.787016233237387e-05,
      "loss": 1.6248,
      "step": 353
    },
    {
      "epoch": 0.32559209013566337,
      "grad_norm": 1.0949770212173462,
      "learning_rate": 7.774793135653538e-05,
      "loss": 1.6925,
      "step": 354
    },
    {
      "epoch": 0.32651184180271325,
      "grad_norm": 1.0330501794815063,
      "learning_rate": 7.7625460283252e-05,
      "loss": 1.6667,
      "step": 355
    },
    {
      "epoch": 0.32743159346976314,
      "grad_norm": 1.113447666168213,
      "learning_rate": 7.750275017224207e-05,
      "loss": 1.6345,
      "step": 356
    },
    {
      "epoch": 0.3283513451368131,
      "grad_norm": 1.0157980918884277,
      "learning_rate": 7.737980208529231e-05,
      "loss": 1.6047,
      "step": 357
    },
    {
      "epoch": 0.32927109680386296,
      "grad_norm": 0.8798123598098755,
      "learning_rate": 7.725661708624853e-05,
      "loss": 1.5993,
      "step": 358
    },
    {
      "epoch": 0.33019084847091285,
      "grad_norm": 0.9784142374992371,
      "learning_rate": 7.713319624100657e-05,
      "loss": 1.578,
      "step": 359
    },
    {
      "epoch": 0.33111060013796273,
      "grad_norm": 0.9105007648468018,
      "learning_rate": 7.700954061750293e-05,
      "loss": 1.6108,
      "step": 360
    },
    {
      "epoch": 0.33203035180501267,
      "grad_norm": 0.9545553922653198,
      "learning_rate": 7.688565128570564e-05,
      "loss": 1.6134,
      "step": 361
    },
    {
      "epoch": 0.33295010347206255,
      "grad_norm": 0.8679737448692322,
      "learning_rate": 7.676152931760496e-05,
      "loss": 1.5928,
      "step": 362
    },
    {
      "epoch": 0.33386985513911244,
      "grad_norm": 0.6711000204086304,
      "learning_rate": 7.663717578720411e-05,
      "loss": 1.6628,
      "step": 363
    },
    {
      "epoch": 0.3347896068061623,
      "grad_norm": 0.7280721068382263,
      "learning_rate": 7.651259177050996e-05,
      "loss": 1.6265,
      "step": 364
    },
    {
      "epoch": 0.33570935847321226,
      "grad_norm": 1.0024129152297974,
      "learning_rate": 7.63877783455237e-05,
      "loss": 1.6356,
      "step": 365
    },
    {
      "epoch": 0.33662911014026214,
      "grad_norm": 0.7483541369438171,
      "learning_rate": 7.626273659223165e-05,
      "loss": 1.5906,
      "step": 366
    },
    {
      "epoch": 0.33754886180731203,
      "grad_norm": 0.811964750289917,
      "learning_rate": 7.61374675925957e-05,
      "loss": 1.5831,
      "step": 367
    },
    {
      "epoch": 0.3384686134743619,
      "grad_norm": 0.9911743998527527,
      "learning_rate": 7.60119724305441e-05,
      "loss": 1.5819,
      "step": 368
    },
    {
      "epoch": 0.3393883651414118,
      "grad_norm": 0.6445810794830322,
      "learning_rate": 7.588625219196208e-05,
      "loss": 1.5991,
      "step": 369
    },
    {
      "epoch": 0.34030811680846174,
      "grad_norm": 0.8051655888557434,
      "learning_rate": 7.576030796468233e-05,
      "loss": 1.5491,
      "step": 370
    },
    {
      "epoch": 0.3412278684755116,
      "grad_norm": 0.9976129531860352,
      "learning_rate": 7.563414083847573e-05,
      "loss": 1.5645,
      "step": 371
    },
    {
      "epoch": 0.3421476201425615,
      "grad_norm": 0.7071700096130371,
      "learning_rate": 7.550775190504189e-05,
      "loss": 1.528,
      "step": 372
    },
    {
      "epoch": 0.3430673718096114,
      "grad_norm": 0.7412607669830322,
      "learning_rate": 7.538114225799954e-05,
      "loss": 1.5505,
      "step": 373
    },
    {
      "epoch": 0.3439871234766613,
      "grad_norm": 0.7667213082313538,
      "learning_rate": 7.525431299287738e-05,
      "loss": 1.525,
      "step": 374
    },
    {
      "epoch": 0.3449068751437112,
      "grad_norm": 0.5956572890281677,
      "learning_rate": 7.51272652071043e-05,
      "loss": 1.5149,
      "step": 375
    },
    {
      "epoch": 0.3458266268107611,
      "grad_norm": 0.797289252281189,
      "learning_rate": 7.500000000000001e-05,
      "loss": 1.5407,
      "step": 376
    },
    {
      "epoch": 0.346746378477811,
      "grad_norm": 0.7374883890151978,
      "learning_rate": 7.48725184727656e-05,
      "loss": 1.5777,
      "step": 377
    },
    {
      "epoch": 0.34766613014486086,
      "grad_norm": 0.7943119406700134,
      "learning_rate": 7.47448217284739e-05,
      "loss": 1.5795,
      "step": 378
    },
    {
      "epoch": 0.3485858818119108,
      "grad_norm": 0.6397266387939453,
      "learning_rate": 7.461691087205993e-05,
      "loss": 1.5687,
      "step": 379
    },
    {
      "epoch": 0.3495056334789607,
      "grad_norm": 0.7197580337524414,
      "learning_rate": 7.448878701031142e-05,
      "loss": 1.4994,
      "step": 380
    },
    {
      "epoch": 0.35042538514601057,
      "grad_norm": 0.614570677280426,
      "learning_rate": 7.436045125185922e-05,
      "loss": 1.5185,
      "step": 381
    },
    {
      "epoch": 0.35134513681306045,
      "grad_norm": 0.766139566898346,
      "learning_rate": 7.423190470716761e-05,
      "loss": 1.5445,
      "step": 382
    },
    {
      "epoch": 0.3522648884801104,
      "grad_norm": 0.6843118667602539,
      "learning_rate": 7.410314848852483e-05,
      "loss": 1.4972,
      "step": 383
    },
    {
      "epoch": 0.3531846401471603,
      "grad_norm": 0.6766433119773865,
      "learning_rate": 7.397418371003333e-05,
      "loss": 1.4285,
      "step": 384
    },
    {
      "epoch": 0.35410439181421016,
      "grad_norm": 0.8003432154655457,
      "learning_rate": 7.384501148760024e-05,
      "loss": 1.5283,
      "step": 385
    },
    {
      "epoch": 0.35502414348126005,
      "grad_norm": 0.8524566888809204,
      "learning_rate": 7.371563293892761e-05,
      "loss": 1.4922,
      "step": 386
    },
    {
      "epoch": 0.35594389514830993,
      "grad_norm": 0.9243666529655457,
      "learning_rate": 7.358604918350288e-05,
      "loss": 1.4883,
      "step": 387
    },
    {
      "epoch": 0.35686364681535987,
      "grad_norm": 0.7275565266609192,
      "learning_rate": 7.345626134258898e-05,
      "loss": 1.4268,
      "step": 388
    },
    {
      "epoch": 0.35778339848240975,
      "grad_norm": 0.6936664581298828,
      "learning_rate": 7.332627053921482e-05,
      "loss": 1.3605,
      "step": 389
    },
    {
      "epoch": 0.35870315014945964,
      "grad_norm": 0.7576991319656372,
      "learning_rate": 7.319607789816555e-05,
      "loss": 1.4222,
      "step": 390
    },
    {
      "epoch": 0.3596229018165095,
      "grad_norm": 0.7377772331237793,
      "learning_rate": 7.306568454597269e-05,
      "loss": 1.4681,
      "step": 391
    },
    {
      "epoch": 0.36054265348355946,
      "grad_norm": 0.8987662196159363,
      "learning_rate": 7.293509161090452e-05,
      "loss": 1.4066,
      "step": 392
    },
    {
      "epoch": 0.36146240515060934,
      "grad_norm": 0.7513107061386108,
      "learning_rate": 7.280430022295631e-05,
      "loss": 1.4134,
      "step": 393
    },
    {
      "epoch": 0.36238215681765923,
      "grad_norm": 0.6676529049873352,
      "learning_rate": 7.267331151384039e-05,
      "loss": 1.4374,
      "step": 394
    },
    {
      "epoch": 0.3633019084847091,
      "grad_norm": 0.8300096988677979,
      "learning_rate": 7.254212661697659e-05,
      "loss": 1.3849,
      "step": 395
    },
    {
      "epoch": 0.36422166015175905,
      "grad_norm": 0.8758336901664734,
      "learning_rate": 7.241074666748227e-05,
      "loss": 1.3774,
      "step": 396
    },
    {
      "epoch": 0.36514141181880894,
      "grad_norm": 0.8264380693435669,
      "learning_rate": 7.227917280216254e-05,
      "loss": 1.3575,
      "step": 397
    },
    {
      "epoch": 0.3660611634858588,
      "grad_norm": 1.014760136604309,
      "learning_rate": 7.214740615950041e-05,
      "loss": 1.3026,
      "step": 398
    },
    {
      "epoch": 0.3669809151529087,
      "grad_norm": 0.8453448414802551,
      "learning_rate": 7.201544787964698e-05,
      "loss": 1.3114,
      "step": 399
    },
    {
      "epoch": 0.3679006668199586,
      "grad_norm": 1.1275343894958496,
      "learning_rate": 7.188329910441154e-05,
      "loss": 1.1734,
      "step": 400
    },
    {
      "epoch": 0.36882041848700853,
      "grad_norm": 2.2339935302734375,
      "learning_rate": 7.17509609772517e-05,
      "loss": 1.8776,
      "step": 401
    },
    {
      "epoch": 0.3697401701540584,
      "grad_norm": 1.5469164848327637,
      "learning_rate": 7.161843464326348e-05,
      "loss": 1.6876,
      "step": 402
    },
    {
      "epoch": 0.3706599218211083,
      "grad_norm": 1.2731298208236694,
      "learning_rate": 7.148572124917148e-05,
      "loss": 1.581,
      "step": 403
    },
    {
      "epoch": 0.3715796734881582,
      "grad_norm": 0.9135886430740356,
      "learning_rate": 7.13528219433188e-05,
      "loss": 1.5912,
      "step": 404
    },
    {
      "epoch": 0.3724994251552081,
      "grad_norm": 0.8309260606765747,
      "learning_rate": 7.121973787565726e-05,
      "loss": 1.5825,
      "step": 405
    },
    {
      "epoch": 0.373419176822258,
      "grad_norm": 0.8344767093658447,
      "learning_rate": 7.10864701977374e-05,
      "loss": 1.5724,
      "step": 406
    },
    {
      "epoch": 0.3743389284893079,
      "grad_norm": 0.8113982081413269,
      "learning_rate": 7.095302006269842e-05,
      "loss": 1.5899,
      "step": 407
    },
    {
      "epoch": 0.37525868015635777,
      "grad_norm": 0.8019097447395325,
      "learning_rate": 7.081938862525839e-05,
      "loss": 1.6347,
      "step": 408
    },
    {
      "epoch": 0.37617843182340766,
      "grad_norm": 0.7903069257736206,
      "learning_rate": 7.06855770417041e-05,
      "loss": 1.5924,
      "step": 409
    },
    {
      "epoch": 0.3770981834904576,
      "grad_norm": 0.7817911505699158,
      "learning_rate": 7.055158646988109e-05,
      "loss": 1.5705,
      "step": 410
    },
    {
      "epoch": 0.3780179351575075,
      "grad_norm": 0.7876037359237671,
      "learning_rate": 7.041741806918371e-05,
      "loss": 1.553,
      "step": 411
    },
    {
      "epoch": 0.37893768682455736,
      "grad_norm": 0.8235687017440796,
      "learning_rate": 7.028307300054499e-05,
      "loss": 1.5954,
      "step": 412
    },
    {
      "epoch": 0.37985743849160725,
      "grad_norm": 0.6427410244941711,
      "learning_rate": 7.014855242642662e-05,
      "loss": 1.5935,
      "step": 413
    },
    {
      "epoch": 0.3807771901586572,
      "grad_norm": 0.6327434182167053,
      "learning_rate": 7.001385751080894e-05,
      "loss": 1.5992,
      "step": 414
    },
    {
      "epoch": 0.38169694182570707,
      "grad_norm": 0.705020010471344,
      "learning_rate": 6.987898941918082e-05,
      "loss": 1.5326,
      "step": 415
    },
    {
      "epoch": 0.38261669349275695,
      "grad_norm": 0.6907270550727844,
      "learning_rate": 6.974394931852956e-05,
      "loss": 1.543,
      "step": 416
    },
    {
      "epoch": 0.38353644515980684,
      "grad_norm": 0.6643316745758057,
      "learning_rate": 6.960873837733088e-05,
      "loss": 1.501,
      "step": 417
    },
    {
      "epoch": 0.3844561968268567,
      "grad_norm": 0.6536545753479004,
      "learning_rate": 6.94733577655387e-05,
      "loss": 1.5498,
      "step": 418
    },
    {
      "epoch": 0.38537594849390666,
      "grad_norm": 0.7011268138885498,
      "learning_rate": 6.933780865457508e-05,
      "loss": 1.6318,
      "step": 419
    },
    {
      "epoch": 0.38629570016095655,
      "grad_norm": 0.6373593211174011,
      "learning_rate": 6.920209221732006e-05,
      "loss": 1.5523,
      "step": 420
    },
    {
      "epoch": 0.38721545182800643,
      "grad_norm": 0.5898979902267456,
      "learning_rate": 6.90662096281016e-05,
      "loss": 1.5695,
      "step": 421
    },
    {
      "epoch": 0.3881352034950563,
      "grad_norm": 0.6590458750724792,
      "learning_rate": 6.893016206268518e-05,
      "loss": 1.4721,
      "step": 422
    },
    {
      "epoch": 0.38905495516210625,
      "grad_norm": 0.6448785662651062,
      "learning_rate": 6.879395069826393e-05,
      "loss": 1.5485,
      "step": 423
    },
    {
      "epoch": 0.38997470682915614,
      "grad_norm": 0.648471474647522,
      "learning_rate": 6.865757671344827e-05,
      "loss": 1.5469,
      "step": 424
    },
    {
      "epoch": 0.390894458496206,
      "grad_norm": 0.8980266451835632,
      "learning_rate": 6.85210412882557e-05,
      "loss": 1.5831,
      "step": 425
    },
    {
      "epoch": 0.3918142101632559,
      "grad_norm": 0.6711221933364868,
      "learning_rate": 6.838434560410064e-05,
      "loss": 1.4341,
      "step": 426
    },
    {
      "epoch": 0.39273396183030584,
      "grad_norm": 0.8187699317932129,
      "learning_rate": 6.824749084378428e-05,
      "loss": 1.4696,
      "step": 427
    },
    {
      "epoch": 0.39365371349735573,
      "grad_norm": 0.8267800807952881,
      "learning_rate": 6.811047819148413e-05,
      "loss": 1.5041,
      "step": 428
    },
    {
      "epoch": 0.3945734651644056,
      "grad_norm": 0.764512300491333,
      "learning_rate": 6.797330883274403e-05,
      "loss": 1.4774,
      "step": 429
    },
    {
      "epoch": 0.3954932168314555,
      "grad_norm": 0.8012046813964844,
      "learning_rate": 6.783598395446371e-05,
      "loss": 1.4947,
      "step": 430
    },
    {
      "epoch": 0.3964129684985054,
      "grad_norm": 0.5986045598983765,
      "learning_rate": 6.769850474488859e-05,
      "loss": 1.5161,
      "step": 431
    },
    {
      "epoch": 0.3973327201655553,
      "grad_norm": 0.8222801685333252,
      "learning_rate": 6.756087239359947e-05,
      "loss": 1.4726,
      "step": 432
    },
    {
      "epoch": 0.3982524718326052,
      "grad_norm": 0.6513310670852661,
      "learning_rate": 6.742308809150232e-05,
      "loss": 1.4894,
      "step": 433
    },
    {
      "epoch": 0.3991722234996551,
      "grad_norm": 0.6340191960334778,
      "learning_rate": 6.728515303081781e-05,
      "loss": 1.4616,
      "step": 434
    },
    {
      "epoch": 0.40009197516670497,
      "grad_norm": 0.8488625288009644,
      "learning_rate": 6.714706840507121e-05,
      "loss": 1.4096,
      "step": 435
    },
    {
      "epoch": 0.4010117268337549,
      "grad_norm": 0.6022557020187378,
      "learning_rate": 6.700883540908184e-05,
      "loss": 1.4149,
      "step": 436
    },
    {
      "epoch": 0.4019314785008048,
      "grad_norm": 0.7043591141700745,
      "learning_rate": 6.687045523895293e-05,
      "loss": 1.492,
      "step": 437
    },
    {
      "epoch": 0.4028512301678547,
      "grad_norm": 0.8003234267234802,
      "learning_rate": 6.673192909206108e-05,
      "loss": 1.3878,
      "step": 438
    },
    {
      "epoch": 0.40377098183490456,
      "grad_norm": 0.6873340010643005,
      "learning_rate": 6.659325816704611e-05,
      "loss": 1.4326,
      "step": 439
    },
    {
      "epoch": 0.40469073350195445,
      "grad_norm": 0.673957884311676,
      "learning_rate": 6.64544436638005e-05,
      "loss": 1.4086,
      "step": 440
    },
    {
      "epoch": 0.4056104851690044,
      "grad_norm": 0.7485764026641846,
      "learning_rate": 6.63154867834591e-05,
      "loss": 1.3967,
      "step": 441
    },
    {
      "epoch": 0.40653023683605427,
      "grad_norm": 0.6807146072387695,
      "learning_rate": 6.617638872838874e-05,
      "loss": 1.3429,
      "step": 442
    },
    {
      "epoch": 0.40744998850310415,
      "grad_norm": 0.6480006575584412,
      "learning_rate": 6.603715070217778e-05,
      "loss": 1.3968,
      "step": 443
    },
    {
      "epoch": 0.40836974017015404,
      "grad_norm": 0.7995392084121704,
      "learning_rate": 6.589777390962575e-05,
      "loss": 1.4309,
      "step": 444
    },
    {
      "epoch": 0.409289491837204,
      "grad_norm": 0.7234594821929932,
      "learning_rate": 6.57582595567329e-05,
      "loss": 1.2972,
      "step": 445
    },
    {
      "epoch": 0.41020924350425386,
      "grad_norm": 0.9040266871452332,
      "learning_rate": 6.561860885068972e-05,
      "loss": 1.3339,
      "step": 446
    },
    {
      "epoch": 0.41112899517130375,
      "grad_norm": 0.8719410300254822,
      "learning_rate": 6.547882299986658e-05,
      "loss": 1.2914,
      "step": 447
    },
    {
      "epoch": 0.41204874683835363,
      "grad_norm": 0.964036226272583,
      "learning_rate": 6.533890321380319e-05,
      "loss": 1.2348,
      "step": 448
    },
    {
      "epoch": 0.4129684985054035,
      "grad_norm": 1.0289238691329956,
      "learning_rate": 6.519885070319827e-05,
      "loss": 1.1747,
      "step": 449
    },
    {
      "epoch": 0.41388825017245345,
      "grad_norm": 1.0722767114639282,
      "learning_rate": 6.505866667989884e-05,
      "loss": 1.1749,
      "step": 450
    },
    {
      "epoch": 0.41388825017245345,
      "eval_loss": 1.5185648202896118,
      "eval_runtime": 49.961,
      "eval_samples_per_second": 164.929,
      "eval_steps_per_second": 20.616,
      "step": 450
    },
    {
      "epoch": 0.41480800183950334,
      "grad_norm": 2.0002212524414062,
      "learning_rate": 6.491835235689e-05,
      "loss": 1.8527,
      "step": 451
    },
    {
      "epoch": 0.4157277535065532,
      "grad_norm": 1.7632036209106445,
      "learning_rate": 6.477790894828421e-05,
      "loss": 1.6736,
      "step": 452
    },
    {
      "epoch": 0.4166475051736031,
      "grad_norm": 1.2842786312103271,
      "learning_rate": 6.463733766931095e-05,
      "loss": 1.6531,
      "step": 453
    },
    {
      "epoch": 0.41756725684065304,
      "grad_norm": 0.9530149698257446,
      "learning_rate": 6.449663973630613e-05,
      "loss": 1.5728,
      "step": 454
    },
    {
      "epoch": 0.41848700850770293,
      "grad_norm": 0.9490489363670349,
      "learning_rate": 6.435581636670154e-05,
      "loss": 1.458,
      "step": 455
    },
    {
      "epoch": 0.4194067601747528,
      "grad_norm": 0.9226535558700562,
      "learning_rate": 6.421486877901437e-05,
      "loss": 1.477,
      "step": 456
    },
    {
      "epoch": 0.4203265118418027,
      "grad_norm": 0.7617946267127991,
      "learning_rate": 6.407379819283661e-05,
      "loss": 1.4929,
      "step": 457
    },
    {
      "epoch": 0.42124626350885264,
      "grad_norm": 0.7731391787528992,
      "learning_rate": 6.39326058288246e-05,
      "loss": 1.5828,
      "step": 458
    },
    {
      "epoch": 0.4221660151759025,
      "grad_norm": 0.8461527824401855,
      "learning_rate": 6.379129290868837e-05,
      "loss": 1.558,
      "step": 459
    },
    {
      "epoch": 0.4230857668429524,
      "grad_norm": 0.8030949234962463,
      "learning_rate": 6.364986065518106e-05,
      "loss": 1.5026,
      "step": 460
    },
    {
      "epoch": 0.4240055185100023,
      "grad_norm": 0.9712105989456177,
      "learning_rate": 6.350831029208844e-05,
      "loss": 1.5603,
      "step": 461
    },
    {
      "epoch": 0.4249252701770522,
      "grad_norm": 0.936730146408081,
      "learning_rate": 6.336664304421818e-05,
      "loss": 1.5037,
      "step": 462
    },
    {
      "epoch": 0.4258450218441021,
      "grad_norm": 0.6644638776779175,
      "learning_rate": 6.322486013738942e-05,
      "loss": 1.5632,
      "step": 463
    },
    {
      "epoch": 0.426764773511152,
      "grad_norm": 0.8889780044555664,
      "learning_rate": 6.308296279842205e-05,
      "loss": 1.5392,
      "step": 464
    },
    {
      "epoch": 0.4276845251782019,
      "grad_norm": 0.771960973739624,
      "learning_rate": 6.294095225512603e-05,
      "loss": 1.5013,
      "step": 465
    },
    {
      "epoch": 0.42860427684525176,
      "grad_norm": 0.7682729363441467,
      "learning_rate": 6.2798829736291e-05,
      "loss": 1.4829,
      "step": 466
    },
    {
      "epoch": 0.4295240285123017,
      "grad_norm": 0.9224911332130432,
      "learning_rate": 6.265659647167543e-05,
      "loss": 1.5283,
      "step": 467
    },
    {
      "epoch": 0.4304437801793516,
      "grad_norm": 0.7462615370750427,
      "learning_rate": 6.251425369199599e-05,
      "loss": 1.4762,
      "step": 468
    },
    {
      "epoch": 0.43136353184640147,
      "grad_norm": 0.7566426396369934,
      "learning_rate": 6.237180262891708e-05,
      "loss": 1.5537,
      "step": 469
    },
    {
      "epoch": 0.43228328351345136,
      "grad_norm": 0.7278396487236023,
      "learning_rate": 6.222924451504001e-05,
      "loss": 1.4805,
      "step": 470
    },
    {
      "epoch": 0.43320303518050124,
      "grad_norm": 0.6063376069068909,
      "learning_rate": 6.208658058389231e-05,
      "loss": 1.5403,
      "step": 471
    },
    {
      "epoch": 0.4341227868475512,
      "grad_norm": 0.7265048623085022,
      "learning_rate": 6.194381206991722e-05,
      "loss": 1.5131,
      "step": 472
    },
    {
      "epoch": 0.43504253851460106,
      "grad_norm": 0.6536186933517456,
      "learning_rate": 6.180094020846291e-05,
      "loss": 1.4777,
      "step": 473
    },
    {
      "epoch": 0.43596229018165095,
      "grad_norm": 0.6153502464294434,
      "learning_rate": 6.165796623577171e-05,
      "loss": 1.4592,
      "step": 474
    },
    {
      "epoch": 0.43688204184870083,
      "grad_norm": 0.7638461589813232,
      "learning_rate": 6.15148913889696e-05,
      "loss": 1.5779,
      "step": 475
    },
    {
      "epoch": 0.43780179351575077,
      "grad_norm": 0.755756139755249,
      "learning_rate": 6.137171690605533e-05,
      "loss": 1.5246,
      "step": 476
    },
    {
      "epoch": 0.43872154518280065,
      "grad_norm": 0.5608311295509338,
      "learning_rate": 6.122844402588982e-05,
      "loss": 1.4824,
      "step": 477
    },
    {
      "epoch": 0.43964129684985054,
      "grad_norm": 0.7992551922798157,
      "learning_rate": 6.10850739881854e-05,
      "loss": 1.4434,
      "step": 478
    },
    {
      "epoch": 0.4405610485169004,
      "grad_norm": 0.6986256241798401,
      "learning_rate": 6.094160803349508e-05,
      "loss": 1.4313,
      "step": 479
    },
    {
      "epoch": 0.4414808001839503,
      "grad_norm": 0.6461309790611267,
      "learning_rate": 6.079804740320181e-05,
      "loss": 1.4743,
      "step": 480
    },
    {
      "epoch": 0.44240055185100025,
      "grad_norm": 0.7250984311103821,
      "learning_rate": 6.0654393339507753e-05,
      "loss": 1.4551,
      "step": 481
    },
    {
      "epoch": 0.44332030351805013,
      "grad_norm": 0.6796169281005859,
      "learning_rate": 6.051064708542357e-05,
      "loss": 1.485,
      "step": 482
    },
    {
      "epoch": 0.4442400551851,
      "grad_norm": 0.7773648500442505,
      "learning_rate": 6.0366809884757556e-05,
      "loss": 1.4153,
      "step": 483
    },
    {
      "epoch": 0.4451598068521499,
      "grad_norm": 0.9285596609115601,
      "learning_rate": 6.022288298210501e-05,
      "loss": 1.4624,
      "step": 484
    },
    {
      "epoch": 0.44607955851919984,
      "grad_norm": 0.7707833051681519,
      "learning_rate": 6.0078867622837395e-05,
      "loss": 1.431,
      "step": 485
    },
    {
      "epoch": 0.4469993101862497,
      "grad_norm": 0.9251638650894165,
      "learning_rate": 5.993476505309155e-05,
      "loss": 1.406,
      "step": 486
    },
    {
      "epoch": 0.4479190618532996,
      "grad_norm": 0.7242058515548706,
      "learning_rate": 5.979057651975892e-05,
      "loss": 1.3418,
      "step": 487
    },
    {
      "epoch": 0.4488388135203495,
      "grad_norm": 0.6925553679466248,
      "learning_rate": 5.9646303270474845e-05,
      "loss": 1.3463,
      "step": 488
    },
    {
      "epoch": 0.44975856518739943,
      "grad_norm": 0.779308021068573,
      "learning_rate": 5.9501946553607615e-05,
      "loss": 1.3228,
      "step": 489
    },
    {
      "epoch": 0.4506783168544493,
      "grad_norm": 0.750455379486084,
      "learning_rate": 5.9357507618247764e-05,
      "loss": 1.3406,
      "step": 490
    },
    {
      "epoch": 0.4515980685214992,
      "grad_norm": 0.7992476224899292,
      "learning_rate": 5.921298771419731e-05,
      "loss": 1.375,
      "step": 491
    },
    {
      "epoch": 0.4525178201885491,
      "grad_norm": 0.7606462240219116,
      "learning_rate": 5.9068388091958795e-05,
      "loss": 1.3066,
      "step": 492
    },
    {
      "epoch": 0.45343757185559896,
      "grad_norm": 0.651400625705719,
      "learning_rate": 5.8923710002724594e-05,
      "loss": 1.3312,
      "step": 493
    },
    {
      "epoch": 0.4543573235226489,
      "grad_norm": 0.7911424040794373,
      "learning_rate": 5.877895469836604e-05,
      "loss": 1.3228,
      "step": 494
    },
    {
      "epoch": 0.4552770751896988,
      "grad_norm": 0.8071415424346924,
      "learning_rate": 5.863412343142258e-05,
      "loss": 1.3149,
      "step": 495
    },
    {
      "epoch": 0.45619682685674867,
      "grad_norm": 1.001132845878601,
      "learning_rate": 5.848921745509094e-05,
      "loss": 1.2951,
      "step": 496
    },
    {
      "epoch": 0.45711657852379856,
      "grad_norm": 0.9951808452606201,
      "learning_rate": 5.834423802321431e-05,
      "loss": 1.2331,
      "step": 497
    },
    {
      "epoch": 0.4580363301908485,
      "grad_norm": 0.9824991822242737,
      "learning_rate": 5.8199186390271486e-05,
      "loss": 1.2146,
      "step": 498
    },
    {
      "epoch": 0.4589560818578984,
      "grad_norm": 1.3014886379241943,
      "learning_rate": 5.805406381136598e-05,
      "loss": 1.2247,
      "step": 499
    },
    {
      "epoch": 0.45987583352494826,
      "grad_norm": 1.4302425384521484,
      "learning_rate": 5.79088715422152e-05,
      "loss": 1.047,
      "step": 500
    },
    {
      "epoch": 0.46079558519199815,
      "grad_norm": 1.9563382863998413,
      "learning_rate": 5.7763610839139594e-05,
      "loss": 1.6971,
      "step": 501
    },
    {
      "epoch": 0.46171533685904803,
      "grad_norm": 1.5344587564468384,
      "learning_rate": 5.761828295905169e-05,
      "loss": 1.6824,
      "step": 502
    },
    {
      "epoch": 0.46263508852609797,
      "grad_norm": 1.1466830968856812,
      "learning_rate": 5.747288915944533e-05,
      "loss": 1.5384,
      "step": 503
    },
    {
      "epoch": 0.46355484019314785,
      "grad_norm": 1.1582822799682617,
      "learning_rate": 5.7327430698384775e-05,
      "loss": 1.6326,
      "step": 504
    },
    {
      "epoch": 0.46447459186019774,
      "grad_norm": 1.1693201065063477,
      "learning_rate": 5.7181908834493726e-05,
      "loss": 1.5041,
      "step": 505
    },
    {
      "epoch": 0.4653943435272476,
      "grad_norm": 0.9729719758033752,
      "learning_rate": 5.703632482694453e-05,
      "loss": 1.5669,
      "step": 506
    },
    {
      "epoch": 0.46631409519429756,
      "grad_norm": 0.9684829115867615,
      "learning_rate": 5.689067993544725e-05,
      "loss": 1.5907,
      "step": 507
    },
    {
      "epoch": 0.46723384686134745,
      "grad_norm": 0.8785848021507263,
      "learning_rate": 5.6744975420238745e-05,
      "loss": 1.4962,
      "step": 508
    },
    {
      "epoch": 0.46815359852839733,
      "grad_norm": 0.7249252796173096,
      "learning_rate": 5.6599212542071824e-05,
      "loss": 1.5372,
      "step": 509
    },
    {
      "epoch": 0.4690733501954472,
      "grad_norm": 0.9696371555328369,
      "learning_rate": 5.645339256220426e-05,
      "loss": 1.4834,
      "step": 510
    },
    {
      "epoch": 0.46999310186249715,
      "grad_norm": 0.9309729933738708,
      "learning_rate": 5.6307516742387955e-05,
      "loss": 1.6006,
      "step": 511
    },
    {
      "epoch": 0.47091285352954704,
      "grad_norm": 0.8194191455841064,
      "learning_rate": 5.616158634485793e-05,
      "loss": 1.5423,
      "step": 512
    },
    {
      "epoch": 0.4718326051965969,
      "grad_norm": 0.8985216617584229,
      "learning_rate": 5.601560263232153e-05,
      "loss": 1.4869,
      "step": 513
    },
    {
      "epoch": 0.4727523568636468,
      "grad_norm": 0.8546054363250732,
      "learning_rate": 5.586956686794734e-05,
      "loss": 1.5534,
      "step": 514
    },
    {
      "epoch": 0.4736721085306967,
      "grad_norm": 0.7134532332420349,
      "learning_rate": 5.572348031535441e-05,
      "loss": 1.465,
      "step": 515
    },
    {
      "epoch": 0.47459186019774663,
      "grad_norm": 0.6382752656936646,
      "learning_rate": 5.557734423860123e-05,
      "loss": 1.4897,
      "step": 516
    },
    {
      "epoch": 0.4755116118647965,
      "grad_norm": 0.8380042314529419,
      "learning_rate": 5.543115990217478e-05,
      "loss": 1.4646,
      "step": 517
    },
    {
      "epoch": 0.4764313635318464,
      "grad_norm": 0.8848815560340881,
      "learning_rate": 5.528492857097966e-05,
      "loss": 1.4903,
      "step": 518
    },
    {
      "epoch": 0.4773511151988963,
      "grad_norm": 0.6244109272956848,
      "learning_rate": 5.5138651510327085e-05,
      "loss": 1.5031,
      "step": 519
    },
    {
      "epoch": 0.4782708668659462,
      "grad_norm": 0.8367244601249695,
      "learning_rate": 5.499232998592399e-05,
      "loss": 1.4978,
      "step": 520
    },
    {
      "epoch": 0.4791906185329961,
      "grad_norm": 0.7362543344497681,
      "learning_rate": 5.484596526386198e-05,
      "loss": 1.529,
      "step": 521
    },
    {
      "epoch": 0.480110370200046,
      "grad_norm": 0.579655647277832,
      "learning_rate": 5.469955861060653e-05,
      "loss": 1.4446,
      "step": 522
    },
    {
      "epoch": 0.4810301218670959,
      "grad_norm": 0.7875382304191589,
      "learning_rate": 5.455311129298586e-05,
      "loss": 1.505,
      "step": 523
    },
    {
      "epoch": 0.48194987353414576,
      "grad_norm": 0.7048112154006958,
      "learning_rate": 5.4406624578180096e-05,
      "loss": 1.4612,
      "step": 524
    },
    {
      "epoch": 0.4828696252011957,
      "grad_norm": 0.6148046255111694,
      "learning_rate": 5.4260099733710255e-05,
      "loss": 1.4871,
      "step": 525
    },
    {
      "epoch": 0.4837893768682456,
      "grad_norm": 0.7813459038734436,
      "learning_rate": 5.4113538027427245e-05,
      "loss": 1.431,
      "step": 526
    },
    {
      "epoch": 0.48470912853529546,
      "grad_norm": 0.6388234496116638,
      "learning_rate": 5.396694072750099e-05,
      "loss": 1.4811,
      "step": 527
    },
    {
      "epoch": 0.48562888020234535,
      "grad_norm": 0.5977755784988403,
      "learning_rate": 5.382030910240936e-05,
      "loss": 1.4302,
      "step": 528
    },
    {
      "epoch": 0.4865486318693953,
      "grad_norm": 0.6440762281417847,
      "learning_rate": 5.367364442092724e-05,
      "loss": 1.4468,
      "step": 529
    },
    {
      "epoch": 0.48746838353644517,
      "grad_norm": 0.68966144323349,
      "learning_rate": 5.352694795211555e-05,
      "loss": 1.4563,
      "step": 530
    },
    {
      "epoch": 0.48838813520349506,
      "grad_norm": 0.682101845741272,
      "learning_rate": 5.338022096531028e-05,
      "loss": 1.4953,
      "step": 531
    },
    {
      "epoch": 0.48930788687054494,
      "grad_norm": 0.5871472954750061,
      "learning_rate": 5.3233464730111426e-05,
      "loss": 1.4285,
      "step": 532
    },
    {
      "epoch": 0.4902276385375948,
      "grad_norm": 0.60948246717453,
      "learning_rate": 5.308668051637212e-05,
      "loss": 1.4083,
      "step": 533
    },
    {
      "epoch": 0.49114739020464476,
      "grad_norm": 0.7118504047393799,
      "learning_rate": 5.2939869594187595e-05,
      "loss": 1.4257,
      "step": 534
    },
    {
      "epoch": 0.49206714187169465,
      "grad_norm": 0.6763386726379395,
      "learning_rate": 5.2793033233884124e-05,
      "loss": 1.3886,
      "step": 535
    },
    {
      "epoch": 0.49298689353874453,
      "grad_norm": 0.6314605474472046,
      "learning_rate": 5.2646172706008156e-05,
      "loss": 1.3105,
      "step": 536
    },
    {
      "epoch": 0.4939066452057944,
      "grad_norm": 0.7385772466659546,
      "learning_rate": 5.249928928131523e-05,
      "loss": 1.3189,
      "step": 537
    },
    {
      "epoch": 0.49482639687284435,
      "grad_norm": 0.6615415811538696,
      "learning_rate": 5.235238423075899e-05,
      "loss": 1.3235,
      "step": 538
    },
    {
      "epoch": 0.49574614853989424,
      "grad_norm": 0.6805823445320129,
      "learning_rate": 5.220545882548023e-05,
      "loss": 1.3938,
      "step": 539
    },
    {
      "epoch": 0.4966659002069441,
      "grad_norm": 0.8164578676223755,
      "learning_rate": 5.205851433679589e-05,
      "loss": 1.329,
      "step": 540
    },
    {
      "epoch": 0.497585651873994,
      "grad_norm": 0.7139110565185547,
      "learning_rate": 5.191155203618796e-05,
      "loss": 1.2914,
      "step": 541
    },
    {
      "epoch": 0.49850540354104395,
      "grad_norm": 0.6411809921264648,
      "learning_rate": 5.176457319529263e-05,
      "loss": 1.3289,
      "step": 542
    },
    {
      "epoch": 0.49942515520809383,
      "grad_norm": 0.639995813369751,
      "learning_rate": 5.161757908588917e-05,
      "loss": 1.2874,
      "step": 543
    },
    {
      "epoch": 0.5003449068751437,
      "grad_norm": 0.6557344794273376,
      "learning_rate": 5.1470570979888973e-05,
      "loss": 1.3043,
      "step": 544
    },
    {
      "epoch": 0.5012646585421936,
      "grad_norm": 0.7925935387611389,
      "learning_rate": 5.132355014932455e-05,
      "loss": 1.2978,
      "step": 545
    },
    {
      "epoch": 0.5021844102092435,
      "grad_norm": 0.7339189052581787,
      "learning_rate": 5.117651786633849e-05,
      "loss": 1.2996,
      "step": 546
    },
    {
      "epoch": 0.5031041618762934,
      "grad_norm": 0.805228054523468,
      "learning_rate": 5.102947540317253e-05,
      "loss": 1.2458,
      "step": 547
    },
    {
      "epoch": 0.5040239135433433,
      "grad_norm": 0.7840575575828552,
      "learning_rate": 5.088242403215644e-05,
      "loss": 1.253,
      "step": 548
    },
    {
      "epoch": 0.5049436652103932,
      "grad_norm": 1.0337337255477905,
      "learning_rate": 5.073536502569708e-05,
      "loss": 1.1262,
      "step": 549
    },
    {
      "epoch": 0.5058634168774431,
      "grad_norm": 1.2608665227890015,
      "learning_rate": 5.0588299656267414e-05,
      "loss": 1.022,
      "step": 550
    },
    {
      "epoch": 0.506783168544493,
      "grad_norm": 1.6019068956375122,
      "learning_rate": 5.044122919639541e-05,
      "loss": 1.6294,
      "step": 551
    },
    {
      "epoch": 0.5077029202115428,
      "grad_norm": 1.4624245166778564,
      "learning_rate": 5.029415491865311e-05,
      "loss": 1.6211,
      "step": 552
    },
    {
      "epoch": 0.5086226718785928,
      "grad_norm": 1.249880075454712,
      "learning_rate": 5.014707809564562e-05,
      "loss": 1.5335,
      "step": 553
    },
    {
      "epoch": 0.5095424235456427,
      "grad_norm": 1.1160420179367065,
      "learning_rate": 5e-05,
      "loss": 1.5818,
      "step": 554
    },
    {
      "epoch": 0.5104621752126925,
      "grad_norm": 0.9601331353187561,
      "learning_rate": 4.98529219043544e-05,
      "loss": 1.5011,
      "step": 555
    },
    {
      "epoch": 0.5113819268797425,
      "grad_norm": 0.9078472852706909,
      "learning_rate": 4.9705845081346894e-05,
      "loss": 1.4804,
      "step": 556
    },
    {
      "epoch": 0.5123016785467923,
      "grad_norm": 1.0430097579956055,
      "learning_rate": 4.9558770803604614e-05,
      "loss": 1.5421,
      "step": 557
    },
    {
      "epoch": 0.5132214302138423,
      "grad_norm": 0.9206668138504028,
      "learning_rate": 4.94117003437326e-05,
      "loss": 1.5167,
      "step": 558
    },
    {
      "epoch": 0.5141411818808922,
      "grad_norm": 0.7888804078102112,
      "learning_rate": 4.926463497430293e-05,
      "loss": 1.4761,
      "step": 559
    },
    {
      "epoch": 0.515060933547942,
      "grad_norm": 0.7101994752883911,
      "learning_rate": 4.911757596784357e-05,
      "loss": 1.4642,
      "step": 560
    },
    {
      "epoch": 0.515980685214992,
      "grad_norm": 0.8613134026527405,
      "learning_rate": 4.8970524596827486e-05,
      "loss": 1.5374,
      "step": 561
    },
    {
      "epoch": 0.5169004368820419,
      "grad_norm": 0.7729939222335815,
      "learning_rate": 4.8823482133661516e-05,
      "loss": 1.4959,
      "step": 562
    },
    {
      "epoch": 0.5178201885490917,
      "grad_norm": 0.9063132405281067,
      "learning_rate": 4.8676449850675475e-05,
      "loss": 1.5057,
      "step": 563
    },
    {
      "epoch": 0.5187399402161417,
      "grad_norm": 0.9306026697158813,
      "learning_rate": 4.852942902011103e-05,
      "loss": 1.5544,
      "step": 564
    },
    {
      "epoch": 0.5196596918831915,
      "grad_norm": 0.763334333896637,
      "learning_rate": 4.838242091411084e-05,
      "loss": 1.4385,
      "step": 565
    },
    {
      "epoch": 0.5205794435502414,
      "grad_norm": 0.7051974534988403,
      "learning_rate": 4.823542680470738e-05,
      "loss": 1.4612,
      "step": 566
    },
    {
      "epoch": 0.5214991952172914,
      "grad_norm": 0.7262412905693054,
      "learning_rate": 4.808844796381205e-05,
      "loss": 1.4366,
      "step": 567
    },
    {
      "epoch": 0.5224189468843412,
      "grad_norm": 0.7530311346054077,
      "learning_rate": 4.7941485663204125e-05,
      "loss": 1.4883,
      "step": 568
    },
    {
      "epoch": 0.5233386985513911,
      "grad_norm": 0.653555691242218,
      "learning_rate": 4.779454117451977e-05,
      "loss": 1.3767,
      "step": 569
    },
    {
      "epoch": 0.524258450218441,
      "grad_norm": 0.7212573289871216,
      "learning_rate": 4.7647615769241e-05,
      "loss": 1.3811,
      "step": 570
    },
    {
      "epoch": 0.5251782018854909,
      "grad_norm": 0.7534743547439575,
      "learning_rate": 4.750071071868478e-05,
      "loss": 1.4899,
      "step": 571
    },
    {
      "epoch": 0.5260979535525409,
      "grad_norm": 0.6205776333808899,
      "learning_rate": 4.735382729399184e-05,
      "loss": 1.4294,
      "step": 572
    },
    {
      "epoch": 0.5270177052195907,
      "grad_norm": 0.6632286906242371,
      "learning_rate": 4.720696676611589e-05,
      "loss": 1.4939,
      "step": 573
    },
    {
      "epoch": 0.5279374568866406,
      "grad_norm": 0.7253984808921814,
      "learning_rate": 4.706013040581242e-05,
      "loss": 1.4342,
      "step": 574
    },
    {
      "epoch": 0.5288572085536904,
      "grad_norm": 0.7158737778663635,
      "learning_rate": 4.691331948362789e-05,
      "loss": 1.4718,
      "step": 575
    },
    {
      "epoch": 0.5297769602207404,
      "grad_norm": 0.6117165088653564,
      "learning_rate": 4.676653526988858e-05,
      "loss": 1.4828,
      "step": 576
    },
    {
      "epoch": 0.5306967118877903,
      "grad_norm": 0.6031986474990845,
      "learning_rate": 4.661977903468974e-05,
      "loss": 1.4493,
      "step": 577
    },
    {
      "epoch": 0.5316164635548402,
      "grad_norm": 0.6613805890083313,
      "learning_rate": 4.647305204788445e-05,
      "loss": 1.4419,
      "step": 578
    },
    {
      "epoch": 0.5325362152218901,
      "grad_norm": 0.6349487900733948,
      "learning_rate": 4.632635557907277e-05,
      "loss": 1.4213,
      "step": 579
    },
    {
      "epoch": 0.53345596688894,
      "grad_norm": 0.5844326019287109,
      "learning_rate": 4.617969089759066e-05,
      "loss": 1.4505,
      "step": 580
    },
    {
      "epoch": 0.5343757185559899,
      "grad_norm": 0.7105299234390259,
      "learning_rate": 4.603305927249902e-05,
      "loss": 1.3974,
      "step": 581
    },
    {
      "epoch": 0.5352954702230398,
      "grad_norm": 0.7277695536613464,
      "learning_rate": 4.588646197257277e-05,
      "loss": 1.371,
      "step": 582
    },
    {
      "epoch": 0.5362152218900896,
      "grad_norm": 0.6246547698974609,
      "learning_rate": 4.5739900266289756e-05,
      "loss": 1.3747,
      "step": 583
    },
    {
      "epoch": 0.5371349735571396,
      "grad_norm": 0.918038547039032,
      "learning_rate": 4.559337542181993e-05,
      "loss": 1.3068,
      "step": 584
    },
    {
      "epoch": 0.5380547252241895,
      "grad_norm": 0.7304350733757019,
      "learning_rate": 4.544688870701415e-05,
      "loss": 1.3496,
      "step": 585
    },
    {
      "epoch": 0.5389744768912393,
      "grad_norm": 0.6852339506149292,
      "learning_rate": 4.53004413893935e-05,
      "loss": 1.3327,
      "step": 586
    },
    {
      "epoch": 0.5398942285582893,
      "grad_norm": 0.7337968349456787,
      "learning_rate": 4.515403473613803e-05,
      "loss": 1.3756,
      "step": 587
    },
    {
      "epoch": 0.5408139802253391,
      "grad_norm": 0.7710087895393372,
      "learning_rate": 4.5007670014076045e-05,
      "loss": 1.3611,
      "step": 588
    },
    {
      "epoch": 0.541733731892389,
      "grad_norm": 0.6107405424118042,
      "learning_rate": 4.486134848967292e-05,
      "loss": 1.312,
      "step": 589
    },
    {
      "epoch": 0.542653483559439,
      "grad_norm": 0.7013472318649292,
      "learning_rate": 4.471507142902036e-05,
      "loss": 1.3194,
      "step": 590
    },
    {
      "epoch": 0.5435732352264888,
      "grad_norm": 0.8323330283164978,
      "learning_rate": 4.4568840097825226e-05,
      "loss": 1.2888,
      "step": 591
    },
    {
      "epoch": 0.5444929868935388,
      "grad_norm": 0.6520772576332092,
      "learning_rate": 4.442265576139878e-05,
      "loss": 1.2347,
      "step": 592
    },
    {
      "epoch": 0.5454127385605887,
      "grad_norm": 0.7573135495185852,
      "learning_rate": 4.4276519684645585e-05,
      "loss": 1.316,
      "step": 593
    },
    {
      "epoch": 0.5463324902276385,
      "grad_norm": 0.7183561325073242,
      "learning_rate": 4.4130433132052664e-05,
      "loss": 1.2999,
      "step": 594
    },
    {
      "epoch": 0.5472522418946885,
      "grad_norm": 0.8150544762611389,
      "learning_rate": 4.398439736767847e-05,
      "loss": 1.2111,
      "step": 595
    },
    {
      "epoch": 0.5481719935617383,
      "grad_norm": 0.8062061071395874,
      "learning_rate": 4.383841365514208e-05,
      "loss": 1.2231,
      "step": 596
    },
    {
      "epoch": 0.5490917452287882,
      "grad_norm": 0.8277079463005066,
      "learning_rate": 4.369248325761205e-05,
      "loss": 1.2266,
      "step": 597
    },
    {
      "epoch": 0.5500114968958382,
      "grad_norm": 1.1290823221206665,
      "learning_rate": 4.354660743779574e-05,
      "loss": 1.1825,
      "step": 598
    },
    {
      "epoch": 0.550931248562888,
      "grad_norm": 1.0019193887710571,
      "learning_rate": 4.340078745792818e-05,
      "loss": 1.103,
      "step": 599
    },
    {
      "epoch": 0.5518510002299379,
      "grad_norm": 1.0963555574417114,
      "learning_rate": 4.325502457976126e-05,
      "loss": 1.031,
      "step": 600
    },
    {
      "epoch": 0.5518510002299379,
      "eval_loss": 1.4310619831085205,
      "eval_runtime": 49.9435,
      "eval_samples_per_second": 164.986,
      "eval_steps_per_second": 20.623,
      "step": 600
    },
    {
      "epoch": 0.5527707518969878,
      "grad_norm": 1.6411505937576294,
      "learning_rate": 4.310932006455276e-05,
      "loss": 1.6187,
      "step": 601
    },
    {
      "epoch": 0.5536905035640377,
      "grad_norm": 1.455959677696228,
      "learning_rate": 4.296367517305549e-05,
      "loss": 1.5665,
      "step": 602
    },
    {
      "epoch": 0.5546102552310876,
      "grad_norm": 1.3301597833633423,
      "learning_rate": 4.281809116550629e-05,
      "loss": 1.5417,
      "step": 603
    },
    {
      "epoch": 0.5555300068981375,
      "grad_norm": 1.0796560049057007,
      "learning_rate": 4.267256930161523e-05,
      "loss": 1.5482,
      "step": 604
    },
    {
      "epoch": 0.5564497585651874,
      "grad_norm": 0.842844545841217,
      "learning_rate": 4.252711084055467e-05,
      "loss": 1.4583,
      "step": 605
    },
    {
      "epoch": 0.5573695102322372,
      "grad_norm": 0.7908689379692078,
      "learning_rate": 4.2381717040948325e-05,
      "loss": 1.4621,
      "step": 606
    },
    {
      "epoch": 0.5582892618992872,
      "grad_norm": 0.9240807890892029,
      "learning_rate": 4.223638916086043e-05,
      "loss": 1.4843,
      "step": 607
    },
    {
      "epoch": 0.5592090135663371,
      "grad_norm": 0.9389266967773438,
      "learning_rate": 4.209112845778481e-05,
      "loss": 1.4186,
      "step": 608
    },
    {
      "epoch": 0.560128765233387,
      "grad_norm": 0.7683906555175781,
      "learning_rate": 4.194593618863404e-05,
      "loss": 1.4541,
      "step": 609
    },
    {
      "epoch": 0.5610485169004369,
      "grad_norm": 0.6913854479789734,
      "learning_rate": 4.1800813609728526e-05,
      "loss": 1.4815,
      "step": 610
    },
    {
      "epoch": 0.5619682685674868,
      "grad_norm": 0.7714055776596069,
      "learning_rate": 4.1655761976785705e-05,
      "loss": 1.4577,
      "step": 611
    },
    {
      "epoch": 0.5628880202345367,
      "grad_norm": 0.7735984921455383,
      "learning_rate": 4.1510782544909075e-05,
      "loss": 1.5057,
      "step": 612
    },
    {
      "epoch": 0.5638077719015866,
      "grad_norm": 0.8532646298408508,
      "learning_rate": 4.136587656857744e-05,
      "loss": 1.4917,
      "step": 613
    },
    {
      "epoch": 0.5647275235686364,
      "grad_norm": 0.7896936535835266,
      "learning_rate": 4.122104530163397e-05,
      "loss": 1.5009,
      "step": 614
    },
    {
      "epoch": 0.5656472752356864,
      "grad_norm": 0.6928205490112305,
      "learning_rate": 4.107628999727542e-05,
      "loss": 1.4733,
      "step": 615
    },
    {
      "epoch": 0.5665670269027363,
      "grad_norm": 0.728251576423645,
      "learning_rate": 4.09316119080412e-05,
      "loss": 1.4508,
      "step": 616
    },
    {
      "epoch": 0.5674867785697861,
      "grad_norm": 0.6070961356163025,
      "learning_rate": 4.078701228580269e-05,
      "loss": 1.5002,
      "step": 617
    },
    {
      "epoch": 0.5684065302368361,
      "grad_norm": 0.7009554505348206,
      "learning_rate": 4.064249238175223e-05,
      "loss": 1.5289,
      "step": 618
    },
    {
      "epoch": 0.5693262819038859,
      "grad_norm": 0.6865770220756531,
      "learning_rate": 4.0498053446392403e-05,
      "loss": 1.4876,
      "step": 619
    },
    {
      "epoch": 0.5702460335709358,
      "grad_norm": 0.6156379580497742,
      "learning_rate": 4.035369672952516e-05,
      "loss": 1.4032,
      "step": 620
    },
    {
      "epoch": 0.5711657852379858,
      "grad_norm": 0.5818307995796204,
      "learning_rate": 4.020942348024108e-05,
      "loss": 1.4421,
      "step": 621
    },
    {
      "epoch": 0.5720855369050356,
      "grad_norm": 0.5913554430007935,
      "learning_rate": 4.0065234946908456e-05,
      "loss": 1.4527,
      "step": 622
    },
    {
      "epoch": 0.5730052885720855,
      "grad_norm": 0.5924707651138306,
      "learning_rate": 3.992113237716261e-05,
      "loss": 1.4692,
      "step": 623
    },
    {
      "epoch": 0.5739250402391355,
      "grad_norm": 0.6369109749794006,
      "learning_rate": 3.977711701789499e-05,
      "loss": 1.4541,
      "step": 624
    },
    {
      "epoch": 0.5748447919061853,
      "grad_norm": 0.5432732701301575,
      "learning_rate": 3.9633190115242456e-05,
      "loss": 1.3981,
      "step": 625
    },
    {
      "epoch": 0.5757645435732353,
      "grad_norm": 0.6044031977653503,
      "learning_rate": 3.948935291457644e-05,
      "loss": 1.4086,
      "step": 626
    },
    {
      "epoch": 0.5766842952402851,
      "grad_norm": 0.5974178314208984,
      "learning_rate": 3.934560666049226e-05,
      "loss": 1.448,
      "step": 627
    },
    {
      "epoch": 0.577604046907335,
      "grad_norm": 0.6302614212036133,
      "learning_rate": 3.920195259679822e-05,
      "loss": 1.4095,
      "step": 628
    },
    {
      "epoch": 0.578523798574385,
      "grad_norm": 0.6615459322929382,
      "learning_rate": 3.905839196650493e-05,
      "loss": 1.5048,
      "step": 629
    },
    {
      "epoch": 0.5794435502414348,
      "grad_norm": 0.5650434494018555,
      "learning_rate": 3.8914926011814626e-05,
      "loss": 1.4093,
      "step": 630
    },
    {
      "epoch": 0.5803633019084847,
      "grad_norm": 0.5881006121635437,
      "learning_rate": 3.8771555974110194e-05,
      "loss": 1.3783,
      "step": 631
    },
    {
      "epoch": 0.5812830535755346,
      "grad_norm": 0.6607415676116943,
      "learning_rate": 3.8628283093944686e-05,
      "loss": 1.4406,
      "step": 632
    },
    {
      "epoch": 0.5822028052425845,
      "grad_norm": 0.6574285626411438,
      "learning_rate": 3.8485108611030415e-05,
      "loss": 1.3927,
      "step": 633
    },
    {
      "epoch": 0.5831225569096344,
      "grad_norm": 0.7541502714157104,
      "learning_rate": 3.834203376422831e-05,
      "loss": 1.374,
      "step": 634
    },
    {
      "epoch": 0.5840423085766843,
      "grad_norm": 0.6834109425544739,
      "learning_rate": 3.81990597915371e-05,
      "loss": 1.3459,
      "step": 635
    },
    {
      "epoch": 0.5849620602437342,
      "grad_norm": 0.649935781955719,
      "learning_rate": 3.805618793008279e-05,
      "loss": 1.3314,
      "step": 636
    },
    {
      "epoch": 0.585881811910784,
      "grad_norm": 0.6892503499984741,
      "learning_rate": 3.7913419416107694e-05,
      "loss": 1.3958,
      "step": 637
    },
    {
      "epoch": 0.586801563577834,
      "grad_norm": 0.6689726710319519,
      "learning_rate": 3.7770755484960004e-05,
      "loss": 1.3384,
      "step": 638
    },
    {
      "epoch": 0.5877213152448839,
      "grad_norm": 0.5913270711898804,
      "learning_rate": 3.762819737108291e-05,
      "loss": 1.3169,
      "step": 639
    },
    {
      "epoch": 0.5886410669119337,
      "grad_norm": 0.6090061068534851,
      "learning_rate": 3.748574630800401e-05,
      "loss": 1.2413,
      "step": 640
    },
    {
      "epoch": 0.5895608185789837,
      "grad_norm": 0.7058801651000977,
      "learning_rate": 3.734340352832457e-05,
      "loss": 1.289,
      "step": 641
    },
    {
      "epoch": 0.5904805702460336,
      "grad_norm": 0.7695034146308899,
      "learning_rate": 3.7201170263709e-05,
      "loss": 1.3332,
      "step": 642
    },
    {
      "epoch": 0.5914003219130834,
      "grad_norm": 0.6559154987335205,
      "learning_rate": 3.705904774487396e-05,
      "loss": 1.2992,
      "step": 643
    },
    {
      "epoch": 0.5923200735801334,
      "grad_norm": 0.7140766382217407,
      "learning_rate": 3.691703720157798e-05,
      "loss": 1.2247,
      "step": 644
    },
    {
      "epoch": 0.5932398252471832,
      "grad_norm": 0.7867764830589294,
      "learning_rate": 3.6775139862610574e-05,
      "loss": 1.2409,
      "step": 645
    },
    {
      "epoch": 0.5941595769142332,
      "grad_norm": 0.9307761788368225,
      "learning_rate": 3.663335695578183e-05,
      "loss": 1.1696,
      "step": 646
    },
    {
      "epoch": 0.5950793285812831,
      "grad_norm": 0.8968107104301453,
      "learning_rate": 3.649168970791157e-05,
      "loss": 1.1511,
      "step": 647
    },
    {
      "epoch": 0.5959990802483329,
      "grad_norm": 0.9723992943763733,
      "learning_rate": 3.635013934481895e-05,
      "loss": 1.1133,
      "step": 648
    },
    {
      "epoch": 0.5969188319153829,
      "grad_norm": 1.1764365434646606,
      "learning_rate": 3.6208707091311626e-05,
      "loss": 1.1247,
      "step": 649
    },
    {
      "epoch": 0.5978385835824327,
      "grad_norm": 1.0631630420684814,
      "learning_rate": 3.6067394171175394e-05,
      "loss": 1.0094,
      "step": 650
    },
    {
      "epoch": 0.5987583352494826,
      "grad_norm": 1.4610891342163086,
      "learning_rate": 3.592620180716338e-05,
      "loss": 1.635,
      "step": 651
    },
    {
      "epoch": 0.5996780869165326,
      "grad_norm": 1.4560317993164062,
      "learning_rate": 3.578513122098566e-05,
      "loss": 1.5683,
      "step": 652
    },
    {
      "epoch": 0.6005978385835824,
      "grad_norm": 1.250054955482483,
      "learning_rate": 3.564418363329848e-05,
      "loss": 1.4994,
      "step": 653
    },
    {
      "epoch": 0.6015175902506323,
      "grad_norm": 1.0758668184280396,
      "learning_rate": 3.5503360263693886e-05,
      "loss": 1.4581,
      "step": 654
    },
    {
      "epoch": 0.6024373419176823,
      "grad_norm": 0.9774999022483826,
      "learning_rate": 3.5362662330689064e-05,
      "loss": 1.4609,
      "step": 655
    },
    {
      "epoch": 0.6033570935847321,
      "grad_norm": 0.8008742332458496,
      "learning_rate": 3.52220910517158e-05,
      "loss": 1.4672,
      "step": 656
    },
    {
      "epoch": 0.604276845251782,
      "grad_norm": 0.7127364873886108,
      "learning_rate": 3.5081647643110024e-05,
      "loss": 1.4948,
      "step": 657
    },
    {
      "epoch": 0.6051965969188319,
      "grad_norm": 0.76557457447052,
      "learning_rate": 3.494133332010117e-05,
      "loss": 1.4609,
      "step": 658
    },
    {
      "epoch": 0.6061163485858818,
      "grad_norm": 0.8269351124763489,
      "learning_rate": 3.480114929680176e-05,
      "loss": 1.5268,
      "step": 659
    },
    {
      "epoch": 0.6070361002529318,
      "grad_norm": 0.810955286026001,
      "learning_rate": 3.466109678619681e-05,
      "loss": 1.523,
      "step": 660
    },
    {
      "epoch": 0.6079558519199816,
      "grad_norm": 0.6712583303451538,
      "learning_rate": 3.452117700013345e-05,
      "loss": 1.4676,
      "step": 661
    },
    {
      "epoch": 0.6088756035870315,
      "grad_norm": 0.828484058380127,
      "learning_rate": 3.43813911493103e-05,
      "loss": 1.5116,
      "step": 662
    },
    {
      "epoch": 0.6097953552540814,
      "grad_norm": 0.7789233922958374,
      "learning_rate": 3.424174044326711e-05,
      "loss": 1.445,
      "step": 663
    },
    {
      "epoch": 0.6107151069211313,
      "grad_norm": 0.7635114789009094,
      "learning_rate": 3.4102226090374246e-05,
      "loss": 1.5681,
      "step": 664
    },
    {
      "epoch": 0.6116348585881812,
      "grad_norm": 0.6956825256347656,
      "learning_rate": 3.3962849297822226e-05,
      "loss": 1.4877,
      "step": 665
    },
    {
      "epoch": 0.6125546102552311,
      "grad_norm": 0.6926284432411194,
      "learning_rate": 3.382361127161127e-05,
      "loss": 1.4282,
      "step": 666
    },
    {
      "epoch": 0.613474361922281,
      "grad_norm": 0.8702225089073181,
      "learning_rate": 3.368451321654091e-05,
      "loss": 1.4773,
      "step": 667
    },
    {
      "epoch": 0.6143941135893308,
      "grad_norm": 0.7277842164039612,
      "learning_rate": 3.35455563361995e-05,
      "loss": 1.3959,
      "step": 668
    },
    {
      "epoch": 0.6153138652563808,
      "grad_norm": 0.6363296508789062,
      "learning_rate": 3.340674183295389e-05,
      "loss": 1.4747,
      "step": 669
    },
    {
      "epoch": 0.6162336169234307,
      "grad_norm": 0.6425765156745911,
      "learning_rate": 3.326807090793891e-05,
      "loss": 1.4423,
      "step": 670
    },
    {
      "epoch": 0.6171533685904805,
      "grad_norm": 0.6721304059028625,
      "learning_rate": 3.312954476104709e-05,
      "loss": 1.4241,
      "step": 671
    },
    {
      "epoch": 0.6180731202575305,
      "grad_norm": 0.6218870878219604,
      "learning_rate": 3.299116459091816e-05,
      "loss": 1.4644,
      "step": 672
    },
    {
      "epoch": 0.6189928719245804,
      "grad_norm": 0.6951906681060791,
      "learning_rate": 3.2852931594928807e-05,
      "loss": 1.452,
      "step": 673
    },
    {
      "epoch": 0.6199126235916302,
      "grad_norm": 0.6208174824714661,
      "learning_rate": 3.271484696918218e-05,
      "loss": 1.415,
      "step": 674
    },
    {
      "epoch": 0.6208323752586802,
      "grad_norm": 0.5596356391906738,
      "learning_rate": 3.257691190849769e-05,
      "loss": 1.4708,
      "step": 675
    },
    {
      "epoch": 0.62175212692573,
      "grad_norm": 0.6394990682601929,
      "learning_rate": 3.243912760640054e-05,
      "loss": 1.4522,
      "step": 676
    },
    {
      "epoch": 0.62267187859278,
      "grad_norm": 0.6112094521522522,
      "learning_rate": 3.2301495255111425e-05,
      "loss": 1.3607,
      "step": 677
    },
    {
      "epoch": 0.6235916302598299,
      "grad_norm": 0.645779013633728,
      "learning_rate": 3.2164016045536304e-05,
      "loss": 1.4282,
      "step": 678
    },
    {
      "epoch": 0.6245113819268797,
      "grad_norm": 0.6169288754463196,
      "learning_rate": 3.202669116725598e-05,
      "loss": 1.4052,
      "step": 679
    },
    {
      "epoch": 0.6254311335939297,
      "grad_norm": 0.6002304553985596,
      "learning_rate": 3.188952180851589e-05,
      "loss": 1.419,
      "step": 680
    },
    {
      "epoch": 0.6263508852609795,
      "grad_norm": 0.6018975377082825,
      "learning_rate": 3.1752509156215734e-05,
      "loss": 1.3685,
      "step": 681
    },
    {
      "epoch": 0.6272706369280294,
      "grad_norm": 0.6559040546417236,
      "learning_rate": 3.1615654395899375e-05,
      "loss": 1.3657,
      "step": 682
    },
    {
      "epoch": 0.6281903885950794,
      "grad_norm": 0.6393570899963379,
      "learning_rate": 3.147895871174432e-05,
      "loss": 1.405,
      "step": 683
    },
    {
      "epoch": 0.6291101402621292,
      "grad_norm": 0.6094779968261719,
      "learning_rate": 3.134242328655175e-05,
      "loss": 1.3179,
      "step": 684
    },
    {
      "epoch": 0.6300298919291791,
      "grad_norm": 0.6581336855888367,
      "learning_rate": 3.120604930173608e-05,
      "loss": 1.3276,
      "step": 685
    },
    {
      "epoch": 0.6309496435962291,
      "grad_norm": 0.6599423289299011,
      "learning_rate": 3.106983793731484e-05,
      "loss": 1.2805,
      "step": 686
    },
    {
      "epoch": 0.6318693952632789,
      "grad_norm": 0.683204710483551,
      "learning_rate": 3.093379037189842e-05,
      "loss": 1.3557,
      "step": 687
    },
    {
      "epoch": 0.6327891469303288,
      "grad_norm": 0.6180110573768616,
      "learning_rate": 3.079790778267994e-05,
      "loss": 1.2668,
      "step": 688
    },
    {
      "epoch": 0.6337088985973787,
      "grad_norm": 0.7273058891296387,
      "learning_rate": 3.066219134542492e-05,
      "loss": 1.2852,
      "step": 689
    },
    {
      "epoch": 0.6346286502644286,
      "grad_norm": 0.6892321705818176,
      "learning_rate": 3.052664223446131e-05,
      "loss": 1.2997,
      "step": 690
    },
    {
      "epoch": 0.6355484019314785,
      "grad_norm": 0.694174587726593,
      "learning_rate": 3.039126162266912e-05,
      "loss": 1.2398,
      "step": 691
    },
    {
      "epoch": 0.6364681535985284,
      "grad_norm": 0.7471473217010498,
      "learning_rate": 3.0256050681470444e-05,
      "loss": 1.1879,
      "step": 692
    },
    {
      "epoch": 0.6373879052655783,
      "grad_norm": 0.7812895178794861,
      "learning_rate": 3.012101058081919e-05,
      "loss": 1.2826,
      "step": 693
    },
    {
      "epoch": 0.6383076569326281,
      "grad_norm": 0.7405266761779785,
      "learning_rate": 2.998614248919107e-05,
      "loss": 1.1937,
      "step": 694
    },
    {
      "epoch": 0.6392274085996781,
      "grad_norm": 0.7346695065498352,
      "learning_rate": 2.9851447573573384e-05,
      "loss": 1.2364,
      "step": 695
    },
    {
      "epoch": 0.640147160266728,
      "grad_norm": 0.7376750707626343,
      "learning_rate": 2.971692699945502e-05,
      "loss": 1.222,
      "step": 696
    },
    {
      "epoch": 0.6410669119337778,
      "grad_norm": 0.7857553362846375,
      "learning_rate": 2.9582581930816288e-05,
      "loss": 1.1532,
      "step": 697
    },
    {
      "epoch": 0.6419866636008278,
      "grad_norm": 1.1139256954193115,
      "learning_rate": 2.9448413530118914e-05,
      "loss": 1.0823,
      "step": 698
    },
    {
      "epoch": 0.6429064152678776,
      "grad_norm": 0.9734514355659485,
      "learning_rate": 2.9314422958295907e-05,
      "loss": 1.0059,
      "step": 699
    },
    {
      "epoch": 0.6438261669349276,
      "grad_norm": 1.195755124092102,
      "learning_rate": 2.9180611374741623e-05,
      "loss": 1.0146,
      "step": 700
    },
    {
      "epoch": 0.6447459186019775,
      "grad_norm": 1.1521427631378174,
      "learning_rate": 2.9046979937301588e-05,
      "loss": 1.5188,
      "step": 701
    },
    {
      "epoch": 0.6456656702690273,
      "grad_norm": 1.0498712062835693,
      "learning_rate": 2.8913529802262617e-05,
      "loss": 1.5642,
      "step": 702
    },
    {
      "epoch": 0.6465854219360773,
      "grad_norm": 1.004340410232544,
      "learning_rate": 2.8780262124342755e-05,
      "loss": 1.4869,
      "step": 703
    },
    {
      "epoch": 0.6475051736031272,
      "grad_norm": 0.9507954716682434,
      "learning_rate": 2.8647178056681194e-05,
      "loss": 1.5128,
      "step": 704
    },
    {
      "epoch": 0.648424925270177,
      "grad_norm": 0.8366132974624634,
      "learning_rate": 2.8514278750828536e-05,
      "loss": 1.4907,
      "step": 705
    },
    {
      "epoch": 0.649344676937227,
      "grad_norm": 0.8227055072784424,
      "learning_rate": 2.838156535673652e-05,
      "loss": 1.5356,
      "step": 706
    },
    {
      "epoch": 0.6502644286042768,
      "grad_norm": 0.7174684405326843,
      "learning_rate": 2.8249039022748313e-05,
      "loss": 1.4349,
      "step": 707
    },
    {
      "epoch": 0.6511841802713267,
      "grad_norm": 0.6819536089897156,
      "learning_rate": 2.8116700895588472e-05,
      "loss": 1.4133,
      "step": 708
    },
    {
      "epoch": 0.6521039319383767,
      "grad_norm": 0.7197076082229614,
      "learning_rate": 2.7984552120353046e-05,
      "loss": 1.4284,
      "step": 709
    },
    {
      "epoch": 0.6530236836054265,
      "grad_norm": 0.7833074331283569,
      "learning_rate": 2.785259384049959e-05,
      "loss": 1.5066,
      "step": 710
    },
    {
      "epoch": 0.6539434352724764,
      "grad_norm": 0.7236879467964172,
      "learning_rate": 2.7720827197837472e-05,
      "loss": 1.3815,
      "step": 711
    },
    {
      "epoch": 0.6548631869395263,
      "grad_norm": 0.6463202238082886,
      "learning_rate": 2.7589253332517734e-05,
      "loss": 1.4513,
      "step": 712
    },
    {
      "epoch": 0.6557829386065762,
      "grad_norm": 0.7177314758300781,
      "learning_rate": 2.745787338302341e-05,
      "loss": 1.4443,
      "step": 713
    },
    {
      "epoch": 0.6567026902736262,
      "grad_norm": 0.7721028327941895,
      "learning_rate": 2.7326688486159613e-05,
      "loss": 1.4899,
      "step": 714
    },
    {
      "epoch": 0.657622441940676,
      "grad_norm": 0.6830793023109436,
      "learning_rate": 2.719569977704372e-05,
      "loss": 1.5052,
      "step": 715
    },
    {
      "epoch": 0.6585421936077259,
      "grad_norm": 0.6752369403839111,
      "learning_rate": 2.7064908389095468e-05,
      "loss": 1.5062,
      "step": 716
    },
    {
      "epoch": 0.6594619452747759,
      "grad_norm": 0.6267321109771729,
      "learning_rate": 2.693431545402732e-05,
      "loss": 1.5125,
      "step": 717
    },
    {
      "epoch": 0.6603816969418257,
      "grad_norm": 0.6160003542900085,
      "learning_rate": 2.6803922101834454e-05,
      "loss": 1.4609,
      "step": 718
    },
    {
      "epoch": 0.6613014486088756,
      "grad_norm": 0.5926380157470703,
      "learning_rate": 2.6673729460785176e-05,
      "loss": 1.415,
      "step": 719
    },
    {
      "epoch": 0.6622212002759255,
      "grad_norm": 0.6655170321464539,
      "learning_rate": 2.6543738657411034e-05,
      "loss": 1.372,
      "step": 720
    },
    {
      "epoch": 0.6631409519429754,
      "grad_norm": 0.6094529628753662,
      "learning_rate": 2.6413950816497147e-05,
      "loss": 1.4037,
      "step": 721
    },
    {
      "epoch": 0.6640607036100253,
      "grad_norm": 0.6568109393119812,
      "learning_rate": 2.6284367061072378e-05,
      "loss": 1.458,
      "step": 722
    },
    {
      "epoch": 0.6649804552770752,
      "grad_norm": 0.5817413330078125,
      "learning_rate": 2.615498851239978e-05,
      "loss": 1.4009,
      "step": 723
    },
    {
      "epoch": 0.6659002069441251,
      "grad_norm": 0.6216491460800171,
      "learning_rate": 2.6025816289966704e-05,
      "loss": 1.4178,
      "step": 724
    },
    {
      "epoch": 0.6668199586111749,
      "grad_norm": 0.6176545023918152,
      "learning_rate": 2.5896851511475186e-05,
      "loss": 1.4191,
      "step": 725
    },
    {
      "epoch": 0.6677397102782249,
      "grad_norm": 0.5803206562995911,
      "learning_rate": 2.576809529283241e-05,
      "loss": 1.415,
      "step": 726
    },
    {
      "epoch": 0.6686594619452748,
      "grad_norm": 0.5935968160629272,
      "learning_rate": 2.5639548748140802e-05,
      "loss": 1.3797,
      "step": 727
    },
    {
      "epoch": 0.6695792136123246,
      "grad_norm": 0.6356935501098633,
      "learning_rate": 2.5511212989688586e-05,
      "loss": 1.4948,
      "step": 728
    },
    {
      "epoch": 0.6704989652793746,
      "grad_norm": 0.5835620760917664,
      "learning_rate": 2.5383089127940086e-05,
      "loss": 1.4203,
      "step": 729
    },
    {
      "epoch": 0.6714187169464245,
      "grad_norm": 0.687403678894043,
      "learning_rate": 2.5255178271526137e-05,
      "loss": 1.3661,
      "step": 730
    },
    {
      "epoch": 0.6723384686134743,
      "grad_norm": 0.6388825178146362,
      "learning_rate": 2.51274815272344e-05,
      "loss": 1.4157,
      "step": 731
    },
    {
      "epoch": 0.6732582202805243,
      "grad_norm": 0.6280670762062073,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.3854,
      "step": 732
    },
    {
      "epoch": 0.6741779719475741,
      "grad_norm": 0.6690565943717957,
      "learning_rate": 2.4872734792895734e-05,
      "loss": 1.3974,
      "step": 733
    },
    {
      "epoch": 0.6750977236146241,
      "grad_norm": 0.6328375339508057,
      "learning_rate": 2.4745687007122636e-05,
      "loss": 1.3462,
      "step": 734
    },
    {
      "epoch": 0.676017475281674,
      "grad_norm": 0.6421682834625244,
      "learning_rate": 2.4618857742000463e-05,
      "loss": 1.2237,
      "step": 735
    },
    {
      "epoch": 0.6769372269487238,
      "grad_norm": 0.6286811828613281,
      "learning_rate": 2.4492248094958147e-05,
      "loss": 1.3481,
      "step": 736
    },
    {
      "epoch": 0.6778569786157738,
      "grad_norm": 0.61008220911026,
      "learning_rate": 2.4365859161524258e-05,
      "loss": 1.2088,
      "step": 737
    },
    {
      "epoch": 0.6787767302828236,
      "grad_norm": 0.6456345915794373,
      "learning_rate": 2.4239692035317678e-05,
      "loss": 1.1997,
      "step": 738
    },
    {
      "epoch": 0.6796964819498735,
      "grad_norm": 0.8082221746444702,
      "learning_rate": 2.411374780803793e-05,
      "loss": 1.2172,
      "step": 739
    },
    {
      "epoch": 0.6806162336169235,
      "grad_norm": 0.6706709861755371,
      "learning_rate": 2.3988027569455895e-05,
      "loss": 1.211,
      "step": 740
    },
    {
      "epoch": 0.6815359852839733,
      "grad_norm": 0.6545360088348389,
      "learning_rate": 2.3862532407404303e-05,
      "loss": 1.3001,
      "step": 741
    },
    {
      "epoch": 0.6824557369510232,
      "grad_norm": 0.8686853051185608,
      "learning_rate": 2.373726340776837e-05,
      "loss": 1.2328,
      "step": 742
    },
    {
      "epoch": 0.6833754886180731,
      "grad_norm": 0.668156087398529,
      "learning_rate": 2.361222165447628e-05,
      "loss": 1.2011,
      "step": 743
    },
    {
      "epoch": 0.684295240285123,
      "grad_norm": 0.685393750667572,
      "learning_rate": 2.348740822949006e-05,
      "loss": 1.2309,
      "step": 744
    },
    {
      "epoch": 0.685214991952173,
      "grad_norm": 0.6708635687828064,
      "learning_rate": 2.3362824212795898e-05,
      "loss": 1.1972,
      "step": 745
    },
    {
      "epoch": 0.6861347436192228,
      "grad_norm": 0.8381814360618591,
      "learning_rate": 2.3238470682395037e-05,
      "loss": 1.2545,
      "step": 746
    },
    {
      "epoch": 0.6870544952862727,
      "grad_norm": 0.7803678512573242,
      "learning_rate": 2.3114348714294354e-05,
      "loss": 1.1471,
      "step": 747
    },
    {
      "epoch": 0.6879742469533227,
      "grad_norm": 0.8974632024765015,
      "learning_rate": 2.2990459382497088e-05,
      "loss": 1.1145,
      "step": 748
    },
    {
      "epoch": 0.6888939986203725,
      "grad_norm": 1.0532459020614624,
      "learning_rate": 2.2866803758993445e-05,
      "loss": 1.0573,
      "step": 749
    },
    {
      "epoch": 0.6898137502874224,
      "grad_norm": 1.208759069442749,
      "learning_rate": 2.274338291375147e-05,
      "loss": 0.9195,
      "step": 750
    },
    {
      "epoch": 0.6898137502874224,
      "eval_loss": 1.3665193319320679,
      "eval_runtime": 50.0048,
      "eval_samples_per_second": 164.784,
      "eval_steps_per_second": 20.598,
      "step": 750
    },
    {
      "epoch": 0.6907335019544723,
      "grad_norm": 1.253531575202942,
      "learning_rate": 2.2620197914707718e-05,
      "loss": 1.602,
      "step": 751
    },
    {
      "epoch": 0.6916532536215222,
      "grad_norm": 1.2635823488235474,
      "learning_rate": 2.2497249827757933e-05,
      "loss": 1.5615,
      "step": 752
    },
    {
      "epoch": 0.6925730052885721,
      "grad_norm": 1.0416873693466187,
      "learning_rate": 2.2374539716748032e-05,
      "loss": 1.4779,
      "step": 753
    },
    {
      "epoch": 0.693492756955622,
      "grad_norm": 0.9805805087089539,
      "learning_rate": 2.225206864346465e-05,
      "loss": 1.4272,
      "step": 754
    },
    {
      "epoch": 0.6944125086226719,
      "grad_norm": 0.9023362398147583,
      "learning_rate": 2.2129837667626145e-05,
      "loss": 1.4208,
      "step": 755
    },
    {
      "epoch": 0.6953322602897217,
      "grad_norm": 1.0136377811431885,
      "learning_rate": 2.200784784687334e-05,
      "loss": 1.4692,
      "step": 756
    },
    {
      "epoch": 0.6962520119567717,
      "grad_norm": 0.9673015475273132,
      "learning_rate": 2.188610023676041e-05,
      "loss": 1.4966,
      "step": 757
    },
    {
      "epoch": 0.6971717636238216,
      "grad_norm": 0.8694583177566528,
      "learning_rate": 2.176459589074566e-05,
      "loss": 1.4035,
      "step": 758
    },
    {
      "epoch": 0.6980915152908714,
      "grad_norm": 0.7423250675201416,
      "learning_rate": 2.164333586018259e-05,
      "loss": 1.4623,
      "step": 759
    },
    {
      "epoch": 0.6990112669579214,
      "grad_norm": 0.7796162366867065,
      "learning_rate": 2.1522321194310574e-05,
      "loss": 1.466,
      "step": 760
    },
    {
      "epoch": 0.6999310186249713,
      "grad_norm": 0.9312780499458313,
      "learning_rate": 2.1401552940245962e-05,
      "loss": 1.3982,
      "step": 761
    },
    {
      "epoch": 0.7008507702920211,
      "grad_norm": 0.7841870784759521,
      "learning_rate": 2.1281032142972933e-05,
      "loss": 1.505,
      "step": 762
    },
    {
      "epoch": 0.7017705219590711,
      "grad_norm": 0.6561142206192017,
      "learning_rate": 2.1160759845334484e-05,
      "loss": 1.4446,
      "step": 763
    },
    {
      "epoch": 0.7026902736261209,
      "grad_norm": 0.6478760242462158,
      "learning_rate": 2.1040737088023323e-05,
      "loss": 1.4218,
      "step": 764
    },
    {
      "epoch": 0.7036100252931708,
      "grad_norm": 0.8280866146087646,
      "learning_rate": 2.0920964909573066e-05,
      "loss": 1.4915,
      "step": 765
    },
    {
      "epoch": 0.7045297769602208,
      "grad_norm": 0.8623349666595459,
      "learning_rate": 2.080144434634898e-05,
      "loss": 1.3761,
      "step": 766
    },
    {
      "epoch": 0.7054495286272706,
      "grad_norm": 0.7455824613571167,
      "learning_rate": 2.0682176432539246e-05,
      "loss": 1.39,
      "step": 767
    },
    {
      "epoch": 0.7063692802943206,
      "grad_norm": 0.6684551239013672,
      "learning_rate": 2.056316220014588e-05,
      "loss": 1.4599,
      "step": 768
    },
    {
      "epoch": 0.7072890319613704,
      "grad_norm": 0.6949120759963989,
      "learning_rate": 2.0444402678975877e-05,
      "loss": 1.4068,
      "step": 769
    },
    {
      "epoch": 0.7082087836284203,
      "grad_norm": 0.698066771030426,
      "learning_rate": 2.0325898896632177e-05,
      "loss": 1.4451,
      "step": 770
    },
    {
      "epoch": 0.7091285352954703,
      "grad_norm": 0.6923701167106628,
      "learning_rate": 2.0207651878505e-05,
      "loss": 1.4183,
      "step": 771
    },
    {
      "epoch": 0.7100482869625201,
      "grad_norm": 0.6396070718765259,
      "learning_rate": 2.0089662647762715e-05,
      "loss": 1.4079,
      "step": 772
    },
    {
      "epoch": 0.71096803862957,
      "grad_norm": 0.5608759522438049,
      "learning_rate": 1.997193222534316e-05,
      "loss": 1.3507,
      "step": 773
    },
    {
      "epoch": 0.7118877902966199,
      "grad_norm": 0.6374341249465942,
      "learning_rate": 1.9854461629944763e-05,
      "loss": 1.395,
      "step": 774
    },
    {
      "epoch": 0.7128075419636698,
      "grad_norm": 0.5628088116645813,
      "learning_rate": 1.9737251878017678e-05,
      "loss": 1.3779,
      "step": 775
    },
    {
      "epoch": 0.7137272936307197,
      "grad_norm": 0.6205474138259888,
      "learning_rate": 1.962030398375506e-05,
      "loss": 1.3974,
      "step": 776
    },
    {
      "epoch": 0.7146470452977696,
      "grad_norm": 0.5789771676063538,
      "learning_rate": 1.950361895908427e-05,
      "loss": 1.331,
      "step": 777
    },
    {
      "epoch": 0.7155667969648195,
      "grad_norm": 0.636550784111023,
      "learning_rate": 1.9387197813658092e-05,
      "loss": 1.3799,
      "step": 778
    },
    {
      "epoch": 0.7164865486318694,
      "grad_norm": 0.6165384650230408,
      "learning_rate": 1.927104155484602e-05,
      "loss": 1.3579,
      "step": 779
    },
    {
      "epoch": 0.7174063002989193,
      "grad_norm": 0.6170758008956909,
      "learning_rate": 1.9155151187725552e-05,
      "loss": 1.349,
      "step": 780
    },
    {
      "epoch": 0.7183260519659692,
      "grad_norm": 0.5404320359230042,
      "learning_rate": 1.9039527715073424e-05,
      "loss": 1.364,
      "step": 781
    },
    {
      "epoch": 0.719245803633019,
      "grad_norm": 0.5796113014221191,
      "learning_rate": 1.892417213735704e-05,
      "loss": 1.2893,
      "step": 782
    },
    {
      "epoch": 0.720165555300069,
      "grad_norm": 0.6280906796455383,
      "learning_rate": 1.8809085452725746e-05,
      "loss": 1.3598,
      "step": 783
    },
    {
      "epoch": 0.7210853069671189,
      "grad_norm": 0.6569982171058655,
      "learning_rate": 1.8694268657002194e-05,
      "loss": 1.3006,
      "step": 784
    },
    {
      "epoch": 0.7220050586341688,
      "grad_norm": 0.6892338991165161,
      "learning_rate": 1.8579722743673773e-05,
      "loss": 1.3557,
      "step": 785
    },
    {
      "epoch": 0.7229248103012187,
      "grad_norm": 0.6984684467315674,
      "learning_rate": 1.8465448703883958e-05,
      "loss": 1.3506,
      "step": 786
    },
    {
      "epoch": 0.7238445619682685,
      "grad_norm": 0.65283203125,
      "learning_rate": 1.8351447526423727e-05,
      "loss": 1.3009,
      "step": 787
    },
    {
      "epoch": 0.7247643136353185,
      "grad_norm": 0.7025482654571533,
      "learning_rate": 1.8237720197723075e-05,
      "loss": 1.1886,
      "step": 788
    },
    {
      "epoch": 0.7256840653023684,
      "grad_norm": 0.6791706085205078,
      "learning_rate": 1.812426770184243e-05,
      "loss": 1.2081,
      "step": 789
    },
    {
      "epoch": 0.7266038169694182,
      "grad_norm": 0.6996423602104187,
      "learning_rate": 1.801109102046414e-05,
      "loss": 1.2468,
      "step": 790
    },
    {
      "epoch": 0.7275235686364682,
      "grad_norm": 0.722210705280304,
      "learning_rate": 1.7898191132883968e-05,
      "loss": 1.196,
      "step": 791
    },
    {
      "epoch": 0.7284433203035181,
      "grad_norm": 0.6527461409568787,
      "learning_rate": 1.7785569016002685e-05,
      "loss": 1.2516,
      "step": 792
    },
    {
      "epoch": 0.7293630719705679,
      "grad_norm": 0.6403821110725403,
      "learning_rate": 1.7673225644317486e-05,
      "loss": 1.1883,
      "step": 793
    },
    {
      "epoch": 0.7302828236376179,
      "grad_norm": 0.7447903156280518,
      "learning_rate": 1.7561161989913698e-05,
      "loss": 1.2232,
      "step": 794
    },
    {
      "epoch": 0.7312025753046677,
      "grad_norm": 0.8253830671310425,
      "learning_rate": 1.7449379022456295e-05,
      "loss": 1.2144,
      "step": 795
    },
    {
      "epoch": 0.7321223269717176,
      "grad_norm": 0.8268104791641235,
      "learning_rate": 1.7337877709181526e-05,
      "loss": 1.1443,
      "step": 796
    },
    {
      "epoch": 0.7330420786387676,
      "grad_norm": 0.8768870830535889,
      "learning_rate": 1.7226659014888546e-05,
      "loss": 1.0736,
      "step": 797
    },
    {
      "epoch": 0.7339618303058174,
      "grad_norm": 0.8852882981300354,
      "learning_rate": 1.711572390193102e-05,
      "loss": 1.1051,
      "step": 798
    },
    {
      "epoch": 0.7348815819728673,
      "grad_norm": 1.0162791013717651,
      "learning_rate": 1.7005073330208883e-05,
      "loss": 1.0043,
      "step": 799
    },
    {
      "epoch": 0.7358013336399172,
      "grad_norm": 1.2660006284713745,
      "learning_rate": 1.689470825715998e-05,
      "loss": 1.0243,
      "step": 800
    },
    {
      "epoch": 0.7367210853069671,
      "grad_norm": 1.007739543914795,
      "learning_rate": 1.6784629637751815e-05,
      "loss": 1.5297,
      "step": 801
    },
    {
      "epoch": 0.7376408369740171,
      "grad_norm": 0.9282512664794922,
      "learning_rate": 1.6674838424473173e-05,
      "loss": 1.5234,
      "step": 802
    },
    {
      "epoch": 0.7385605886410669,
      "grad_norm": 0.8745155334472656,
      "learning_rate": 1.656533556732611e-05,
      "loss": 1.4494,
      "step": 803
    },
    {
      "epoch": 0.7394803403081168,
      "grad_norm": 0.941735565662384,
      "learning_rate": 1.6456122013817476e-05,
      "loss": 1.5395,
      "step": 804
    },
    {
      "epoch": 0.7404000919751667,
      "grad_norm": 0.9213740825653076,
      "learning_rate": 1.6347198708950882e-05,
      "loss": 1.4104,
      "step": 805
    },
    {
      "epoch": 0.7413198436422166,
      "grad_norm": 0.8986393809318542,
      "learning_rate": 1.6238566595218473e-05,
      "loss": 1.4004,
      "step": 806
    },
    {
      "epoch": 0.7422395953092665,
      "grad_norm": 1.212737798690796,
      "learning_rate": 1.6130226612592786e-05,
      "loss": 1.4478,
      "step": 807
    },
    {
      "epoch": 0.7431593469763164,
      "grad_norm": 0.8150504231452942,
      "learning_rate": 1.6022179698518523e-05,
      "loss": 1.4197,
      "step": 808
    },
    {
      "epoch": 0.7440790986433663,
      "grad_norm": 0.7515584826469421,
      "learning_rate": 1.591442678790467e-05,
      "loss": 1.454,
      "step": 809
    },
    {
      "epoch": 0.7449988503104162,
      "grad_norm": 0.6738887429237366,
      "learning_rate": 1.5806968813116107e-05,
      "loss": 1.46,
      "step": 810
    },
    {
      "epoch": 0.7459186019774661,
      "grad_norm": 0.8340874314308167,
      "learning_rate": 1.5699806703965787e-05,
      "loss": 1.4261,
      "step": 811
    },
    {
      "epoch": 0.746838353644516,
      "grad_norm": 0.7794579863548279,
      "learning_rate": 1.559294138770656e-05,
      "loss": 1.4964,
      "step": 812
    },
    {
      "epoch": 0.7477581053115658,
      "grad_norm": 0.7533066868782043,
      "learning_rate": 1.5486373789023205e-05,
      "loss": 1.4325,
      "step": 813
    },
    {
      "epoch": 0.7486778569786158,
      "grad_norm": 0.643245279788971,
      "learning_rate": 1.538010483002435e-05,
      "loss": 1.4201,
      "step": 814
    },
    {
      "epoch": 0.7495976086456657,
      "grad_norm": 0.6805441379547119,
      "learning_rate": 1.5274135430234654e-05,
      "loss": 1.4768,
      "step": 815
    },
    {
      "epoch": 0.7505173603127155,
      "grad_norm": 0.7012439966201782,
      "learning_rate": 1.5168466506586654e-05,
      "loss": 1.3795,
      "step": 816
    },
    {
      "epoch": 0.7514371119797655,
      "grad_norm": 0.6986867189407349,
      "learning_rate": 1.506309897341297e-05,
      "loss": 1.3924,
      "step": 817
    },
    {
      "epoch": 0.7523568636468153,
      "grad_norm": 0.7575457692146301,
      "learning_rate": 1.495803374243835e-05,
      "loss": 1.4462,
      "step": 818
    },
    {
      "epoch": 0.7532766153138652,
      "grad_norm": 0.6013389229774475,
      "learning_rate": 1.4853271722771772e-05,
      "loss": 1.3786,
      "step": 819
    },
    {
      "epoch": 0.7541963669809152,
      "grad_norm": 0.596037745475769,
      "learning_rate": 1.4748813820898554e-05,
      "loss": 1.3483,
      "step": 820
    },
    {
      "epoch": 0.755116118647965,
      "grad_norm": 0.6031373739242554,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 1.364,
      "step": 821
    },
    {
      "epoch": 0.756035870315015,
      "grad_norm": 0.6841591000556946,
      "learning_rate": 1.4540813983308548e-05,
      "loss": 1.4468,
      "step": 822
    },
    {
      "epoch": 0.7569556219820649,
      "grad_norm": 0.7204717993736267,
      "learning_rate": 1.4437273847373777e-05,
      "loss": 1.3843,
      "step": 823
    },
    {
      "epoch": 0.7578753736491147,
      "grad_norm": 0.6169053912162781,
      "learning_rate": 1.4334041428781003e-05,
      "loss": 1.3776,
      "step": 824
    },
    {
      "epoch": 0.7587951253161647,
      "grad_norm": 0.5684770941734314,
      "learning_rate": 1.4231117620780188e-05,
      "loss": 1.4011,
      "step": 825
    },
    {
      "epoch": 0.7597148769832145,
      "grad_norm": 0.5605279207229614,
      "learning_rate": 1.4128503313951009e-05,
      "loss": 1.4227,
      "step": 826
    },
    {
      "epoch": 0.7606346286502644,
      "grad_norm": 0.6137314438819885,
      "learning_rate": 1.4026199396195077e-05,
      "loss": 1.4014,
      "step": 827
    },
    {
      "epoch": 0.7615543803173144,
      "grad_norm": 0.6102471351623535,
      "learning_rate": 1.3924206752728281e-05,
      "loss": 1.2759,
      "step": 828
    },
    {
      "epoch": 0.7624741319843642,
      "grad_norm": 0.6177085638046265,
      "learning_rate": 1.3822526266073043e-05,
      "loss": 1.3204,
      "step": 829
    },
    {
      "epoch": 0.7633938836514141,
      "grad_norm": 0.5692439675331116,
      "learning_rate": 1.3721158816050873e-05,
      "loss": 1.3467,
      "step": 830
    },
    {
      "epoch": 0.764313635318464,
      "grad_norm": 0.6170715689659119,
      "learning_rate": 1.362010527977453e-05,
      "loss": 1.2864,
      "step": 831
    },
    {
      "epoch": 0.7652333869855139,
      "grad_norm": 0.6100102066993713,
      "learning_rate": 1.3519366531640587e-05,
      "loss": 1.331,
      "step": 832
    },
    {
      "epoch": 0.7661531386525638,
      "grad_norm": 0.6240009069442749,
      "learning_rate": 1.3418943443321807e-05,
      "loss": 1.2976,
      "step": 833
    },
    {
      "epoch": 0.7670728903196137,
      "grad_norm": 0.5838286876678467,
      "learning_rate": 1.3318836883759634e-05,
      "loss": 1.2843,
      "step": 834
    },
    {
      "epoch": 0.7679926419866636,
      "grad_norm": 0.6636451482772827,
      "learning_rate": 1.3219047719156575e-05,
      "loss": 1.2261,
      "step": 835
    },
    {
      "epoch": 0.7689123936537134,
      "grad_norm": 0.6104261875152588,
      "learning_rate": 1.3119576812968892e-05,
      "loss": 1.2723,
      "step": 836
    },
    {
      "epoch": 0.7698321453207634,
      "grad_norm": 0.7110616564750671,
      "learning_rate": 1.3020425025898925e-05,
      "loss": 1.295,
      "step": 837
    },
    {
      "epoch": 0.7707518969878133,
      "grad_norm": 0.6308919191360474,
      "learning_rate": 1.292159321588778e-05,
      "loss": 1.225,
      "step": 838
    },
    {
      "epoch": 0.7716716486548632,
      "grad_norm": 0.6422338485717773,
      "learning_rate": 1.2823082238107858e-05,
      "loss": 1.2812,
      "step": 839
    },
    {
      "epoch": 0.7725914003219131,
      "grad_norm": 0.7281700372695923,
      "learning_rate": 1.272489294495548e-05,
      "loss": 1.2313,
      "step": 840
    },
    {
      "epoch": 0.773511151988963,
      "grad_norm": 0.6761153340339661,
      "learning_rate": 1.2627026186043422e-05,
      "loss": 1.2118,
      "step": 841
    },
    {
      "epoch": 0.7744309036560129,
      "grad_norm": 0.6714473366737366,
      "learning_rate": 1.2529482808193749e-05,
      "loss": 1.2265,
      "step": 842
    },
    {
      "epoch": 0.7753506553230628,
      "grad_norm": 0.6813847422599792,
      "learning_rate": 1.243226365543026e-05,
      "loss": 1.2408,
      "step": 843
    },
    {
      "epoch": 0.7762704069901126,
      "grad_norm": 0.6646814346313477,
      "learning_rate": 1.233536956897136e-05,
      "loss": 1.1755,
      "step": 844
    },
    {
      "epoch": 0.7771901586571626,
      "grad_norm": 0.6985054612159729,
      "learning_rate": 1.2238801387222714e-05,
      "loss": 1.155,
      "step": 845
    },
    {
      "epoch": 0.7781099103242125,
      "grad_norm": 0.6989067196846008,
      "learning_rate": 1.2142559945769993e-05,
      "loss": 1.1747,
      "step": 846
    },
    {
      "epoch": 0.7790296619912623,
      "grad_norm": 0.8439406156539917,
      "learning_rate": 1.2046646077371615e-05,
      "loss": 1.1648,
      "step": 847
    },
    {
      "epoch": 0.7799494136583123,
      "grad_norm": 0.8463898301124573,
      "learning_rate": 1.1951060611951615e-05,
      "loss": 1.1043,
      "step": 848
    },
    {
      "epoch": 0.7808691653253621,
      "grad_norm": 0.9298079013824463,
      "learning_rate": 1.185580437659241e-05,
      "loss": 1.0148,
      "step": 849
    },
    {
      "epoch": 0.781788916992412,
      "grad_norm": 1.260094404220581,
      "learning_rate": 1.1760878195527642e-05,
      "loss": 0.9653,
      "step": 850
    },
    {
      "epoch": 0.782708668659462,
      "grad_norm": 1.080349326133728,
      "learning_rate": 1.1666282890135082e-05,
      "loss": 1.4973,
      "step": 851
    },
    {
      "epoch": 0.7836284203265118,
      "grad_norm": 1.0160036087036133,
      "learning_rate": 1.1572019278929458e-05,
      "loss": 1.4835,
      "step": 852
    },
    {
      "epoch": 0.7845481719935617,
      "grad_norm": 1.0411534309387207,
      "learning_rate": 1.1478088177555441e-05,
      "loss": 1.4388,
      "step": 853
    },
    {
      "epoch": 0.7854679236606117,
      "grad_norm": 0.8667961359024048,
      "learning_rate": 1.1384490398780562e-05,
      "loss": 1.4592,
      "step": 854
    },
    {
      "epoch": 0.7863876753276615,
      "grad_norm": 0.7747707366943359,
      "learning_rate": 1.129122675248816e-05,
      "loss": 1.4124,
      "step": 855
    },
    {
      "epoch": 0.7873074269947115,
      "grad_norm": 0.9287156462669373,
      "learning_rate": 1.1198298045670402e-05,
      "loss": 1.4827,
      "step": 856
    },
    {
      "epoch": 0.7882271786617613,
      "grad_norm": 1.0620696544647217,
      "learning_rate": 1.1105705082421303e-05,
      "loss": 1.4392,
      "step": 857
    },
    {
      "epoch": 0.7891469303288112,
      "grad_norm": 1.099214792251587,
      "learning_rate": 1.1013448663929705e-05,
      "loss": 1.4812,
      "step": 858
    },
    {
      "epoch": 0.7900666819958612,
      "grad_norm": 0.9307000637054443,
      "learning_rate": 1.0921529588472445e-05,
      "loss": 1.4939,
      "step": 859
    },
    {
      "epoch": 0.790986433662911,
      "grad_norm": 0.7514574527740479,
      "learning_rate": 1.0829948651407374e-05,
      "loss": 1.4117,
      "step": 860
    },
    {
      "epoch": 0.7919061853299609,
      "grad_norm": 0.6653128862380981,
      "learning_rate": 1.0738706645166508e-05,
      "loss": 1.4885,
      "step": 861
    },
    {
      "epoch": 0.7928259369970108,
      "grad_norm": 0.7091299295425415,
      "learning_rate": 1.0647804359249142e-05,
      "loss": 1.4785,
      "step": 862
    },
    {
      "epoch": 0.7937456886640607,
      "grad_norm": 0.7756891250610352,
      "learning_rate": 1.0557242580215066e-05,
      "loss": 1.499,
      "step": 863
    },
    {
      "epoch": 0.7946654403311106,
      "grad_norm": 0.7706134915351868,
      "learning_rate": 1.0467022091677691e-05,
      "loss": 1.3828,
      "step": 864
    },
    {
      "epoch": 0.7955851919981605,
      "grad_norm": 0.6963340044021606,
      "learning_rate": 1.037714367429734e-05,
      "loss": 1.415,
      "step": 865
    },
    {
      "epoch": 0.7965049436652104,
      "grad_norm": 0.683591365814209,
      "learning_rate": 1.0287608105774454e-05,
      "loss": 1.4614,
      "step": 866
    },
    {
      "epoch": 0.7974246953322602,
      "grad_norm": 0.6579643487930298,
      "learning_rate": 1.019841616084286e-05,
      "loss": 1.4229,
      "step": 867
    },
    {
      "epoch": 0.7983444469993102,
      "grad_norm": 0.655005156993866,
      "learning_rate": 1.0109568611263093e-05,
      "loss": 1.3674,
      "step": 868
    },
    {
      "epoch": 0.7992641986663601,
      "grad_norm": 0.6061270236968994,
      "learning_rate": 1.0021066225815689e-05,
      "loss": 1.4522,
      "step": 869
    },
    {
      "epoch": 0.8001839503334099,
      "grad_norm": 0.6729152798652649,
      "learning_rate": 9.932909770294541e-06,
      "loss": 1.3665,
      "step": 870
    },
    {
      "epoch": 0.8011037020004599,
      "grad_norm": 0.6866083145141602,
      "learning_rate": 9.84510000750029e-06,
      "loss": 1.341,
      "step": 871
    },
    {
      "epoch": 0.8020234536675098,
      "grad_norm": 0.6673592329025269,
      "learning_rate": 9.757637697233723e-06,
      "loss": 1.4353,
      "step": 872
    },
    {
      "epoch": 0.8029432053345597,
      "grad_norm": 0.6237421035766602,
      "learning_rate": 9.670523596289138e-06,
      "loss": 1.4077,
      "step": 873
    },
    {
      "epoch": 0.8038629570016096,
      "grad_norm": 0.6855435967445374,
      "learning_rate": 9.583758458447927e-06,
      "loss": 1.4204,
      "step": 874
    },
    {
      "epoch": 0.8047827086686594,
      "grad_norm": 0.6294743418693542,
      "learning_rate": 9.497343034471895e-06,
      "loss": 1.4306,
      "step": 875
    },
    {
      "epoch": 0.8057024603357094,
      "grad_norm": 0.5920624136924744,
      "learning_rate": 9.41127807209688e-06,
      "loss": 1.4342,
      "step": 876
    },
    {
      "epoch": 0.8066222120027593,
      "grad_norm": 0.5831781625747681,
      "learning_rate": 9.325564316026237e-06,
      "loss": 1.3581,
      "step": 877
    },
    {
      "epoch": 0.8075419636698091,
      "grad_norm": 0.6441843509674072,
      "learning_rate": 9.240202507924412e-06,
      "loss": 1.3834,
      "step": 878
    },
    {
      "epoch": 0.8084617153368591,
      "grad_norm": 0.8426811099052429,
      "learning_rate": 9.155193386410465e-06,
      "loss": 1.4059,
      "step": 879
    },
    {
      "epoch": 0.8093814670039089,
      "grad_norm": 0.7335101366043091,
      "learning_rate": 9.070537687051817e-06,
      "loss": 1.3253,
      "step": 880
    },
    {
      "epoch": 0.8103012186709588,
      "grad_norm": 0.6380130052566528,
      "learning_rate": 8.986236142357708e-06,
      "loss": 1.368,
      "step": 881
    },
    {
      "epoch": 0.8112209703380088,
      "grad_norm": 0.6573965549468994,
      "learning_rate": 8.902289481772997e-06,
      "loss": 1.2883,
      "step": 882
    },
    {
      "epoch": 0.8121407220050586,
      "grad_norm": 0.658258855342865,
      "learning_rate": 8.818698431671773e-06,
      "loss": 1.3068,
      "step": 883
    },
    {
      "epoch": 0.8130604736721085,
      "grad_norm": 0.5781223773956299,
      "learning_rate": 8.735463715351139e-06,
      "loss": 1.2877,
      "step": 884
    },
    {
      "epoch": 0.8139802253391585,
      "grad_norm": 0.7181767225265503,
      "learning_rate": 8.652586053024836e-06,
      "loss": 1.2878,
      "step": 885
    },
    {
      "epoch": 0.8148999770062083,
      "grad_norm": 0.6754813194274902,
      "learning_rate": 8.570066161817176e-06,
      "loss": 1.2296,
      "step": 886
    },
    {
      "epoch": 0.8158197286732582,
      "grad_norm": 0.655967652797699,
      "learning_rate": 8.487904755756677e-06,
      "loss": 1.2901,
      "step": 887
    },
    {
      "epoch": 0.8167394803403081,
      "grad_norm": 0.6471141576766968,
      "learning_rate": 8.406102545769989e-06,
      "loss": 1.1674,
      "step": 888
    },
    {
      "epoch": 0.817659232007358,
      "grad_norm": 0.615079939365387,
      "learning_rate": 8.324660239675696e-06,
      "loss": 1.2264,
      "step": 889
    },
    {
      "epoch": 0.818578983674408,
      "grad_norm": 0.671017587184906,
      "learning_rate": 8.243578542178226e-06,
      "loss": 1.2746,
      "step": 890
    },
    {
      "epoch": 0.8194987353414578,
      "grad_norm": 0.6405725479125977,
      "learning_rate": 8.16285815486168e-06,
      "loss": 1.26,
      "step": 891
    },
    {
      "epoch": 0.8204184870085077,
      "grad_norm": 0.7116778492927551,
      "learning_rate": 8.082499776183883e-06,
      "loss": 1.2526,
      "step": 892
    },
    {
      "epoch": 0.8213382386755576,
      "grad_norm": 0.6701216697692871,
      "learning_rate": 8.002504101470204e-06,
      "loss": 1.1883,
      "step": 893
    },
    {
      "epoch": 0.8222579903426075,
      "grad_norm": 0.7331655025482178,
      "learning_rate": 7.92287182290764e-06,
      "loss": 1.2322,
      "step": 894
    },
    {
      "epoch": 0.8231777420096574,
      "grad_norm": 0.7266958951950073,
      "learning_rate": 7.843603629538804e-06,
      "loss": 1.1902,
      "step": 895
    },
    {
      "epoch": 0.8240974936767073,
      "grad_norm": 0.7101981043815613,
      "learning_rate": 7.764700207255903e-06,
      "loss": 1.0998,
      "step": 896
    },
    {
      "epoch": 0.8250172453437572,
      "grad_norm": 0.7413234114646912,
      "learning_rate": 7.686162238794897e-06,
      "loss": 1.1047,
      "step": 897
    },
    {
      "epoch": 0.825936997010807,
      "grad_norm": 0.8715062141418457,
      "learning_rate": 7.607990403729526e-06,
      "loss": 1.1146,
      "step": 898
    },
    {
      "epoch": 0.826856748677857,
      "grad_norm": 0.9183730483055115,
      "learning_rate": 7.5301853784654595e-06,
      "loss": 1.0057,
      "step": 899
    },
    {
      "epoch": 0.8277765003449069,
      "grad_norm": 1.0864571332931519,
      "learning_rate": 7.452747836234392e-06,
      "loss": 0.978,
      "step": 900
    },
    {
      "epoch": 0.8277765003449069,
      "eval_loss": 1.3344465494155884,
      "eval_runtime": 49.9437,
      "eval_samples_per_second": 164.986,
      "eval_steps_per_second": 20.623,
      "step": 900
    },
    {
      "epoch": 0.8286962520119567,
      "grad_norm": 0.8766337037086487,
      "learning_rate": 7.375678447088347e-06,
      "loss": 1.5154,
      "step": 901
    },
    {
      "epoch": 0.8296160036790067,
      "grad_norm": 0.8737375140190125,
      "learning_rate": 7.298977877893687e-06,
      "loss": 1.4447,
      "step": 902
    },
    {
      "epoch": 0.8305357553460566,
      "grad_norm": 0.9431170225143433,
      "learning_rate": 7.222646792325516e-06,
      "loss": 1.4588,
      "step": 903
    },
    {
      "epoch": 0.8314555070131064,
      "grad_norm": 0.9367691874504089,
      "learning_rate": 7.146685850861851e-06,
      "loss": 1.4205,
      "step": 904
    },
    {
      "epoch": 0.8323752586801564,
      "grad_norm": 0.812258780002594,
      "learning_rate": 7.071095710777925e-06,
      "loss": 1.4177,
      "step": 905
    },
    {
      "epoch": 0.8332950103472062,
      "grad_norm": 0.7034198045730591,
      "learning_rate": 6.995877026140468e-06,
      "loss": 1.4146,
      "step": 906
    },
    {
      "epoch": 0.8342147620142562,
      "grad_norm": 0.7884905934333801,
      "learning_rate": 6.921030447802146e-06,
      "loss": 1.4616,
      "step": 907
    },
    {
      "epoch": 0.8351345136813061,
      "grad_norm": 0.8112537860870361,
      "learning_rate": 6.8465566233957945e-06,
      "loss": 1.3435,
      "step": 908
    },
    {
      "epoch": 0.8360542653483559,
      "grad_norm": 0.7667593955993652,
      "learning_rate": 6.772456197328919e-06,
      "loss": 1.464,
      "step": 909
    },
    {
      "epoch": 0.8369740170154059,
      "grad_norm": 0.762269914150238,
      "learning_rate": 6.698729810778065e-06,
      "loss": 1.4473,
      "step": 910
    },
    {
      "epoch": 0.8378937686824557,
      "grad_norm": 0.852673351764679,
      "learning_rate": 6.625378101683316e-06,
      "loss": 1.4215,
      "step": 911
    },
    {
      "epoch": 0.8388135203495056,
      "grad_norm": 0.7429057359695435,
      "learning_rate": 6.552401704742678e-06,
      "loss": 1.4426,
      "step": 912
    },
    {
      "epoch": 0.8397332720165556,
      "grad_norm": 0.6884950995445251,
      "learning_rate": 6.4798012514067475e-06,
      "loss": 1.4016,
      "step": 913
    },
    {
      "epoch": 0.8406530236836054,
      "grad_norm": 0.6550636291503906,
      "learning_rate": 6.407577369873069e-06,
      "loss": 1.4468,
      "step": 914
    },
    {
      "epoch": 0.8415727753506553,
      "grad_norm": 0.5837852358818054,
      "learning_rate": 6.335730685080837e-06,
      "loss": 1.4036,
      "step": 915
    },
    {
      "epoch": 0.8424925270177053,
      "grad_norm": 0.5570608377456665,
      "learning_rate": 6.264261818705419e-06,
      "loss": 1.3483,
      "step": 916
    },
    {
      "epoch": 0.8434122786847551,
      "grad_norm": 0.7056939005851746,
      "learning_rate": 6.193171389152997e-06,
      "loss": 1.3397,
      "step": 917
    },
    {
      "epoch": 0.844332030351805,
      "grad_norm": 0.623600423336029,
      "learning_rate": 6.122460011555187e-06,
      "loss": 1.4304,
      "step": 918
    },
    {
      "epoch": 0.8452517820188549,
      "grad_norm": 0.6012278199195862,
      "learning_rate": 6.052128297763804e-06,
      "loss": 1.3684,
      "step": 919
    },
    {
      "epoch": 0.8461715336859048,
      "grad_norm": 0.582744836807251,
      "learning_rate": 5.982176856345445e-06,
      "loss": 1.4205,
      "step": 920
    },
    {
      "epoch": 0.8470912853529547,
      "grad_norm": 0.5616964101791382,
      "learning_rate": 5.912606292576283e-06,
      "loss": 1.3209,
      "step": 921
    },
    {
      "epoch": 0.8480110370200046,
      "grad_norm": 0.5474282503128052,
      "learning_rate": 5.843417208436908e-06,
      "loss": 1.4125,
      "step": 922
    },
    {
      "epoch": 0.8489307886870545,
      "grad_norm": 0.533388614654541,
      "learning_rate": 5.774610202606939e-06,
      "loss": 1.4116,
      "step": 923
    },
    {
      "epoch": 0.8498505403541043,
      "grad_norm": 0.5694478154182434,
      "learning_rate": 5.706185870460018e-06,
      "loss": 1.509,
      "step": 924
    },
    {
      "epoch": 0.8507702920211543,
      "grad_norm": 0.5748287439346313,
      "learning_rate": 5.638144804058559e-06,
      "loss": 1.3528,
      "step": 925
    },
    {
      "epoch": 0.8516900436882042,
      "grad_norm": 0.6192615032196045,
      "learning_rate": 5.5704875921486655e-06,
      "loss": 1.3098,
      "step": 926
    },
    {
      "epoch": 0.852609795355254,
      "grad_norm": 0.6460704207420349,
      "learning_rate": 5.503214820154978e-06,
      "loss": 1.3839,
      "step": 927
    },
    {
      "epoch": 0.853529547022304,
      "grad_norm": 0.620794951915741,
      "learning_rate": 5.436327070175728e-06,
      "loss": 1.4197,
      "step": 928
    },
    {
      "epoch": 0.8544492986893538,
      "grad_norm": 0.6275455355644226,
      "learning_rate": 5.369824920977568e-06,
      "loss": 1.2891,
      "step": 929
    },
    {
      "epoch": 0.8553690503564038,
      "grad_norm": 0.5857694149017334,
      "learning_rate": 5.303708947990637e-06,
      "loss": 1.3334,
      "step": 930
    },
    {
      "epoch": 0.8562888020234537,
      "grad_norm": 0.6003711819648743,
      "learning_rate": 5.2379797233035824e-06,
      "loss": 1.395,
      "step": 931
    },
    {
      "epoch": 0.8572085536905035,
      "grad_norm": 0.6273806095123291,
      "learning_rate": 5.1726378156585816e-06,
      "loss": 1.2778,
      "step": 932
    },
    {
      "epoch": 0.8581283053575535,
      "grad_norm": 0.6366182565689087,
      "learning_rate": 5.10768379044641e-06,
      "loss": 1.3508,
      "step": 933
    },
    {
      "epoch": 0.8590480570246034,
      "grad_norm": 0.6845077872276306,
      "learning_rate": 5.043118209701631e-06,
      "loss": 1.2843,
      "step": 934
    },
    {
      "epoch": 0.8599678086916532,
      "grad_norm": 0.6707909107208252,
      "learning_rate": 4.978941632097611e-06,
      "loss": 1.3239,
      "step": 935
    },
    {
      "epoch": 0.8608875603587032,
      "grad_norm": 0.7041406631469727,
      "learning_rate": 4.9151546129417804e-06,
      "loss": 1.2556,
      "step": 936
    },
    {
      "epoch": 0.861807312025753,
      "grad_norm": 0.6683023571968079,
      "learning_rate": 4.8517577041707955e-06,
      "loss": 1.289,
      "step": 937
    },
    {
      "epoch": 0.8627270636928029,
      "grad_norm": 0.6463608741760254,
      "learning_rate": 4.788751454345763e-06,
      "loss": 1.225,
      "step": 938
    },
    {
      "epoch": 0.8636468153598529,
      "grad_norm": 0.6901978254318237,
      "learning_rate": 4.726136408647464e-06,
      "loss": 1.2177,
      "step": 939
    },
    {
      "epoch": 0.8645665670269027,
      "grad_norm": 0.6679742336273193,
      "learning_rate": 4.663913108871726e-06,
      "loss": 1.2586,
      "step": 940
    },
    {
      "epoch": 0.8654863186939526,
      "grad_norm": 0.6778735518455505,
      "learning_rate": 4.60208209342462e-06,
      "loss": 1.183,
      "step": 941
    },
    {
      "epoch": 0.8664060703610025,
      "grad_norm": 0.6251430511474609,
      "learning_rate": 4.540643897317887e-06,
      "loss": 1.2523,
      "step": 942
    },
    {
      "epoch": 0.8673258220280524,
      "grad_norm": 0.6894196271896362,
      "learning_rate": 4.479599052164268e-06,
      "loss": 1.183,
      "step": 943
    },
    {
      "epoch": 0.8682455736951024,
      "grad_norm": 0.6839209198951721,
      "learning_rate": 4.418948086172914e-06,
      "loss": 1.1992,
      "step": 944
    },
    {
      "epoch": 0.8691653253621522,
      "grad_norm": 0.7572594285011292,
      "learning_rate": 4.35869152414482e-06,
      "loss": 1.1731,
      "step": 945
    },
    {
      "epoch": 0.8700850770292021,
      "grad_norm": 0.7147699594497681,
      "learning_rate": 4.298829887468275e-06,
      "loss": 1.1665,
      "step": 946
    },
    {
      "epoch": 0.8710048286962521,
      "grad_norm": 0.7666782736778259,
      "learning_rate": 4.2393636941143675e-06,
      "loss": 1.149,
      "step": 947
    },
    {
      "epoch": 0.8719245803633019,
      "grad_norm": 0.7843433022499084,
      "learning_rate": 4.180293458632489e-06,
      "loss": 1.0903,
      "step": 948
    },
    {
      "epoch": 0.8728443320303518,
      "grad_norm": 0.958113431930542,
      "learning_rate": 4.121619692145878e-06,
      "loss": 1.118,
      "step": 949
    },
    {
      "epoch": 0.8737640836974017,
      "grad_norm": 1.1284202337265015,
      "learning_rate": 4.0633429023472e-06,
      "loss": 0.9711,
      "step": 950
    },
    {
      "epoch": 0.8746838353644516,
      "grad_norm": 0.8368450403213501,
      "learning_rate": 4.005463593494163e-06,
      "loss": 1.4433,
      "step": 951
    },
    {
      "epoch": 0.8756035870315015,
      "grad_norm": 0.6638758182525635,
      "learning_rate": 3.947982266405159e-06,
      "loss": 1.4285,
      "step": 952
    },
    {
      "epoch": 0.8765233386985514,
      "grad_norm": 0.8789987564086914,
      "learning_rate": 3.890899418454913e-06,
      "loss": 1.4212,
      "step": 953
    },
    {
      "epoch": 0.8774430903656013,
      "grad_norm": 0.847080409526825,
      "learning_rate": 3.834215543570191e-06,
      "loss": 1.4124,
      "step": 954
    },
    {
      "epoch": 0.8783628420326511,
      "grad_norm": 0.9596214890480042,
      "learning_rate": 3.777931132225526e-06,
      "loss": 1.3723,
      "step": 955
    },
    {
      "epoch": 0.8792825936997011,
      "grad_norm": 0.9075647592544556,
      "learning_rate": 3.72204667143895e-06,
      "loss": 1.493,
      "step": 956
    },
    {
      "epoch": 0.880202345366751,
      "grad_norm": 0.780536413192749,
      "learning_rate": 3.6665626447678237e-06,
      "loss": 1.4126,
      "step": 957
    },
    {
      "epoch": 0.8811220970338008,
      "grad_norm": 0.6997688412666321,
      "learning_rate": 3.611479532304618e-06,
      "loss": 1.389,
      "step": 958
    },
    {
      "epoch": 0.8820418487008508,
      "grad_norm": 0.620875358581543,
      "learning_rate": 3.556797810672785e-06,
      "loss": 1.3514,
      "step": 959
    },
    {
      "epoch": 0.8829616003679006,
      "grad_norm": 0.6854445338249207,
      "learning_rate": 3.5025179530225994e-06,
      "loss": 1.4661,
      "step": 960
    },
    {
      "epoch": 0.8838813520349506,
      "grad_norm": 0.7020566463470459,
      "learning_rate": 3.4486404290271113e-06,
      "loss": 1.4115,
      "step": 961
    },
    {
      "epoch": 0.8848011037020005,
      "grad_norm": 0.6943616271018982,
      "learning_rate": 3.3951657048780227e-06,
      "loss": 1.4774,
      "step": 962
    },
    {
      "epoch": 0.8857208553690503,
      "grad_norm": 0.7479608654975891,
      "learning_rate": 3.3420942432817127e-06,
      "loss": 1.4625,
      "step": 963
    },
    {
      "epoch": 0.8866406070361003,
      "grad_norm": 0.7025173902511597,
      "learning_rate": 3.289426503455201e-06,
      "loss": 1.4019,
      "step": 964
    },
    {
      "epoch": 0.8875603587031502,
      "grad_norm": 0.673040509223938,
      "learning_rate": 3.2371629411221848e-06,
      "loss": 1.4343,
      "step": 965
    },
    {
      "epoch": 0.8884801103702,
      "grad_norm": 0.728541910648346,
      "learning_rate": 3.185304008509077e-06,
      "loss": 1.5093,
      "step": 966
    },
    {
      "epoch": 0.88939986203725,
      "grad_norm": 0.6773453950881958,
      "learning_rate": 3.133850154341139e-06,
      "loss": 1.4002,
      "step": 967
    },
    {
      "epoch": 0.8903196137042998,
      "grad_norm": 0.6363242864608765,
      "learning_rate": 3.082801823838527e-06,
      "loss": 1.4272,
      "step": 968
    },
    {
      "epoch": 0.8912393653713497,
      "grad_norm": 0.5722589492797852,
      "learning_rate": 3.032159458712508e-06,
      "loss": 1.3557,
      "step": 969
    },
    {
      "epoch": 0.8921591170383997,
      "grad_norm": 0.5886601209640503,
      "learning_rate": 2.981923497161615e-06,
      "loss": 1.3874,
      "step": 970
    },
    {
      "epoch": 0.8930788687054495,
      "grad_norm": 0.6230661273002625,
      "learning_rate": 2.9320943738678107e-06,
      "loss": 1.3784,
      "step": 971
    },
    {
      "epoch": 0.8939986203724994,
      "grad_norm": 0.5844275951385498,
      "learning_rate": 2.882672519992824e-06,
      "loss": 1.4153,
      "step": 972
    },
    {
      "epoch": 0.8949183720395493,
      "grad_norm": 0.6414538621902466,
      "learning_rate": 2.833658363174302e-06,
      "loss": 1.3611,
      "step": 973
    },
    {
      "epoch": 0.8958381237065992,
      "grad_norm": 0.6074815392494202,
      "learning_rate": 2.785052327522214e-06,
      "loss": 1.3607,
      "step": 974
    },
    {
      "epoch": 0.8967578753736491,
      "grad_norm": 0.5938957333564758,
      "learning_rate": 2.73685483361511e-06,
      "loss": 1.3765,
      "step": 975
    },
    {
      "epoch": 0.897677627040699,
      "grad_norm": 0.5869003534317017,
      "learning_rate": 2.6890662984965232e-06,
      "loss": 1.392,
      "step": 976
    },
    {
      "epoch": 0.8985973787077489,
      "grad_norm": 0.5588386654853821,
      "learning_rate": 2.6416871356713224e-06,
      "loss": 1.3047,
      "step": 977
    },
    {
      "epoch": 0.8995171303747989,
      "grad_norm": 0.5922186970710754,
      "learning_rate": 2.594717755102205e-06,
      "loss": 1.3928,
      "step": 978
    },
    {
      "epoch": 0.9004368820418487,
      "grad_norm": 0.5693724155426025,
      "learning_rate": 2.548158563206038e-06,
      "loss": 1.347,
      "step": 979
    },
    {
      "epoch": 0.9013566337088986,
      "grad_norm": 0.6117263436317444,
      "learning_rate": 2.50200996285046e-06,
      "loss": 1.3568,
      "step": 980
    },
    {
      "epoch": 0.9022763853759485,
      "grad_norm": 0.5885259509086609,
      "learning_rate": 2.4562723533503083e-06,
      "loss": 1.4184,
      "step": 981
    },
    {
      "epoch": 0.9031961370429984,
      "grad_norm": 0.6112256646156311,
      "learning_rate": 2.4109461304642256e-06,
      "loss": 1.3344,
      "step": 982
    },
    {
      "epoch": 0.9041158887100483,
      "grad_norm": 0.6500238180160522,
      "learning_rate": 2.366031686391168e-06,
      "loss": 1.3372,
      "step": 983
    },
    {
      "epoch": 0.9050356403770982,
      "grad_norm": 0.6185190677642822,
      "learning_rate": 2.3215294097670925e-06,
      "loss": 1.2273,
      "step": 984
    },
    {
      "epoch": 0.9059553920441481,
      "grad_norm": 0.6523995995521545,
      "learning_rate": 2.277439685661509e-06,
      "loss": 1.2538,
      "step": 985
    },
    {
      "epoch": 0.9068751437111979,
      "grad_norm": 0.7136437296867371,
      "learning_rate": 2.2337628955742264e-06,
      "loss": 1.3739,
      "step": 986
    },
    {
      "epoch": 0.9077948953782479,
      "grad_norm": 0.6043840050697327,
      "learning_rate": 2.1904994174319905e-06,
      "loss": 1.2184,
      "step": 987
    },
    {
      "epoch": 0.9087146470452978,
      "grad_norm": 0.6362565159797668,
      "learning_rate": 2.1476496255852683e-06,
      "loss": 1.1398,
      "step": 988
    },
    {
      "epoch": 0.9096343987123476,
      "grad_norm": 0.6597528457641602,
      "learning_rate": 2.1052138908049303e-06,
      "loss": 1.1972,
      "step": 989
    },
    {
      "epoch": 0.9105541503793976,
      "grad_norm": 0.679057240486145,
      "learning_rate": 2.0631925802791606e-06,
      "loss": 1.2572,
      "step": 990
    },
    {
      "epoch": 0.9114739020464474,
      "grad_norm": 0.6650072336196899,
      "learning_rate": 2.021586057610153e-06,
      "loss": 1.1868,
      "step": 991
    },
    {
      "epoch": 0.9123936537134973,
      "grad_norm": 0.6258329749107361,
      "learning_rate": 1.9803946828110375e-06,
      "loss": 1.209,
      "step": 992
    },
    {
      "epoch": 0.9133134053805473,
      "grad_norm": 0.6818736791610718,
      "learning_rate": 1.9396188123027737e-06,
      "loss": 1.2432,
      "step": 993
    },
    {
      "epoch": 0.9142331570475971,
      "grad_norm": 0.7300404906272888,
      "learning_rate": 1.8992587989110134e-06,
      "loss": 1.2549,
      "step": 994
    },
    {
      "epoch": 0.915152908714647,
      "grad_norm": 0.7216602563858032,
      "learning_rate": 1.8593149918630925e-06,
      "loss": 1.1911,
      "step": 995
    },
    {
      "epoch": 0.916072660381697,
      "grad_norm": 0.7485631704330444,
      "learning_rate": 1.8197877367849947e-06,
      "loss": 1.1326,
      "step": 996
    },
    {
      "epoch": 0.9169924120487468,
      "grad_norm": 0.8240882158279419,
      "learning_rate": 1.7806773756983642e-06,
      "loss": 1.1299,
      "step": 997
    },
    {
      "epoch": 0.9179121637157968,
      "grad_norm": 0.9147471189498901,
      "learning_rate": 1.7419842470175195e-06,
      "loss": 1.1179,
      "step": 998
    },
    {
      "epoch": 0.9188319153828466,
      "grad_norm": 0.9360700249671936,
      "learning_rate": 1.70370868554659e-06,
      "loss": 1.0562,
      "step": 999
    },
    {
      "epoch": 0.9197516670498965,
      "grad_norm": 1.174989104270935,
      "learning_rate": 1.6658510224765333e-06,
      "loss": 0.9121,
      "step": 1000
    },
    {
      "epoch": 0.9206714187169465,
      "grad_norm": 0.8917292952537537,
      "learning_rate": 1.6284115853823445e-06,
      "loss": 1.4961,
      "step": 1001
    },
    {
      "epoch": 0.9215911703839963,
      "grad_norm": 0.6432257890701294,
      "learning_rate": 1.5913906982201742e-06,
      "loss": 1.488,
      "step": 1002
    },
    {
      "epoch": 0.9225109220510462,
      "grad_norm": 0.7689481973648071,
      "learning_rate": 1.5547886813245539e-06,
      "loss": 1.4265,
      "step": 1003
    },
    {
      "epoch": 0.9234306737180961,
      "grad_norm": 0.7164052128791809,
      "learning_rate": 1.5186058514055912e-06,
      "loss": 1.4054,
      "step": 1004
    },
    {
      "epoch": 0.924350425385146,
      "grad_norm": 0.8932134509086609,
      "learning_rate": 1.4828425215462848e-06,
      "loss": 1.403,
      "step": 1005
    },
    {
      "epoch": 0.9252701770521959,
      "grad_norm": 0.8750680685043335,
      "learning_rate": 1.447499001199748e-06,
      "loss": 1.3956,
      "step": 1006
    },
    {
      "epoch": 0.9261899287192458,
      "grad_norm": 0.7176107168197632,
      "learning_rate": 1.4125755961865827e-06,
      "loss": 1.4235,
      "step": 1007
    },
    {
      "epoch": 0.9271096803862957,
      "grad_norm": 0.7204969525337219,
      "learning_rate": 1.3780726086922103e-06,
      "loss": 1.3773,
      "step": 1008
    },
    {
      "epoch": 0.9280294320533456,
      "grad_norm": 0.6472546458244324,
      "learning_rate": 1.3439903372642615e-06,
      "loss": 1.4734,
      "step": 1009
    },
    {
      "epoch": 0.9289491837203955,
      "grad_norm": 0.679750919342041,
      "learning_rate": 1.3103290768099797e-06,
      "loss": 1.5028,
      "step": 1010
    },
    {
      "epoch": 0.9298689353874454,
      "grad_norm": 0.6491613984107971,
      "learning_rate": 1.2770891185937105e-06,
      "loss": 1.403,
      "step": 1011
    },
    {
      "epoch": 0.9307886870544952,
      "grad_norm": 0.6442059278488159,
      "learning_rate": 1.2442707502343332e-06,
      "loss": 1.4124,
      "step": 1012
    },
    {
      "epoch": 0.9317084387215452,
      "grad_norm": 0.5981637835502625,
      "learning_rate": 1.2118742557027884e-06,
      "loss": 1.459,
      "step": 1013
    },
    {
      "epoch": 0.9326281903885951,
      "grad_norm": 0.5459677577018738,
      "learning_rate": 1.1798999153196433e-06,
      "loss": 1.4171,
      "step": 1014
    },
    {
      "epoch": 0.933547942055645,
      "grad_norm": 0.5810702443122864,
      "learning_rate": 1.1483480057526363e-06,
      "loss": 1.3995,
      "step": 1015
    },
    {
      "epoch": 0.9344676937226949,
      "grad_norm": 0.5334146022796631,
      "learning_rate": 1.1172188000142802e-06,
      "loss": 1.4004,
      "step": 1016
    },
    {
      "epoch": 0.9353874453897447,
      "grad_norm": 0.5717347860336304,
      "learning_rate": 1.0865125674595466e-06,
      "loss": 1.3843,
      "step": 1017
    },
    {
      "epoch": 0.9363071970567947,
      "grad_norm": 0.5235407948493958,
      "learning_rate": 1.0562295737834737e-06,
      "loss": 1.3558,
      "step": 1018
    },
    {
      "epoch": 0.9372269487238446,
      "grad_norm": 0.5573782324790955,
      "learning_rate": 1.026370081018907e-06,
      "loss": 1.4016,
      "step": 1019
    },
    {
      "epoch": 0.9381467003908944,
      "grad_norm": 0.5528433322906494,
      "learning_rate": 9.969343475342285e-07,
      "loss": 1.3298,
      "step": 1020
    },
    {
      "epoch": 0.9390664520579444,
      "grad_norm": 0.573993980884552,
      "learning_rate": 9.679226280310982e-07,
      "loss": 1.3674,
      "step": 1021
    },
    {
      "epoch": 0.9399862037249943,
      "grad_norm": 0.5446662902832031,
      "learning_rate": 9.393351735422773e-07,
      "loss": 1.3571,
      "step": 1022
    },
    {
      "epoch": 0.9409059553920441,
      "grad_norm": 0.5892913937568665,
      "learning_rate": 9.111722314294358e-07,
      "loss": 1.3471,
      "step": 1023
    },
    {
      "epoch": 0.9418257070590941,
      "grad_norm": 0.6275593638420105,
      "learning_rate": 8.834340453810375e-07,
      "loss": 1.3269,
      "step": 1024
    },
    {
      "epoch": 0.9427454587261439,
      "grad_norm": 0.6341751217842102,
      "learning_rate": 8.561208554101863e-07,
      "loss": 1.3899,
      "step": 1025
    },
    {
      "epoch": 0.9436652103931938,
      "grad_norm": 0.6272470951080322,
      "learning_rate": 8.292328978526109e-07,
      "loss": 1.3545,
      "step": 1026
    },
    {
      "epoch": 0.9445849620602438,
      "grad_norm": 0.6651190519332886,
      "learning_rate": 8.027704053645613e-07,
      "loss": 1.3397,
      "step": 1027
    },
    {
      "epoch": 0.9455047137272936,
      "grad_norm": 0.6504070162773132,
      "learning_rate": 7.76733606920832e-07,
      "loss": 1.3889,
      "step": 1028
    },
    {
      "epoch": 0.9464244653943436,
      "grad_norm": 0.639077365398407,
      "learning_rate": 7.511227278127697e-07,
      "loss": 1.3159,
      "step": 1029
    },
    {
      "epoch": 0.9473442170613934,
      "grad_norm": 0.685070812702179,
      "learning_rate": 7.259379896463247e-07,
      "loss": 1.312,
      "step": 1030
    },
    {
      "epoch": 0.9482639687284433,
      "grad_norm": 0.705894947052002,
      "learning_rate": 7.011796103401191e-07,
      "loss": 1.325,
      "step": 1031
    },
    {
      "epoch": 0.9491837203954933,
      "grad_norm": 0.6670310497283936,
      "learning_rate": 6.768478041236037e-07,
      "loss": 1.3582,
      "step": 1032
    },
    {
      "epoch": 0.9501034720625431,
      "grad_norm": 0.7927426695823669,
      "learning_rate": 6.529427815351374e-07,
      "loss": 1.3767,
      "step": 1033
    },
    {
      "epoch": 0.951023223729593,
      "grad_norm": 0.6605473160743713,
      "learning_rate": 6.294647494202444e-07,
      "loss": 1.2937,
      "step": 1034
    },
    {
      "epoch": 0.9519429753966429,
      "grad_norm": 0.599684476852417,
      "learning_rate": 6.064139109297485e-07,
      "loss": 1.2802,
      "step": 1035
    },
    {
      "epoch": 0.9528627270636928,
      "grad_norm": 0.6753445267677307,
      "learning_rate": 5.837904655180748e-07,
      "loss": 1.297,
      "step": 1036
    },
    {
      "epoch": 0.9537824787307427,
      "grad_norm": 0.6682940125465393,
      "learning_rate": 5.615946089414736e-07,
      "loss": 1.3073,
      "step": 1037
    },
    {
      "epoch": 0.9547022303977926,
      "grad_norm": 0.6744109392166138,
      "learning_rate": 5.398265332563934e-07,
      "loss": 1.1858,
      "step": 1038
    },
    {
      "epoch": 0.9556219820648425,
      "grad_norm": 0.6154145002365112,
      "learning_rate": 5.184864268177325e-07,
      "loss": 1.1648,
      "step": 1039
    },
    {
      "epoch": 0.9565417337318924,
      "grad_norm": 0.6836906671524048,
      "learning_rate": 4.975744742772848e-07,
      "loss": 1.2518,
      "step": 1040
    },
    {
      "epoch": 0.9574614853989423,
      "grad_norm": 0.6386029720306396,
      "learning_rate": 4.770908565820964e-07,
      "loss": 1.2142,
      "step": 1041
    },
    {
      "epoch": 0.9583812370659922,
      "grad_norm": 0.6528066992759705,
      "learning_rate": 4.5703575097292286e-07,
      "loss": 1.1931,
      "step": 1042
    },
    {
      "epoch": 0.959300988733042,
      "grad_norm": 0.665433406829834,
      "learning_rate": 4.37409330982691e-07,
      "loss": 1.202,
      "step": 1043
    },
    {
      "epoch": 0.960220740400092,
      "grad_norm": 0.7009211182594299,
      "learning_rate": 4.182117664349783e-07,
      "loss": 1.2317,
      "step": 1044
    },
    {
      "epoch": 0.9611404920671419,
      "grad_norm": 0.7533866167068481,
      "learning_rate": 3.99443223442586e-07,
      "loss": 1.2128,
      "step": 1045
    },
    {
      "epoch": 0.9620602437341917,
      "grad_norm": 0.7658700942993164,
      "learning_rate": 3.8110386440605164e-07,
      "loss": 1.1474,
      "step": 1046
    },
    {
      "epoch": 0.9629799954012417,
      "grad_norm": 0.7905300259590149,
      "learning_rate": 3.6319384801227763e-07,
      "loss": 1.1075,
      "step": 1047
    },
    {
      "epoch": 0.9638997470682915,
      "grad_norm": 0.9083186388015747,
      "learning_rate": 3.4571332923314936e-07,
      "loss": 1.1094,
      "step": 1048
    },
    {
      "epoch": 0.9648194987353415,
      "grad_norm": 0.9923297762870789,
      "learning_rate": 3.2866245932418604e-07,
      "loss": 1.0341,
      "step": 1049
    },
    {
      "epoch": 0.9657392504023914,
      "grad_norm": 1.4956581592559814,
      "learning_rate": 3.120413858232474e-07,
      "loss": 0.9236,
      "step": 1050
    },
    {
      "epoch": 0.9657392504023914,
      "eval_loss": 1.3224910497665405,
      "eval_runtime": 49.9198,
      "eval_samples_per_second": 165.065,
      "eval_steps_per_second": 20.633,
      "step": 1050
    }
  ],
  "logging_steps": 1,
  "max_steps": 1088,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 150,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.9092013631668224e+17,
  "train_batch_size": 12,
  "trial_name": null,
  "trial_params": null
}