{
  "best_metric": 1.1554970741271973,
  "best_model_checkpoint": "miner_id_24/checkpoint-150",
  "epoch": 0.03910833007430583,
  "eval_steps": 50,
  "global_step": 150,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00026072220049537216,
      "grad_norm": 0.33003297448158264,
      "learning_rate": 1e-05,
      "loss": 0.8358,
      "step": 1
    },
    {
      "epoch": 0.00026072220049537216,
      "eval_loss": 2.3393630981445312,
      "eval_runtime": 121.4914,
      "eval_samples_per_second": 53.172,
      "eval_steps_per_second": 13.293,
      "step": 1
    },
    {
      "epoch": 0.0005214444009907443,
      "grad_norm": 0.412315309047699,
      "learning_rate": 2e-05,
      "loss": 1.0153,
      "step": 2
    },
    {
      "epoch": 0.0007821666014861165,
      "grad_norm": 0.5342496633529663,
      "learning_rate": 3e-05,
      "loss": 1.0776,
      "step": 3
    },
    {
      "epoch": 0.0010428888019814887,
      "grad_norm": 0.5519598126411438,
      "learning_rate": 4e-05,
      "loss": 1.2754,
      "step": 4
    },
    {
      "epoch": 0.0013036110024768608,
      "grad_norm": 0.6713606715202332,
      "learning_rate": 5e-05,
      "loss": 1.4364,
      "step": 5
    },
    {
      "epoch": 0.001564333202972233,
      "grad_norm": 0.8884205222129822,
      "learning_rate": 6e-05,
      "loss": 2.1781,
      "step": 6
    },
    {
      "epoch": 0.0018250554034676054,
      "grad_norm": 0.515426516532898,
      "learning_rate": 7e-05,
      "loss": 1.1936,
      "step": 7
    },
    {
      "epoch": 0.0020857776039629773,
      "grad_norm": 0.493123322725296,
      "learning_rate": 8e-05,
      "loss": 1.1074,
      "step": 8
    },
    {
      "epoch": 0.0023464998044583495,
      "grad_norm": 0.709701657295227,
      "learning_rate": 9e-05,
      "loss": 1.4348,
      "step": 9
    },
    {
      "epoch": 0.0026072220049537216,
      "grad_norm": 0.5532085299491882,
      "learning_rate": 0.0001,
      "loss": 1.2292,
      "step": 10
    },
    {
      "epoch": 0.002867944205449094,
      "grad_norm": 0.43159928917884827,
      "learning_rate": 9.999316524962345e-05,
      "loss": 1.155,
      "step": 11
    },
    {
      "epoch": 0.003128666405944466,
      "grad_norm": 0.49809107184410095,
      "learning_rate": 9.997266286704631e-05,
      "loss": 1.2349,
      "step": 12
    },
    {
      "epoch": 0.003389388606439838,
      "grad_norm": 0.4472554922103882,
      "learning_rate": 9.993849845741524e-05,
      "loss": 1.225,
      "step": 13
    },
    {
      "epoch": 0.0036501108069352107,
      "grad_norm": 0.47178784012794495,
      "learning_rate": 9.989068136093873e-05,
      "loss": 1.2221,
      "step": 14
    },
    {
      "epoch": 0.003910833007430583,
      "grad_norm": 0.5901357531547546,
      "learning_rate": 9.98292246503335e-05,
      "loss": 1.4151,
      "step": 15
    },
    {
      "epoch": 0.004171555207925955,
      "grad_norm": 0.46625015139579773,
      "learning_rate": 9.975414512725057e-05,
      "loss": 1.2431,
      "step": 16
    },
    {
      "epoch": 0.004432277408421327,
      "grad_norm": 0.41014137864112854,
      "learning_rate": 9.966546331768191e-05,
      "loss": 1.2339,
      "step": 17
    },
    {
      "epoch": 0.004692999608916699,
      "grad_norm": 0.5211474299430847,
      "learning_rate": 9.956320346634876e-05,
      "loss": 1.333,
      "step": 18
    },
    {
      "epoch": 0.0049537218094120716,
      "grad_norm": 0.6705195307731628,
      "learning_rate": 9.944739353007344e-05,
      "loss": 1.5188,
      "step": 19
    },
    {
      "epoch": 0.005214444009907443,
      "grad_norm": 0.5216784477233887,
      "learning_rate": 9.931806517013612e-05,
      "loss": 1.318,
      "step": 20
    },
    {
      "epoch": 0.005475166210402816,
      "grad_norm": 0.42911723256111145,
      "learning_rate": 9.917525374361912e-05,
      "loss": 1.2684,
      "step": 21
    },
    {
      "epoch": 0.005735888410898188,
      "grad_norm": 0.5654012560844421,
      "learning_rate": 9.901899829374047e-05,
      "loss": 1.3767,
      "step": 22
    },
    {
      "epoch": 0.00599661061139356,
      "grad_norm": 0.43483999371528625,
      "learning_rate": 9.884934153917997e-05,
      "loss": 1.2975,
      "step": 23
    },
    {
      "epoch": 0.006257332811888932,
      "grad_norm": 0.47892966866493225,
      "learning_rate": 9.86663298624003e-05,
      "loss": 1.4538,
      "step": 24
    },
    {
      "epoch": 0.0065180550123843045,
      "grad_norm": 0.45084166526794434,
      "learning_rate": 9.847001329696653e-05,
      "loss": 1.5548,
      "step": 25
    },
    {
      "epoch": 0.006778777212879676,
      "grad_norm": 0.4151066839694977,
      "learning_rate": 9.826044551386744e-05,
      "loss": 1.1864,
      "step": 26
    },
    {
      "epoch": 0.007039499413375049,
      "grad_norm": 0.4722965955734253,
      "learning_rate": 9.803768380684242e-05,
      "loss": 1.5795,
      "step": 27
    },
    {
      "epoch": 0.0073002216138704215,
      "grad_norm": 0.4809904098510742,
      "learning_rate": 9.780178907671789e-05,
      "loss": 1.4017,
      "step": 28
    },
    {
      "epoch": 0.007560943814365793,
      "grad_norm": 0.5106425881385803,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.5732,
      "step": 29
    },
    {
      "epoch": 0.007821666014861166,
      "grad_norm": 0.495236873626709,
      "learning_rate": 9.729086208503174e-05,
      "loss": 1.3241,
      "step": 30
    },
    {
      "epoch": 0.008082388215356538,
      "grad_norm": 0.4927818775177002,
      "learning_rate": 9.701596950580806e-05,
      "loss": 1.8208,
      "step": 31
    },
    {
      "epoch": 0.00834311041585191,
      "grad_norm": 0.4736729860305786,
      "learning_rate": 9.672822322997305e-05,
      "loss": 1.3228,
      "step": 32
    },
    {
      "epoch": 0.008603832616347283,
      "grad_norm": 0.48903703689575195,
      "learning_rate": 9.642770192448536e-05,
      "loss": 1.4505,
      "step": 33
    },
    {
      "epoch": 0.008864554816842654,
      "grad_norm": 0.7001741528511047,
      "learning_rate": 9.611448774886924e-05,
      "loss": 2.0414,
      "step": 34
    },
    {
      "epoch": 0.009125277017338026,
      "grad_norm": 0.7251787185668945,
      "learning_rate": 9.578866633275288e-05,
      "loss": 1.6351,
      "step": 35
    },
    {
      "epoch": 0.009385999217833398,
      "grad_norm": 0.6966261863708496,
      "learning_rate": 9.545032675245813e-05,
      "loss": 1.9265,
      "step": 36
    },
    {
      "epoch": 0.009646721418328771,
      "grad_norm": 0.6325336694717407,
      "learning_rate": 9.509956150664796e-05,
      "loss": 2.0445,
      "step": 37
    },
    {
      "epoch": 0.009907443618824143,
      "grad_norm": 0.5294753909111023,
      "learning_rate": 9.473646649103818e-05,
      "loss": 1.3989,
      "step": 38
    },
    {
      "epoch": 0.010168165819319515,
      "grad_norm": 0.6719866991043091,
      "learning_rate": 9.43611409721806e-05,
      "loss": 1.6876,
      "step": 39
    },
    {
      "epoch": 0.010428888019814887,
      "grad_norm": 0.6387786865234375,
      "learning_rate": 9.397368756032445e-05,
      "loss": 1.8002,
      "step": 40
    },
    {
      "epoch": 0.01068961022031026,
      "grad_norm": 0.6231024265289307,
      "learning_rate": 9.357421218136386e-05,
      "loss": 1.6787,
      "step": 41
    },
    {
      "epoch": 0.010950332420805632,
      "grad_norm": 0.632047712802887,
      "learning_rate": 9.316282404787871e-05,
      "loss": 1.6455,
      "step": 42
    },
    {
      "epoch": 0.011211054621301004,
      "grad_norm": 0.695539116859436,
      "learning_rate": 9.273963562927695e-05,
      "loss": 1.8962,
      "step": 43
    },
    {
      "epoch": 0.011471776821796375,
      "grad_norm": 0.7204544544219971,
      "learning_rate": 9.230476262104677e-05,
      "loss": 2.0063,
      "step": 44
    },
    {
      "epoch": 0.011732499022291749,
      "grad_norm": 0.8792712092399597,
      "learning_rate": 9.185832391312644e-05,
      "loss": 2.0943,
      "step": 45
    },
    {
      "epoch": 0.01199322122278712,
      "grad_norm": 0.7527779936790466,
      "learning_rate": 9.140044155740101e-05,
      "loss": 2.037,
      "step": 46
    },
    {
      "epoch": 0.012253943423282492,
      "grad_norm": 0.7967205047607422,
      "learning_rate": 9.093124073433463e-05,
      "loss": 2.2805,
      "step": 47
    },
    {
      "epoch": 0.012514665623777864,
      "grad_norm": 0.8970832228660583,
      "learning_rate": 9.045084971874738e-05,
      "loss": 2.4092,
      "step": 48
    },
    {
      "epoch": 0.012775387824273237,
      "grad_norm": 1.0119580030441284,
      "learning_rate": 8.995939984474624e-05,
      "loss": 2.7637,
      "step": 49
    },
    {
      "epoch": 0.013036110024768609,
      "grad_norm": 1.2756975889205933,
      "learning_rate": 8.945702546981969e-05,
      "loss": 2.7705,
      "step": 50
    },
    {
      "epoch": 0.013036110024768609,
      "eval_loss": 1.3808914422988892,
      "eval_runtime": 121.4674,
      "eval_samples_per_second": 53.183,
      "eval_steps_per_second": 13.296,
      "step": 50
    },
    {
      "epoch": 0.01329683222526398,
      "grad_norm": 0.32220813632011414,
      "learning_rate": 8.894386393810563e-05,
      "loss": 0.7141,
      "step": 51
    },
    {
      "epoch": 0.013557554425759353,
      "grad_norm": 0.368277907371521,
      "learning_rate": 8.842005554284296e-05,
      "loss": 0.741,
      "step": 52
    },
    {
      "epoch": 0.013818276626254726,
      "grad_norm": 0.4513736367225647,
      "learning_rate": 8.788574348801675e-05,
      "loss": 0.8402,
      "step": 53
    },
    {
      "epoch": 0.014078998826750098,
      "grad_norm": 0.4859071671962738,
      "learning_rate": 8.73410738492077e-05,
      "loss": 0.951,
      "step": 54
    },
    {
      "epoch": 0.01433972102724547,
      "grad_norm": 0.4150819480419159,
      "learning_rate": 8.678619553365659e-05,
      "loss": 0.9784,
      "step": 55
    },
    {
      "epoch": 0.014600443227740843,
      "grad_norm": 0.6521445512771606,
      "learning_rate": 8.622126023955446e-05,
      "loss": 1.6196,
      "step": 56
    },
    {
      "epoch": 0.014861165428236215,
      "grad_norm": 0.3920060992240906,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.7855,
      "step": 57
    },
    {
      "epoch": 0.015121887628731586,
      "grad_norm": 0.3678102195262909,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.7937,
      "step": 58
    },
    {
      "epoch": 0.015382609829226958,
      "grad_norm": 0.43893346190452576,
      "learning_rate": 8.44676704559283e-05,
      "loss": 0.9678,
      "step": 59
    },
    {
      "epoch": 0.01564333202972233,
      "grad_norm": 0.354902446269989,
      "learning_rate": 8.386407858128706e-05,
      "loss": 0.7762,
      "step": 60
    },
    {
      "epoch": 0.015904054230217703,
      "grad_norm": 0.41752153635025024,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.8658,
      "step": 61
    },
    {
      "epoch": 0.016164776430713075,
      "grad_norm": 0.40365245938301086,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.9043,
      "step": 62
    },
    {
      "epoch": 0.016425498631208447,
      "grad_norm": 0.36754605174064636,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.8951,
      "step": 63
    },
    {
      "epoch": 0.01668622083170382,
      "grad_norm": 0.410630464553833,
      "learning_rate": 8.135881792367686e-05,
      "loss": 1.117,
      "step": 64
    },
    {
      "epoch": 0.01694694303219919,
      "grad_norm": 0.34572771191596985,
      "learning_rate": 8.07106356344834e-05,
      "loss": 0.8973,
      "step": 65
    },
    {
      "epoch": 0.017207665232694565,
      "grad_norm": 0.36190032958984375,
      "learning_rate": 8.005405736415126e-05,
      "loss": 0.9231,
      "step": 66
    },
    {
      "epoch": 0.017468387433189937,
      "grad_norm": 0.4112602770328522,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.8148,
      "step": 67
    },
    {
      "epoch": 0.01772910963368531,
      "grad_norm": 0.39983946084976196,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.8732,
      "step": 68
    },
    {
      "epoch": 0.01798983183418068,
      "grad_norm": 0.4423244297504425,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.8603,
      "step": 69
    },
    {
      "epoch": 0.018250554034676052,
      "grad_norm": 0.4271550476551056,
      "learning_rate": 7.734740790612136e-05,
      "loss": 1.077,
      "step": 70
    },
    {
      "epoch": 0.018511276235171424,
      "grad_norm": 0.4836187958717346,
      "learning_rate": 7.66515864363997e-05,
      "loss": 1.0185,
      "step": 71
    },
    {
      "epoch": 0.018771998435666796,
      "grad_norm": 0.4362891912460327,
      "learning_rate": 7.594847868906076e-05,
      "loss": 1.1196,
      "step": 72
    },
    {
      "epoch": 0.019032720636162168,
      "grad_norm": 0.5236483216285706,
      "learning_rate": 7.52382768867422e-05,
      "loss": 1.157,
      "step": 73
    },
    {
      "epoch": 0.019293442836657543,
      "grad_norm": 0.4038889408111572,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.9867,
      "step": 74
    },
    {
      "epoch": 0.019554165037152915,
      "grad_norm": 0.35437607765197754,
      "learning_rate": 7.379736965185368e-05,
      "loss": 0.9673,
      "step": 75
    },
    {
      "epoch": 0.019814887237648286,
      "grad_norm": 0.5474274754524231,
      "learning_rate": 7.30670581489344e-05,
      "loss": 1.3015,
      "step": 76
    },
    {
      "epoch": 0.020075609438143658,
      "grad_norm": 0.508002519607544,
      "learning_rate": 7.233044034264034e-05,
      "loss": 1.2412,
      "step": 77
    },
    {
      "epoch": 0.02033633163863903,
      "grad_norm": 0.5802339315414429,
      "learning_rate": 7.158771761692464e-05,
      "loss": 1.3613,
      "step": 78
    },
    {
      "epoch": 0.0205970538391344,
      "grad_norm": 0.43748918175697327,
      "learning_rate": 7.083909302476453e-05,
      "loss": 1.0059,
      "step": 79
    },
    {
      "epoch": 0.020857776039629773,
      "grad_norm": 0.5601715445518494,
      "learning_rate": 7.008477123264848e-05,
      "loss": 1.2351,
      "step": 80
    },
    {
      "epoch": 0.02111849824012515,
      "grad_norm": 0.49317800998687744,
      "learning_rate": 6.932495846462261e-05,
      "loss": 1.1485,
      "step": 81
    },
    {
      "epoch": 0.02137922044062052,
      "grad_norm": 0.589493453502655,
      "learning_rate": 6.855986244591104e-05,
      "loss": 1.2638,
      "step": 82
    },
    {
      "epoch": 0.021639942641115892,
      "grad_norm": 0.48321497440338135,
      "learning_rate": 6.778969234612584e-05,
      "loss": 1.1745,
      "step": 83
    },
    {
      "epoch": 0.021900664841611264,
      "grad_norm": 0.7137201428413391,
      "learning_rate": 6.701465872208216e-05,
      "loss": 1.4894,
      "step": 84
    },
    {
      "epoch": 0.022161387042106635,
      "grad_norm": 0.542999267578125,
      "learning_rate": 6.623497346023418e-05,
      "loss": 1.5056,
      "step": 85
    },
    {
      "epoch": 0.022422109242602007,
      "grad_norm": 0.613347053527832,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.2259,
      "step": 86
    },
    {
      "epoch": 0.02268283144309738,
      "grad_norm": 0.6754512786865234,
      "learning_rate": 6.466250186922325e-05,
      "loss": 1.4444,
      "step": 87
    },
    {
      "epoch": 0.02294355364359275,
      "grad_norm": 0.683077871799469,
      "learning_rate": 6.387014543809223e-05,
      "loss": 1.5575,
      "step": 88
    },
    {
      "epoch": 0.023204275844088126,
      "grad_norm": 0.6856280565261841,
      "learning_rate": 6.307399704769099e-05,
      "loss": 1.6911,
      "step": 89
    },
    {
      "epoch": 0.023464998044583497,
      "grad_norm": 0.7812665104866028,
      "learning_rate": 6.227427435703997e-05,
      "loss": 1.5291,
      "step": 90
    },
    {
      "epoch": 0.02372572024507887,
      "grad_norm": 0.7243300676345825,
      "learning_rate": 6.147119600233758e-05,
      "loss": 1.8051,
      "step": 91
    },
    {
      "epoch": 0.02398644244557424,
      "grad_norm": 0.6967455148696899,
      "learning_rate": 6.066498153718735e-05,
      "loss": 1.4135,
      "step": 92
    },
    {
      "epoch": 0.024247164646069613,
      "grad_norm": 0.7117192149162292,
      "learning_rate": 5.985585137257401e-05,
      "loss": 1.6712,
      "step": 93
    },
    {
      "epoch": 0.024507886846564984,
      "grad_norm": 0.7455036044120789,
      "learning_rate": 5.90440267166055e-05,
      "loss": 1.6912,
      "step": 94
    },
    {
      "epoch": 0.024768609047060356,
      "grad_norm": 0.8209055662155151,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 1.7392,
      "step": 95
    },
    {
      "epoch": 0.025029331247555728,
      "grad_norm": 0.6767026782035828,
      "learning_rate": 5.74131823855921e-05,
      "loss": 1.3998,
      "step": 96
    },
    {
      "epoch": 0.025290053448051103,
      "grad_norm": 0.7149847149848938,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 1.315,
      "step": 97
    },
    {
      "epoch": 0.025550775648546475,
      "grad_norm": 0.9072004556655884,
      "learning_rate": 5.577423184847932e-05,
      "loss": 2.3245,
      "step": 98
    },
    {
      "epoch": 0.025811497849041846,
      "grad_norm": 0.9947569966316223,
      "learning_rate": 5.495227651252315e-05,
      "loss": 2.4004,
      "step": 99
    },
    {
      "epoch": 0.026072220049537218,
      "grad_norm": 1.136185884475708,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 2.3969,
      "step": 100
    },
    {
      "epoch": 0.026072220049537218,
      "eval_loss": 1.208489179611206,
      "eval_runtime": 121.7367,
      "eval_samples_per_second": 53.065,
      "eval_steps_per_second": 13.266,
      "step": 100
    },
    {
      "epoch": 0.02633294225003259,
      "grad_norm": 0.23943422734737396,
      "learning_rate": 5.330452921628497e-05,
      "loss": 0.6074,
      "step": 101
    },
    {
      "epoch": 0.02659366445052796,
      "grad_norm": 0.2698066830635071,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.6667,
      "step": 102
    },
    {
      "epoch": 0.026854386651023333,
      "grad_norm": 0.3144571781158447,
      "learning_rate": 5.165316846586541e-05,
      "loss": 0.6565,
      "step": 103
    },
    {
      "epoch": 0.027115108851518705,
      "grad_norm": 0.3979966342449188,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.8356,
      "step": 104
    },
    {
      "epoch": 0.02737583105201408,
      "grad_norm": 0.4503781199455261,
      "learning_rate": 5e-05,
      "loss": 0.9748,
      "step": 105
    },
    {
      "epoch": 0.027636553252509452,
      "grad_norm": 0.5786712169647217,
      "learning_rate": 4.917330276168208e-05,
      "loss": 1.1058,
      "step": 106
    },
    {
      "epoch": 0.027897275453004824,
      "grad_norm": 0.32917410135269165,
      "learning_rate": 4.834683153413459e-05,
      "loss": 0.5485,
      "step": 107
    },
    {
      "epoch": 0.028157997653500196,
      "grad_norm": 0.33912646770477295,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.6711,
      "step": 108
    },
    {
      "epoch": 0.028418719853995567,
      "grad_norm": 0.39111921191215515,
      "learning_rate": 4.669547078371504e-05,
      "loss": 0.7746,
      "step": 109
    },
    {
      "epoch": 0.02867944205449094,
      "grad_norm": 0.4260513484477997,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 0.7831,
      "step": 110
    },
    {
      "epoch": 0.02894016425498631,
      "grad_norm": 0.4411897361278534,
      "learning_rate": 4.504772348747687e-05,
      "loss": 0.7796,
      "step": 111
    },
    {
      "epoch": 0.029200886455481686,
      "grad_norm": 0.3865686357021332,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 0.7789,
      "step": 112
    },
    {
      "epoch": 0.029461608655977058,
      "grad_norm": 0.4978114068508148,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.9771,
      "step": 113
    },
    {
      "epoch": 0.02972233085647243,
      "grad_norm": 0.3962376117706299,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.8194,
      "step": 114
    },
    {
      "epoch": 0.0299830530569678,
      "grad_norm": 0.4375857412815094,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.7682,
      "step": 115
    },
    {
      "epoch": 0.030243775257463173,
      "grad_norm": 0.39728087186813354,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.9565,
      "step": 116
    },
    {
      "epoch": 0.030504497457958545,
      "grad_norm": 0.3799859285354614,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 0.6758,
      "step": 117
    },
    {
      "epoch": 0.030765219658453916,
      "grad_norm": 0.4195021092891693,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.9369,
      "step": 118
    },
    {
      "epoch": 0.031025941858949288,
      "grad_norm": 0.5685878396034241,
      "learning_rate": 3.852880399766243e-05,
      "loss": 1.0809,
      "step": 119
    },
    {
      "epoch": 0.03128666405944466,
      "grad_norm": 0.5001601576805115,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.9264,
      "step": 120
    },
    {
      "epoch": 0.03154738625994003,
      "grad_norm": 0.44179967045783997,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.8189,
      "step": 121
    },
    {
      "epoch": 0.03180810846043541,
      "grad_norm": 0.6032936573028564,
      "learning_rate": 3.612985456190778e-05,
      "loss": 1.1387,
      "step": 122
    },
    {
      "epoch": 0.032068830660930775,
      "grad_norm": 0.44836997985839844,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.8341,
      "step": 123
    },
    {
      "epoch": 0.03232955286142615,
      "grad_norm": 0.4814024567604065,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.9537,
      "step": 124
    },
    {
      "epoch": 0.032590275061921525,
      "grad_norm": 0.47974511981010437,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.9061,
      "step": 125
    },
    {
      "epoch": 0.032850997262416894,
      "grad_norm": 0.47077134251594543,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.9726,
      "step": 126
    },
    {
      "epoch": 0.03311171946291227,
      "grad_norm": 0.5297815799713135,
      "learning_rate": 3.221030765387417e-05,
      "loss": 1.0529,
      "step": 127
    },
    {
      "epoch": 0.03337244166340764,
      "grad_norm": 0.4989417493343353,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.7863,
      "step": 128
    },
    {
      "epoch": 0.03363316386390301,
      "grad_norm": 0.5272191762924194,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 1.0456,
      "step": 129
    },
    {
      "epoch": 0.03389388606439838,
      "grad_norm": 0.5070304274559021,
      "learning_rate": 2.991522876735154e-05,
      "loss": 1.0125,
      "step": 130
    },
    {
      "epoch": 0.034154608264893756,
      "grad_norm": 0.5110166668891907,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.9601,
      "step": 131
    },
    {
      "epoch": 0.03441533046538913,
      "grad_norm": 0.5463582277297974,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 0.9332,
      "step": 132
    },
    {
      "epoch": 0.0346760526658845,
      "grad_norm": 0.6532591581344604,
      "learning_rate": 2.766955965735968e-05,
      "loss": 1.3011,
      "step": 133
    },
    {
      "epoch": 0.034936774866379874,
      "grad_norm": 0.6177405118942261,
      "learning_rate": 2.693294185106562e-05,
      "loss": 1.263,
      "step": 134
    },
    {
      "epoch": 0.03519749706687524,
      "grad_norm": 0.5766922235488892,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 0.9751,
      "step": 135
    },
    {
      "epoch": 0.03545821926737062,
      "grad_norm": 0.803145706653595,
      "learning_rate": 2.547882480847461e-05,
      "loss": 1.3461,
      "step": 136
    },
    {
      "epoch": 0.035718941467865986,
      "grad_norm": 0.7031037211418152,
      "learning_rate": 2.476172311325783e-05,
      "loss": 1.2256,
      "step": 137
    },
    {
      "epoch": 0.03597966366836136,
      "grad_norm": 0.6013728976249695,
      "learning_rate": 2.405152131093926e-05,
      "loss": 1.0497,
      "step": 138
    },
    {
      "epoch": 0.036240385868856737,
      "grad_norm": 0.6633033156394958,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 1.3325,
      "step": 139
    },
    {
      "epoch": 0.036501108069352105,
      "grad_norm": 0.673442006111145,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 1.3843,
      "step": 140
    },
    {
      "epoch": 0.03676183026984748,
      "grad_norm": 0.6998249888420105,
      "learning_rate": 2.196424713241637e-05,
      "loss": 1.2616,
      "step": 141
    },
    {
      "epoch": 0.03702255247034285,
      "grad_norm": 0.6411647796630859,
      "learning_rate": 2.128356686585282e-05,
      "loss": 1.4398,
      "step": 142
    },
    {
      "epoch": 0.03728327467083822,
      "grad_norm": 0.8868160247802734,
      "learning_rate": 2.061073738537635e-05,
      "loss": 1.4594,
      "step": 143
    },
    {
      "epoch": 0.03754399687133359,
      "grad_norm": 0.6770927309989929,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 1.4373,
      "step": 144
    },
    {
      "epoch": 0.03780471907182897,
      "grad_norm": 0.7107117772102356,
      "learning_rate": 1.928936436551661e-05,
      "loss": 1.5668,
      "step": 145
    },
    {
      "epoch": 0.038065441272324335,
      "grad_norm": 0.7627034187316895,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 1.7207,
      "step": 146
    },
    {
      "epoch": 0.03832616347281971,
      "grad_norm": 0.7622539401054382,
      "learning_rate": 1.800157297483417e-05,
      "loss": 1.489,
      "step": 147
    },
    {
      "epoch": 0.038586885673315086,
      "grad_norm": 1.0797394514083862,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 1.9712,
      "step": 148
    },
    {
      "epoch": 0.038847607873810454,
      "grad_norm": 1.0472699403762817,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 2.3663,
      "step": 149
    },
    {
      "epoch": 0.03910833007430583,
      "grad_norm": 1.3272120952606201,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 2.6601,
      "step": 150
    },
    {
      "epoch": 0.03910833007430583,
      "eval_loss": 1.1554970741271973,
      "eval_runtime": 121.5932,
      "eval_samples_per_second": 53.128,
      "eval_steps_per_second": 13.282,
      "step": 150
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.162557862182912e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}