{
  "best_metric": 0.3736993968486786,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.16501650165016502,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0008250825082508251,
      "grad_norm": 3.173780918121338,
      "learning_rate": 1.004e-05,
      "loss": 0.942,
      "step": 1
    },
    {
      "epoch": 0.0008250825082508251,
      "eval_loss": 1.192799687385559,
      "eval_runtime": 123.1976,
      "eval_samples_per_second": 4.148,
      "eval_steps_per_second": 1.039,
      "step": 1
    },
    {
      "epoch": 0.0016501650165016502,
      "grad_norm": 4.2292633056640625,
      "learning_rate": 2.008e-05,
      "loss": 1.0506,
      "step": 2
    },
    {
      "epoch": 0.0024752475247524753,
      "grad_norm": 3.1798934936523438,
      "learning_rate": 3.012e-05,
      "loss": 1.0453,
      "step": 3
    },
    {
      "epoch": 0.0033003300330033004,
      "grad_norm": 2.010472536087036,
      "learning_rate": 4.016e-05,
      "loss": 0.9273,
      "step": 4
    },
    {
      "epoch": 0.004125412541254125,
      "grad_norm": 1.2465078830718994,
      "learning_rate": 5.02e-05,
      "loss": 0.7117,
      "step": 5
    },
    {
      "epoch": 0.0049504950495049506,
      "grad_norm": 1.4689918756484985,
      "learning_rate": 6.024e-05,
      "loss": 0.6997,
      "step": 6
    },
    {
      "epoch": 0.005775577557755775,
      "grad_norm": 1.1174824237823486,
      "learning_rate": 7.028e-05,
      "loss": 0.7427,
      "step": 7
    },
    {
      "epoch": 0.006600660066006601,
      "grad_norm": 1.057487964630127,
      "learning_rate": 8.032e-05,
      "loss": 0.6401,
      "step": 8
    },
    {
      "epoch": 0.007425742574257425,
      "grad_norm": 0.8667148947715759,
      "learning_rate": 9.036000000000001e-05,
      "loss": 0.5821,
      "step": 9
    },
    {
      "epoch": 0.00825082508250825,
      "grad_norm": 0.7285169959068298,
      "learning_rate": 0.0001004,
      "loss": 0.5557,
      "step": 10
    },
    {
      "epoch": 0.009075907590759076,
      "grad_norm": 0.8515902757644653,
      "learning_rate": 9.987157894736842e-05,
      "loss": 0.5315,
      "step": 11
    },
    {
      "epoch": 0.009900990099009901,
      "grad_norm": 0.8164222836494446,
      "learning_rate": 9.934315789473684e-05,
      "loss": 0.503,
      "step": 12
    },
    {
      "epoch": 0.010726072607260726,
      "grad_norm": 0.8264222741127014,
      "learning_rate": 9.881473684210525e-05,
      "loss": 0.5751,
      "step": 13
    },
    {
      "epoch": 0.01155115511551155,
      "grad_norm": 0.65512615442276,
      "learning_rate": 9.828631578947369e-05,
      "loss": 0.441,
      "step": 14
    },
    {
      "epoch": 0.012376237623762377,
      "grad_norm": 0.7204319834709167,
      "learning_rate": 9.77578947368421e-05,
      "loss": 0.5138,
      "step": 15
    },
    {
      "epoch": 0.013201320132013201,
      "grad_norm": 0.6687501072883606,
      "learning_rate": 9.722947368421052e-05,
      "loss": 0.4485,
      "step": 16
    },
    {
      "epoch": 0.014026402640264026,
      "grad_norm": 0.6804327964782715,
      "learning_rate": 9.670105263157895e-05,
      "loss": 0.4999,
      "step": 17
    },
    {
      "epoch": 0.01485148514851485,
      "grad_norm": 1.0261818170547485,
      "learning_rate": 9.617263157894737e-05,
      "loss": 0.4335,
      "step": 18
    },
    {
      "epoch": 0.015676567656765675,
      "grad_norm": 0.5760422348976135,
      "learning_rate": 9.564421052631579e-05,
      "loss": 0.4493,
      "step": 19
    },
    {
      "epoch": 0.0165016501650165,
      "grad_norm": 0.5868406891822815,
      "learning_rate": 9.511578947368421e-05,
      "loss": 0.4078,
      "step": 20
    },
    {
      "epoch": 0.017326732673267328,
      "grad_norm": 0.5450237393379211,
      "learning_rate": 9.458736842105264e-05,
      "loss": 0.4555,
      "step": 21
    },
    {
      "epoch": 0.018151815181518153,
      "grad_norm": 0.5577400326728821,
      "learning_rate": 9.405894736842106e-05,
      "loss": 0.4091,
      "step": 22
    },
    {
      "epoch": 0.018976897689768978,
      "grad_norm": 0.5327737331390381,
      "learning_rate": 9.353052631578947e-05,
      "loss": 0.3945,
      "step": 23
    },
    {
      "epoch": 0.019801980198019802,
      "grad_norm": 0.5798322558403015,
      "learning_rate": 9.300210526315789e-05,
      "loss": 0.436,
      "step": 24
    },
    {
      "epoch": 0.020627062706270627,
      "grad_norm": 0.5813398957252502,
      "learning_rate": 9.247368421052631e-05,
      "loss": 0.4591,
      "step": 25
    },
    {
      "epoch": 0.02145214521452145,
      "grad_norm": 0.5094302892684937,
      "learning_rate": 9.194526315789473e-05,
      "loss": 0.4377,
      "step": 26
    },
    {
      "epoch": 0.022277227722772276,
      "grad_norm": 0.5714531540870667,
      "learning_rate": 9.141684210526316e-05,
      "loss": 0.478,
      "step": 27
    },
    {
      "epoch": 0.0231023102310231,
      "grad_norm": 0.5258322358131409,
      "learning_rate": 9.088842105263158e-05,
      "loss": 0.4949,
      "step": 28
    },
    {
      "epoch": 0.02392739273927393,
      "grad_norm": 0.5339230298995972,
      "learning_rate": 9.036000000000001e-05,
      "loss": 0.4319,
      "step": 29
    },
    {
      "epoch": 0.024752475247524754,
      "grad_norm": 0.5277124047279358,
      "learning_rate": 8.983157894736843e-05,
      "loss": 0.4372,
      "step": 30
    },
    {
      "epoch": 0.02557755775577558,
      "grad_norm": 0.49837803840637207,
      "learning_rate": 8.930315789473684e-05,
      "loss": 0.429,
      "step": 31
    },
    {
      "epoch": 0.026402640264026403,
      "grad_norm": 0.4881153106689453,
      "learning_rate": 8.877473684210526e-05,
      "loss": 0.3784,
      "step": 32
    },
    {
      "epoch": 0.027227722772277228,
      "grad_norm": 0.5045933723449707,
      "learning_rate": 8.824631578947368e-05,
      "loss": 0.4365,
      "step": 33
    },
    {
      "epoch": 0.028052805280528052,
      "grad_norm": 0.5302090048789978,
      "learning_rate": 8.771789473684211e-05,
      "loss": 0.4406,
      "step": 34
    },
    {
      "epoch": 0.028877887788778877,
      "grad_norm": 0.5082963109016418,
      "learning_rate": 8.718947368421053e-05,
      "loss": 0.4483,
      "step": 35
    },
    {
      "epoch": 0.0297029702970297,
      "grad_norm": 0.5486515164375305,
      "learning_rate": 8.666105263157895e-05,
      "loss": 0.4416,
      "step": 36
    },
    {
      "epoch": 0.03052805280528053,
      "grad_norm": 0.49285757541656494,
      "learning_rate": 8.613263157894737e-05,
      "loss": 0.4228,
      "step": 37
    },
    {
      "epoch": 0.03135313531353135,
      "grad_norm": 0.5563145875930786,
      "learning_rate": 8.560421052631578e-05,
      "loss": 0.5069,
      "step": 38
    },
    {
      "epoch": 0.03217821782178218,
      "grad_norm": 0.4933679699897766,
      "learning_rate": 8.50757894736842e-05,
      "loss": 0.4406,
      "step": 39
    },
    {
      "epoch": 0.033003300330033,
      "grad_norm": 0.524378776550293,
      "learning_rate": 8.454736842105263e-05,
      "loss": 0.4481,
      "step": 40
    },
    {
      "epoch": 0.03382838283828383,
      "grad_norm": 0.4700086712837219,
      "learning_rate": 8.401894736842106e-05,
      "loss": 0.3955,
      "step": 41
    },
    {
      "epoch": 0.034653465346534656,
      "grad_norm": 0.4820288121700287,
      "learning_rate": 8.349052631578948e-05,
      "loss": 0.3969,
      "step": 42
    },
    {
      "epoch": 0.03547854785478548,
      "grad_norm": 0.5192683339118958,
      "learning_rate": 8.29621052631579e-05,
      "loss": 0.5063,
      "step": 43
    },
    {
      "epoch": 0.036303630363036306,
      "grad_norm": 0.4785290062427521,
      "learning_rate": 8.243368421052632e-05,
      "loss": 0.432,
      "step": 44
    },
    {
      "epoch": 0.03712871287128713,
      "grad_norm": 0.5149121284484863,
      "learning_rate": 8.190526315789474e-05,
      "loss": 0.4596,
      "step": 45
    },
    {
      "epoch": 0.037953795379537955,
      "grad_norm": 0.47771090269088745,
      "learning_rate": 8.137684210526315e-05,
      "loss": 0.4208,
      "step": 46
    },
    {
      "epoch": 0.038778877887788776,
      "grad_norm": 0.45634740591049194,
      "learning_rate": 8.084842105263157e-05,
      "loss": 0.3874,
      "step": 47
    },
    {
      "epoch": 0.039603960396039604,
      "grad_norm": 0.47570061683654785,
      "learning_rate": 8.032e-05,
      "loss": 0.4067,
      "step": 48
    },
    {
      "epoch": 0.040429042904290426,
      "grad_norm": 0.504329264163971,
      "learning_rate": 7.979157894736842e-05,
      "loss": 0.465,
      "step": 49
    },
    {
      "epoch": 0.041254125412541254,
      "grad_norm": 0.645557165145874,
      "learning_rate": 7.926315789473684e-05,
      "loss": 0.6481,
      "step": 50
    },
    {
      "epoch": 0.041254125412541254,
      "eval_loss": 0.41619008779525757,
      "eval_runtime": 123.3351,
      "eval_samples_per_second": 4.143,
      "eval_steps_per_second": 1.038,
      "step": 50
    },
    {
      "epoch": 0.04207920792079208,
      "grad_norm": 0.3939873278141022,
      "learning_rate": 7.873473684210526e-05,
      "loss": 0.4482,
      "step": 51
    },
    {
      "epoch": 0.0429042904290429,
      "grad_norm": 0.37996283173561096,
      "learning_rate": 7.820631578947369e-05,
      "loss": 0.3881,
      "step": 52
    },
    {
      "epoch": 0.04372937293729373,
      "grad_norm": 0.4067952036857605,
      "learning_rate": 7.76778947368421e-05,
      "loss": 0.4112,
      "step": 53
    },
    {
      "epoch": 0.04455445544554455,
      "grad_norm": 0.3706638813018799,
      "learning_rate": 7.714947368421052e-05,
      "loss": 0.3296,
      "step": 54
    },
    {
      "epoch": 0.04537953795379538,
      "grad_norm": 0.407267689704895,
      "learning_rate": 7.662105263157896e-05,
      "loss": 0.3936,
      "step": 55
    },
    {
      "epoch": 0.0462046204620462,
      "grad_norm": 0.39567723870277405,
      "learning_rate": 7.609263157894737e-05,
      "loss": 0.3904,
      "step": 56
    },
    {
      "epoch": 0.04702970297029703,
      "grad_norm": 0.4243815839290619,
      "learning_rate": 7.556421052631579e-05,
      "loss": 0.408,
      "step": 57
    },
    {
      "epoch": 0.04785478547854786,
      "grad_norm": 0.4218709170818329,
      "learning_rate": 7.503578947368421e-05,
      "loss": 0.4225,
      "step": 58
    },
    {
      "epoch": 0.04867986798679868,
      "grad_norm": 0.41343173384666443,
      "learning_rate": 7.450736842105263e-05,
      "loss": 0.3978,
      "step": 59
    },
    {
      "epoch": 0.04950495049504951,
      "grad_norm": 0.5103104114532471,
      "learning_rate": 7.397894736842105e-05,
      "loss": 0.4495,
      "step": 60
    },
    {
      "epoch": 0.05033003300330033,
      "grad_norm": 0.5185887217521667,
      "learning_rate": 7.345052631578948e-05,
      "loss": 0.5576,
      "step": 61
    },
    {
      "epoch": 0.05115511551155116,
      "grad_norm": 0.4099830687046051,
      "learning_rate": 7.29221052631579e-05,
      "loss": 0.3972,
      "step": 62
    },
    {
      "epoch": 0.05198019801980198,
      "grad_norm": 0.39099448919296265,
      "learning_rate": 7.239368421052631e-05,
      "loss": 0.3552,
      "step": 63
    },
    {
      "epoch": 0.052805280528052806,
      "grad_norm": 0.3913145959377289,
      "learning_rate": 7.186526315789474e-05,
      "loss": 0.3633,
      "step": 64
    },
    {
      "epoch": 0.05363036303630363,
      "grad_norm": 0.4063222110271454,
      "learning_rate": 7.133684210526316e-05,
      "loss": 0.4324,
      "step": 65
    },
    {
      "epoch": 0.054455445544554455,
      "grad_norm": 0.4184180796146393,
      "learning_rate": 7.080842105263158e-05,
      "loss": 0.4201,
      "step": 66
    },
    {
      "epoch": 0.05528052805280528,
      "grad_norm": 0.4023320972919464,
      "learning_rate": 7.028e-05,
      "loss": 0.3802,
      "step": 67
    },
    {
      "epoch": 0.056105610561056105,
      "grad_norm": 0.4442621171474457,
      "learning_rate": 6.975157894736843e-05,
      "loss": 0.4433,
      "step": 68
    },
    {
      "epoch": 0.05693069306930693,
      "grad_norm": 0.42478373646736145,
      "learning_rate": 6.922315789473685e-05,
      "loss": 0.3817,
      "step": 69
    },
    {
      "epoch": 0.057755775577557754,
      "grad_norm": 0.4383951723575592,
      "learning_rate": 6.869473684210527e-05,
      "loss": 0.4167,
      "step": 70
    },
    {
      "epoch": 0.05858085808580858,
      "grad_norm": 0.41016215085983276,
      "learning_rate": 6.816631578947368e-05,
      "loss": 0.3939,
      "step": 71
    },
    {
      "epoch": 0.0594059405940594,
      "grad_norm": 0.4990198612213135,
      "learning_rate": 6.76378947368421e-05,
      "loss": 0.5291,
      "step": 72
    },
    {
      "epoch": 0.06023102310231023,
      "grad_norm": 0.4249795079231262,
      "learning_rate": 6.710947368421052e-05,
      "loss": 0.3925,
      "step": 73
    },
    {
      "epoch": 0.06105610561056106,
      "grad_norm": 0.4148721396923065,
      "learning_rate": 6.658105263157894e-05,
      "loss": 0.3951,
      "step": 74
    },
    {
      "epoch": 0.06188118811881188,
      "grad_norm": 0.4411516487598419,
      "learning_rate": 6.605263157894737e-05,
      "loss": 0.3851,
      "step": 75
    },
    {
      "epoch": 0.0627062706270627,
      "grad_norm": 0.4513446092605591,
      "learning_rate": 6.55242105263158e-05,
      "loss": 0.4578,
      "step": 76
    },
    {
      "epoch": 0.06353135313531354,
      "grad_norm": 0.46476268768310547,
      "learning_rate": 6.499578947368422e-05,
      "loss": 0.4608,
      "step": 77
    },
    {
      "epoch": 0.06435643564356436,
      "grad_norm": 0.4174363613128662,
      "learning_rate": 6.446736842105264e-05,
      "loss": 0.3582,
      "step": 78
    },
    {
      "epoch": 0.06518151815181518,
      "grad_norm": 0.41803765296936035,
      "learning_rate": 6.393894736842105e-05,
      "loss": 0.3642,
      "step": 79
    },
    {
      "epoch": 0.066006600660066,
      "grad_norm": 0.426320880651474,
      "learning_rate": 6.341052631578947e-05,
      "loss": 0.3973,
      "step": 80
    },
    {
      "epoch": 0.06683168316831684,
      "grad_norm": 0.4425535798072815,
      "learning_rate": 6.288210526315789e-05,
      "loss": 0.4474,
      "step": 81
    },
    {
      "epoch": 0.06765676567656766,
      "grad_norm": 0.41590163111686707,
      "learning_rate": 6.235368421052632e-05,
      "loss": 0.3822,
      "step": 82
    },
    {
      "epoch": 0.06848184818481848,
      "grad_norm": 0.41815564036369324,
      "learning_rate": 6.182526315789474e-05,
      "loss": 0.3805,
      "step": 83
    },
    {
      "epoch": 0.06930693069306931,
      "grad_norm": 0.45668700337409973,
      "learning_rate": 6.129684210526316e-05,
      "loss": 0.406,
      "step": 84
    },
    {
      "epoch": 0.07013201320132013,
      "grad_norm": 0.4290825128555298,
      "learning_rate": 6.076842105263158e-05,
      "loss": 0.3677,
      "step": 85
    },
    {
      "epoch": 0.07095709570957096,
      "grad_norm": 0.41827771067619324,
      "learning_rate": 6.024e-05,
      "loss": 0.4011,
      "step": 86
    },
    {
      "epoch": 0.07178217821782178,
      "grad_norm": 0.42382022738456726,
      "learning_rate": 5.971157894736842e-05,
      "loss": 0.4064,
      "step": 87
    },
    {
      "epoch": 0.07260726072607261,
      "grad_norm": 0.4010322391986847,
      "learning_rate": 5.9183157894736835e-05,
      "loss": 0.3813,
      "step": 88
    },
    {
      "epoch": 0.07343234323432343,
      "grad_norm": 0.42243483662605286,
      "learning_rate": 5.8654736842105267e-05,
      "loss": 0.4062,
      "step": 89
    },
    {
      "epoch": 0.07425742574257425,
      "grad_norm": 0.4379257261753082,
      "learning_rate": 5.8126315789473684e-05,
      "loss": 0.39,
      "step": 90
    },
    {
      "epoch": 0.07508250825082509,
      "grad_norm": 0.41128841042518616,
      "learning_rate": 5.759789473684211e-05,
      "loss": 0.3384,
      "step": 91
    },
    {
      "epoch": 0.07590759075907591,
      "grad_norm": 0.42024657130241394,
      "learning_rate": 5.706947368421053e-05,
      "loss": 0.4198,
      "step": 92
    },
    {
      "epoch": 0.07673267326732673,
      "grad_norm": 0.4766426980495453,
      "learning_rate": 5.6541052631578945e-05,
      "loss": 0.4175,
      "step": 93
    },
    {
      "epoch": 0.07755775577557755,
      "grad_norm": 0.4547088146209717,
      "learning_rate": 5.601263157894736e-05,
      "loss": 0.419,
      "step": 94
    },
    {
      "epoch": 0.07838283828382839,
      "grad_norm": 0.4731040596961975,
      "learning_rate": 5.5484210526315794e-05,
      "loss": 0.4764,
      "step": 95
    },
    {
      "epoch": 0.07920792079207921,
      "grad_norm": 0.4786137640476227,
      "learning_rate": 5.495578947368421e-05,
      "loss": 0.4286,
      "step": 96
    },
    {
      "epoch": 0.08003300330033003,
      "grad_norm": 0.48610275983810425,
      "learning_rate": 5.442736842105264e-05,
      "loss": 0.4087,
      "step": 97
    },
    {
      "epoch": 0.08085808580858085,
      "grad_norm": 0.43364405632019043,
      "learning_rate": 5.3898947368421055e-05,
      "loss": 0.4217,
      "step": 98
    },
    {
      "epoch": 0.08168316831683169,
      "grad_norm": 0.42873987555503845,
      "learning_rate": 5.337052631578947e-05,
      "loss": 0.382,
      "step": 99
    },
    {
      "epoch": 0.08250825082508251,
      "grad_norm": 0.4164432883262634,
      "learning_rate": 5.284210526315789e-05,
      "loss": 0.3865,
      "step": 100
    },
    {
      "epoch": 0.08250825082508251,
      "eval_loss": 0.39565783739089966,
      "eval_runtime": 122.6241,
      "eval_samples_per_second": 4.167,
      "eval_steps_per_second": 1.044,
      "step": 100
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.333026260137558,
      "learning_rate": 5.231368421052631e-05,
      "loss": 0.3556,
      "step": 101
    },
    {
      "epoch": 0.08415841584158416,
      "grad_norm": 0.39126572012901306,
      "learning_rate": 5.178526315789474e-05,
      "loss": 0.3635,
      "step": 102
    },
    {
      "epoch": 0.08498349834983498,
      "grad_norm": 0.36146387457847595,
      "learning_rate": 5.1256842105263165e-05,
      "loss": 0.4015,
      "step": 103
    },
    {
      "epoch": 0.0858085808580858,
      "grad_norm": 0.3482891917228699,
      "learning_rate": 5.072842105263158e-05,
      "loss": 0.3625,
      "step": 104
    },
    {
      "epoch": 0.08663366336633663,
      "grad_norm": 0.3746263086795807,
      "learning_rate": 5.02e-05,
      "loss": 0.4009,
      "step": 105
    },
    {
      "epoch": 0.08745874587458746,
      "grad_norm": 0.38937193155288696,
      "learning_rate": 4.967157894736842e-05,
      "loss": 0.4208,
      "step": 106
    },
    {
      "epoch": 0.08828382838283828,
      "grad_norm": 0.3767092227935791,
      "learning_rate": 4.914315789473684e-05,
      "loss": 0.322,
      "step": 107
    },
    {
      "epoch": 0.0891089108910891,
      "grad_norm": 0.3970129191875458,
      "learning_rate": 4.861473684210526e-05,
      "loss": 0.4152,
      "step": 108
    },
    {
      "epoch": 0.08993399339933994,
      "grad_norm": 0.38815999031066895,
      "learning_rate": 4.8086315789473686e-05,
      "loss": 0.394,
      "step": 109
    },
    {
      "epoch": 0.09075907590759076,
      "grad_norm": 0.3996070325374603,
      "learning_rate": 4.7557894736842104e-05,
      "loss": 0.4201,
      "step": 110
    },
    {
      "epoch": 0.09158415841584158,
      "grad_norm": 0.38949644565582275,
      "learning_rate": 4.702947368421053e-05,
      "loss": 0.3959,
      "step": 111
    },
    {
      "epoch": 0.0924092409240924,
      "grad_norm": 0.398994117975235,
      "learning_rate": 4.6501052631578946e-05,
      "loss": 0.3925,
      "step": 112
    },
    {
      "epoch": 0.09323432343234324,
      "grad_norm": 0.3943541347980499,
      "learning_rate": 4.5972631578947364e-05,
      "loss": 0.3714,
      "step": 113
    },
    {
      "epoch": 0.09405940594059406,
      "grad_norm": 0.4241258203983307,
      "learning_rate": 4.544421052631579e-05,
      "loss": 0.4108,
      "step": 114
    },
    {
      "epoch": 0.09488448844884488,
      "grad_norm": 0.416110634803772,
      "learning_rate": 4.4915789473684213e-05,
      "loss": 0.406,
      "step": 115
    },
    {
      "epoch": 0.09570957095709572,
      "grad_norm": 0.39327749609947205,
      "learning_rate": 4.438736842105263e-05,
      "loss": 0.3947,
      "step": 116
    },
    {
      "epoch": 0.09653465346534654,
      "grad_norm": 0.4059808552265167,
      "learning_rate": 4.3858947368421056e-05,
      "loss": 0.3975,
      "step": 117
    },
    {
      "epoch": 0.09735973597359736,
      "grad_norm": 0.41266608238220215,
      "learning_rate": 4.3330526315789474e-05,
      "loss": 0.383,
      "step": 118
    },
    {
      "epoch": 0.09818481848184818,
      "grad_norm": 0.40270814299583435,
      "learning_rate": 4.280210526315789e-05,
      "loss": 0.3606,
      "step": 119
    },
    {
      "epoch": 0.09900990099009901,
      "grad_norm": 0.38979196548461914,
      "learning_rate": 4.2273684210526317e-05,
      "loss": 0.3635,
      "step": 120
    },
    {
      "epoch": 0.09983498349834984,
      "grad_norm": 0.3788747489452362,
      "learning_rate": 4.174526315789474e-05,
      "loss": 0.3792,
      "step": 121
    },
    {
      "epoch": 0.10066006600660066,
      "grad_norm": 0.3909834325313568,
      "learning_rate": 4.121684210526316e-05,
      "loss": 0.3881,
      "step": 122
    },
    {
      "epoch": 0.10148514851485149,
      "grad_norm": 0.41402754187583923,
      "learning_rate": 4.068842105263158e-05,
      "loss": 0.3971,
      "step": 123
    },
    {
      "epoch": 0.10231023102310231,
      "grad_norm": 0.4005189836025238,
      "learning_rate": 4.016e-05,
      "loss": 0.3801,
      "step": 124
    },
    {
      "epoch": 0.10313531353135313,
      "grad_norm": 0.3955296277999878,
      "learning_rate": 3.963157894736842e-05,
      "loss": 0.382,
      "step": 125
    },
    {
      "epoch": 0.10396039603960396,
      "grad_norm": 0.41923028230667114,
      "learning_rate": 3.9103157894736844e-05,
      "loss": 0.4235,
      "step": 126
    },
    {
      "epoch": 0.10478547854785479,
      "grad_norm": 0.43655964732170105,
      "learning_rate": 3.857473684210526e-05,
      "loss": 0.4333,
      "step": 127
    },
    {
      "epoch": 0.10561056105610561,
      "grad_norm": 0.38398122787475586,
      "learning_rate": 3.804631578947369e-05,
      "loss": 0.3737,
      "step": 128
    },
    {
      "epoch": 0.10643564356435643,
      "grad_norm": 0.4125123918056488,
      "learning_rate": 3.7517894736842105e-05,
      "loss": 0.3838,
      "step": 129
    },
    {
      "epoch": 0.10726072607260725,
      "grad_norm": 0.3971227705478668,
      "learning_rate": 3.698947368421052e-05,
      "loss": 0.3768,
      "step": 130
    },
    {
      "epoch": 0.10808580858085809,
      "grad_norm": 0.4043666422367096,
      "learning_rate": 3.646105263157895e-05,
      "loss": 0.3765,
      "step": 131
    },
    {
      "epoch": 0.10891089108910891,
      "grad_norm": 0.4242405593395233,
      "learning_rate": 3.593263157894737e-05,
      "loss": 0.4034,
      "step": 132
    },
    {
      "epoch": 0.10973597359735973,
      "grad_norm": 0.43676313757896423,
      "learning_rate": 3.540421052631579e-05,
      "loss": 0.3323,
      "step": 133
    },
    {
      "epoch": 0.11056105610561057,
      "grad_norm": 0.4032890796661377,
      "learning_rate": 3.4875789473684215e-05,
      "loss": 0.3621,
      "step": 134
    },
    {
      "epoch": 0.11138613861386139,
      "grad_norm": 0.4652385711669922,
      "learning_rate": 3.434736842105263e-05,
      "loss": 0.3489,
      "step": 135
    },
    {
      "epoch": 0.11221122112211221,
      "grad_norm": 0.40483319759368896,
      "learning_rate": 3.381894736842105e-05,
      "loss": 0.3514,
      "step": 136
    },
    {
      "epoch": 0.11303630363036303,
      "grad_norm": 0.4132649600505829,
      "learning_rate": 3.329052631578947e-05,
      "loss": 0.3635,
      "step": 137
    },
    {
      "epoch": 0.11386138613861387,
      "grad_norm": 0.4080815613269806,
      "learning_rate": 3.27621052631579e-05,
      "loss": 0.3631,
      "step": 138
    },
    {
      "epoch": 0.11468646864686469,
      "grad_norm": 0.44490140676498413,
      "learning_rate": 3.223368421052632e-05,
      "loss": 0.3874,
      "step": 139
    },
    {
      "epoch": 0.11551155115511551,
      "grad_norm": 0.4136742949485779,
      "learning_rate": 3.1705263157894736e-05,
      "loss": 0.3443,
      "step": 140
    },
    {
      "epoch": 0.11633663366336634,
      "grad_norm": 0.47801798582077026,
      "learning_rate": 3.117684210526316e-05,
      "loss": 0.4426,
      "step": 141
    },
    {
      "epoch": 0.11716171617161716,
      "grad_norm": 0.4086443781852722,
      "learning_rate": 3.064842105263158e-05,
      "loss": 0.3712,
      "step": 142
    },
    {
      "epoch": 0.11798679867986799,
      "grad_norm": 0.42055192589759827,
      "learning_rate": 3.012e-05,
      "loss": 0.3565,
      "step": 143
    },
    {
      "epoch": 0.1188118811881188,
      "grad_norm": 0.4534578323364258,
      "learning_rate": 2.9591578947368418e-05,
      "loss": 0.4156,
      "step": 144
    },
    {
      "epoch": 0.11963696369636964,
      "grad_norm": 0.4309723377227783,
      "learning_rate": 2.9063157894736842e-05,
      "loss": 0.4092,
      "step": 145
    },
    {
      "epoch": 0.12046204620462046,
      "grad_norm": 0.48478174209594727,
      "learning_rate": 2.8534736842105264e-05,
      "loss": 0.4665,
      "step": 146
    },
    {
      "epoch": 0.12128712871287128,
      "grad_norm": 0.5247575044631958,
      "learning_rate": 2.800631578947368e-05,
      "loss": 0.4105,
      "step": 147
    },
    {
      "epoch": 0.12211221122112212,
      "grad_norm": 0.4253706634044647,
      "learning_rate": 2.7477894736842106e-05,
      "loss": 0.3747,
      "step": 148
    },
    {
      "epoch": 0.12293729372937294,
      "grad_norm": 0.4397183656692505,
      "learning_rate": 2.6949473684210527e-05,
      "loss": 0.3902,
      "step": 149
    },
    {
      "epoch": 0.12376237623762376,
      "grad_norm": 0.6658635139465332,
      "learning_rate": 2.6421052631578945e-05,
      "loss": 0.7075,
      "step": 150
    },
    {
      "epoch": 0.12376237623762376,
      "eval_loss": 0.3842846751213074,
      "eval_runtime": 123.4206,
      "eval_samples_per_second": 4.14,
      "eval_steps_per_second": 1.037,
      "step": 150
    },
    {
      "epoch": 0.12458745874587458,
      "grad_norm": 0.32491573691368103,
      "learning_rate": 2.589263157894737e-05,
      "loss": 0.3633,
      "step": 151
    },
    {
      "epoch": 0.1254125412541254,
      "grad_norm": 0.3693389296531677,
      "learning_rate": 2.536421052631579e-05,
      "loss": 0.4273,
      "step": 152
    },
    {
      "epoch": 0.12623762376237624,
      "grad_norm": 0.3655974566936493,
      "learning_rate": 2.483578947368421e-05,
      "loss": 0.3999,
      "step": 153
    },
    {
      "epoch": 0.12706270627062707,
      "grad_norm": 0.36950939893722534,
      "learning_rate": 2.430736842105263e-05,
      "loss": 0.3896,
      "step": 154
    },
    {
      "epoch": 0.12788778877887788,
      "grad_norm": 0.34284326434135437,
      "learning_rate": 2.3778947368421052e-05,
      "loss": 0.3612,
      "step": 155
    },
    {
      "epoch": 0.12871287128712872,
      "grad_norm": 0.36636969447135925,
      "learning_rate": 2.3250526315789473e-05,
      "loss": 0.3944,
      "step": 156
    },
    {
      "epoch": 0.12953795379537955,
      "grad_norm": 0.36835336685180664,
      "learning_rate": 2.2722105263157894e-05,
      "loss": 0.3972,
      "step": 157
    },
    {
      "epoch": 0.13036303630363036,
      "grad_norm": 0.36253148317337036,
      "learning_rate": 2.2193684210526316e-05,
      "loss": 0.4192,
      "step": 158
    },
    {
      "epoch": 0.1311881188118812,
      "grad_norm": 0.4044815003871918,
      "learning_rate": 2.1665263157894737e-05,
      "loss": 0.4659,
      "step": 159
    },
    {
      "epoch": 0.132013201320132,
      "grad_norm": 0.3709716498851776,
      "learning_rate": 2.1136842105263158e-05,
      "loss": 0.3703,
      "step": 160
    },
    {
      "epoch": 0.13283828382838284,
      "grad_norm": 0.38565942645072937,
      "learning_rate": 2.060842105263158e-05,
      "loss": 0.3784,
      "step": 161
    },
    {
      "epoch": 0.13366336633663367,
      "grad_norm": 0.390558123588562,
      "learning_rate": 2.008e-05,
      "loss": 0.3914,
      "step": 162
    },
    {
      "epoch": 0.13448844884488448,
      "grad_norm": 0.36690908670425415,
      "learning_rate": 1.9551578947368422e-05,
      "loss": 0.383,
      "step": 163
    },
    {
      "epoch": 0.1353135313531353,
      "grad_norm": 0.38100093603134155,
      "learning_rate": 1.9023157894736843e-05,
      "loss": 0.3959,
      "step": 164
    },
    {
      "epoch": 0.13613861386138615,
      "grad_norm": 0.673531174659729,
      "learning_rate": 1.849473684210526e-05,
      "loss": 0.4013,
      "step": 165
    },
    {
      "epoch": 0.13696369636963696,
      "grad_norm": 0.37279826402664185,
      "learning_rate": 1.7966315789473686e-05,
      "loss": 0.3605,
      "step": 166
    },
    {
      "epoch": 0.1377887788778878,
      "grad_norm": 0.39237892627716064,
      "learning_rate": 1.7437894736842107e-05,
      "loss": 0.3611,
      "step": 167
    },
    {
      "epoch": 0.13861386138613863,
      "grad_norm": 0.391311913728714,
      "learning_rate": 1.6909473684210525e-05,
      "loss": 0.3848,
      "step": 168
    },
    {
      "epoch": 0.13943894389438943,
      "grad_norm": 0.3893754482269287,
      "learning_rate": 1.638105263157895e-05,
      "loss": 0.3744,
      "step": 169
    },
    {
      "epoch": 0.14026402640264027,
      "grad_norm": 0.429033488035202,
      "learning_rate": 1.5852631578947368e-05,
      "loss": 0.4409,
      "step": 170
    },
    {
      "epoch": 0.14108910891089108,
      "grad_norm": 0.3567771017551422,
      "learning_rate": 1.532421052631579e-05,
      "loss": 0.3438,
      "step": 171
    },
    {
      "epoch": 0.1419141914191419,
      "grad_norm": 0.36413800716400146,
      "learning_rate": 1.4795789473684209e-05,
      "loss": 0.34,
      "step": 172
    },
    {
      "epoch": 0.14273927392739275,
      "grad_norm": 0.3905537724494934,
      "learning_rate": 1.4267368421052632e-05,
      "loss": 0.3741,
      "step": 173
    },
    {
      "epoch": 0.14356435643564355,
      "grad_norm": 0.38992124795913696,
      "learning_rate": 1.3738947368421053e-05,
      "loss": 0.3789,
      "step": 174
    },
    {
      "epoch": 0.1443894389438944,
      "grad_norm": 0.41189175844192505,
      "learning_rate": 1.3210526315789473e-05,
      "loss": 0.4032,
      "step": 175
    },
    {
      "epoch": 0.14521452145214522,
      "grad_norm": 0.38059139251708984,
      "learning_rate": 1.2682105263157896e-05,
      "loss": 0.379,
      "step": 176
    },
    {
      "epoch": 0.14603960396039603,
      "grad_norm": 0.3745844066143036,
      "learning_rate": 1.2153684210526315e-05,
      "loss": 0.3585,
      "step": 177
    },
    {
      "epoch": 0.14686468646864687,
      "grad_norm": 0.3822239935398102,
      "learning_rate": 1.1625263157894737e-05,
      "loss": 0.3683,
      "step": 178
    },
    {
      "epoch": 0.1476897689768977,
      "grad_norm": 0.3991091847419739,
      "learning_rate": 1.1096842105263158e-05,
      "loss": 0.3772,
      "step": 179
    },
    {
      "epoch": 0.1485148514851485,
      "grad_norm": 0.36380478739738464,
      "learning_rate": 1.0568421052631579e-05,
      "loss": 0.3412,
      "step": 180
    },
    {
      "epoch": 0.14933993399339934,
      "grad_norm": 0.3806641697883606,
      "learning_rate": 1.004e-05,
      "loss": 0.3876,
      "step": 181
    },
    {
      "epoch": 0.15016501650165018,
      "grad_norm": 0.3684283196926117,
      "learning_rate": 9.511578947368422e-06,
      "loss": 0.3532,
      "step": 182
    },
    {
      "epoch": 0.15099009900990099,
      "grad_norm": 0.40086090564727783,
      "learning_rate": 8.983157894736843e-06,
      "loss": 0.3913,
      "step": 183
    },
    {
      "epoch": 0.15181518151815182,
      "grad_norm": 0.4061753451824188,
      "learning_rate": 8.454736842105263e-06,
      "loss": 0.4015,
      "step": 184
    },
    {
      "epoch": 0.15264026402640263,
      "grad_norm": 0.3742460608482361,
      "learning_rate": 7.926315789473684e-06,
      "loss": 0.3194,
      "step": 185
    },
    {
      "epoch": 0.15346534653465346,
      "grad_norm": 0.4005219042301178,
      "learning_rate": 7.397894736842104e-06,
      "loss": 0.3662,
      "step": 186
    },
    {
      "epoch": 0.1542904290429043,
      "grad_norm": 0.418720543384552,
      "learning_rate": 6.8694736842105265e-06,
      "loss": 0.3473,
      "step": 187
    },
    {
      "epoch": 0.1551155115511551,
      "grad_norm": 0.4261304438114166,
      "learning_rate": 6.341052631578948e-06,
      "loss": 0.4028,
      "step": 188
    },
    {
      "epoch": 0.15594059405940594,
      "grad_norm": 0.44149506092071533,
      "learning_rate": 5.812631578947368e-06,
      "loss": 0.4537,
      "step": 189
    },
    {
      "epoch": 0.15676567656765678,
      "grad_norm": 0.39155399799346924,
      "learning_rate": 5.2842105263157896e-06,
      "loss": 0.3486,
      "step": 190
    },
    {
      "epoch": 0.15759075907590758,
      "grad_norm": 0.3782986104488373,
      "learning_rate": 4.755789473684211e-06,
      "loss": 0.3087,
      "step": 191
    },
    {
      "epoch": 0.15841584158415842,
      "grad_norm": 0.4226377010345459,
      "learning_rate": 4.227368421052631e-06,
      "loss": 0.3704,
      "step": 192
    },
    {
      "epoch": 0.15924092409240925,
      "grad_norm": 0.38598620891571045,
      "learning_rate": 3.698947368421052e-06,
      "loss": 0.3606,
      "step": 193
    },
    {
      "epoch": 0.16006600660066006,
      "grad_norm": 0.48220762610435486,
      "learning_rate": 3.170526315789474e-06,
      "loss": 0.5022,
      "step": 194
    },
    {
      "epoch": 0.1608910891089109,
      "grad_norm": 0.5079455971717834,
      "learning_rate": 2.6421052631578948e-06,
      "loss": 0.508,
      "step": 195
    },
    {
      "epoch": 0.1617161716171617,
      "grad_norm": 0.4130420684814453,
      "learning_rate": 2.1136842105263157e-06,
      "loss": 0.3792,
      "step": 196
    },
    {
      "epoch": 0.16254125412541254,
      "grad_norm": 0.4374969005584717,
      "learning_rate": 1.585263157894737e-06,
      "loss": 0.3786,
      "step": 197
    },
    {
      "epoch": 0.16336633663366337,
      "grad_norm": 0.4275504946708679,
      "learning_rate": 1.0568421052631578e-06,
      "loss": 0.3778,
      "step": 198
    },
    {
      "epoch": 0.16419141914191418,
      "grad_norm": 0.4080265164375305,
      "learning_rate": 5.284210526315789e-07,
      "loss": 0.3591,
      "step": 199
    },
    {
      "epoch": 0.16501650165016502,
      "grad_norm": 0.5100091099739075,
      "learning_rate": 0.0,
      "loss": 0.3787,
      "step": 200
    },
    {
      "epoch": 0.16501650165016502,
      "eval_loss": 0.3736993968486786,
      "eval_runtime": 122.5463,
      "eval_samples_per_second": 4.17,
      "eval_steps_per_second": 1.045,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.057824321872855e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}