{
  "best_metric": 0.11699455231428146,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.3568242640499554,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001784121320249777,
      "grad_norm": 5.211409568786621,
      "learning_rate": 1.0170000000000001e-05,
      "loss": 2.2423,
      "step": 1
    },
    {
      "epoch": 0.001784121320249777,
      "eval_loss": 3.369662046432495,
      "eval_runtime": 26.1859,
      "eval_samples_per_second": 9.012,
      "eval_steps_per_second": 2.253,
      "step": 1
    },
    {
      "epoch": 0.003568242640499554,
      "grad_norm": 4.127654075622559,
      "learning_rate": 2.0340000000000002e-05,
      "loss": 2.3456,
      "step": 2
    },
    {
      "epoch": 0.0053523639607493305,
      "grad_norm": 7.321721076965332,
      "learning_rate": 3.051e-05,
      "loss": 2.4375,
      "step": 3
    },
    {
      "epoch": 0.007136485280999108,
      "grad_norm": 4.322946548461914,
      "learning_rate": 4.0680000000000004e-05,
      "loss": 2.4018,
      "step": 4
    },
    {
      "epoch": 0.008920606601248885,
      "grad_norm": 5.146731376647949,
      "learning_rate": 5.085e-05,
      "loss": 2.133,
      "step": 5
    },
    {
      "epoch": 0.010704727921498661,
      "grad_norm": 3.487788677215576,
      "learning_rate": 6.102e-05,
      "loss": 1.8718,
      "step": 6
    },
    {
      "epoch": 0.012488849241748439,
      "grad_norm": 4.796105861663818,
      "learning_rate": 7.119e-05,
      "loss": 1.4467,
      "step": 7
    },
    {
      "epoch": 0.014272970561998216,
      "grad_norm": 6.860950946807861,
      "learning_rate": 8.136000000000001e-05,
      "loss": 1.5636,
      "step": 8
    },
    {
      "epoch": 0.016057091882247992,
      "grad_norm": 6.452523231506348,
      "learning_rate": 9.153000000000001e-05,
      "loss": 1.2584,
      "step": 9
    },
    {
      "epoch": 0.01784121320249777,
      "grad_norm": 9.794225692749023,
      "learning_rate": 0.0001017,
      "loss": 1.2704,
      "step": 10
    },
    {
      "epoch": 0.019625334522747548,
      "grad_norm": 11.833624839782715,
      "learning_rate": 0.00010116473684210527,
      "loss": 1.9652,
      "step": 11
    },
    {
      "epoch": 0.021409455842997322,
      "grad_norm": 6.884064197540283,
      "learning_rate": 0.00010062947368421052,
      "loss": 1.2627,
      "step": 12
    },
    {
      "epoch": 0.0231935771632471,
      "grad_norm": 3.182652711868286,
      "learning_rate": 0.00010009421052631579,
      "loss": 0.7258,
      "step": 13
    },
    {
      "epoch": 0.024977698483496878,
      "grad_norm": 3.224641799926758,
      "learning_rate": 9.955894736842107e-05,
      "loss": 0.6697,
      "step": 14
    },
    {
      "epoch": 0.026761819803746655,
      "grad_norm": 8.251081466674805,
      "learning_rate": 9.902368421052632e-05,
      "loss": 1.2088,
      "step": 15
    },
    {
      "epoch": 0.028545941123996433,
      "grad_norm": 4.849727630615234,
      "learning_rate": 9.848842105263159e-05,
      "loss": 1.4203,
      "step": 16
    },
    {
      "epoch": 0.030330062444246207,
      "grad_norm": 3.8576481342315674,
      "learning_rate": 9.795315789473685e-05,
      "loss": 0.9165,
      "step": 17
    },
    {
      "epoch": 0.032114183764495985,
      "grad_norm": 7.665337562561035,
      "learning_rate": 9.74178947368421e-05,
      "loss": 1.206,
      "step": 18
    },
    {
      "epoch": 0.03389830508474576,
      "grad_norm": 6.140932083129883,
      "learning_rate": 9.688263157894737e-05,
      "loss": 1.4052,
      "step": 19
    },
    {
      "epoch": 0.03568242640499554,
      "grad_norm": 6.510207653045654,
      "learning_rate": 9.634736842105264e-05,
      "loss": 1.1565,
      "step": 20
    },
    {
      "epoch": 0.03746654772524532,
      "grad_norm": 4.305935859680176,
      "learning_rate": 9.58121052631579e-05,
      "loss": 0.5844,
      "step": 21
    },
    {
      "epoch": 0.039250669045495096,
      "grad_norm": 15.40368938446045,
      "learning_rate": 9.527684210526317e-05,
      "loss": 1.2867,
      "step": 22
    },
    {
      "epoch": 0.04103479036574487,
      "grad_norm": 4.946792125701904,
      "learning_rate": 9.474157894736843e-05,
      "loss": 0.4958,
      "step": 23
    },
    {
      "epoch": 0.042818911685994644,
      "grad_norm": 12.372516632080078,
      "learning_rate": 9.420631578947368e-05,
      "loss": 1.5039,
      "step": 24
    },
    {
      "epoch": 0.04460303300624442,
      "grad_norm": 6.862067699432373,
      "learning_rate": 9.367105263157895e-05,
      "loss": 1.0814,
      "step": 25
    },
    {
      "epoch": 0.0463871543264942,
      "grad_norm": 7.477258205413818,
      "learning_rate": 9.313578947368422e-05,
      "loss": 0.576,
      "step": 26
    },
    {
      "epoch": 0.04817127564674398,
      "grad_norm": 8.015552520751953,
      "learning_rate": 9.260052631578948e-05,
      "loss": 0.8602,
      "step": 27
    },
    {
      "epoch": 0.049955396966993755,
      "grad_norm": 16.403804779052734,
      "learning_rate": 9.206526315789475e-05,
      "loss": 2.3747,
      "step": 28
    },
    {
      "epoch": 0.05173951828724353,
      "grad_norm": 9.885987281799316,
      "learning_rate": 9.153000000000001e-05,
      "loss": 1.6308,
      "step": 29
    },
    {
      "epoch": 0.05352363960749331,
      "grad_norm": 4.295153617858887,
      "learning_rate": 9.099473684210527e-05,
      "loss": 0.7842,
      "step": 30
    },
    {
      "epoch": 0.05530776092774309,
      "grad_norm": 25.236331939697266,
      "learning_rate": 9.045947368421053e-05,
      "loss": 1.5316,
      "step": 31
    },
    {
      "epoch": 0.057091882247992866,
      "grad_norm": 6.410094261169434,
      "learning_rate": 8.99242105263158e-05,
      "loss": 0.5277,
      "step": 32
    },
    {
      "epoch": 0.058876003568242644,
      "grad_norm": 12.317517280578613,
      "learning_rate": 8.938894736842105e-05,
      "loss": 1.2858,
      "step": 33
    },
    {
      "epoch": 0.060660124888492414,
      "grad_norm": 10.234062194824219,
      "learning_rate": 8.885368421052633e-05,
      "loss": 1.4065,
      "step": 34
    },
    {
      "epoch": 0.06244424620874219,
      "grad_norm": 6.631531715393066,
      "learning_rate": 8.83184210526316e-05,
      "loss": 1.0797,
      "step": 35
    },
    {
      "epoch": 0.06422836752899197,
      "grad_norm": 6.591498374938965,
      "learning_rate": 8.778315789473685e-05,
      "loss": 1.1247,
      "step": 36
    },
    {
      "epoch": 0.06601248884924175,
      "grad_norm": 4.755411148071289,
      "learning_rate": 8.724789473684211e-05,
      "loss": 0.7607,
      "step": 37
    },
    {
      "epoch": 0.06779661016949153,
      "grad_norm": 4.427405834197998,
      "learning_rate": 8.671263157894738e-05,
      "loss": 0.4463,
      "step": 38
    },
    {
      "epoch": 0.0695807314897413,
      "grad_norm": 3.701812267303467,
      "learning_rate": 8.617736842105263e-05,
      "loss": 0.4957,
      "step": 39
    },
    {
      "epoch": 0.07136485280999108,
      "grad_norm": 4.923530101776123,
      "learning_rate": 8.56421052631579e-05,
      "loss": 0.805,
      "step": 40
    },
    {
      "epoch": 0.07314897413024085,
      "grad_norm": 5.479727268218994,
      "learning_rate": 8.510684210526316e-05,
      "loss": 0.8202,
      "step": 41
    },
    {
      "epoch": 0.07493309545049064,
      "grad_norm": 12.824061393737793,
      "learning_rate": 8.457157894736843e-05,
      "loss": 1.1471,
      "step": 42
    },
    {
      "epoch": 0.0767172167707404,
      "grad_norm": 11.382511138916016,
      "learning_rate": 8.403631578947369e-05,
      "loss": 1.4093,
      "step": 43
    },
    {
      "epoch": 0.07850133809099019,
      "grad_norm": 15.302628517150879,
      "learning_rate": 8.350105263157896e-05,
      "loss": 1.8548,
      "step": 44
    },
    {
      "epoch": 0.08028545941123996,
      "grad_norm": 17.11884307861328,
      "learning_rate": 8.296578947368421e-05,
      "loss": 1.7139,
      "step": 45
    },
    {
      "epoch": 0.08206958073148975,
      "grad_norm": 13.225650787353516,
      "learning_rate": 8.243052631578948e-05,
      "loss": 1.6428,
      "step": 46
    },
    {
      "epoch": 0.08385370205173952,
      "grad_norm": 12.020626068115234,
      "learning_rate": 8.189526315789474e-05,
      "loss": 1.6762,
      "step": 47
    },
    {
      "epoch": 0.08563782337198929,
      "grad_norm": 8.190238952636719,
      "learning_rate": 8.136000000000001e-05,
      "loss": 1.0945,
      "step": 48
    },
    {
      "epoch": 0.08742194469223907,
      "grad_norm": 6.596380710601807,
      "learning_rate": 8.082473684210527e-05,
      "loss": 0.8412,
      "step": 49
    },
    {
      "epoch": 0.08920606601248884,
      "grad_norm": 6.600888729095459,
      "learning_rate": 8.028947368421054e-05,
      "loss": 0.7751,
      "step": 50
    },
    {
      "epoch": 0.08920606601248884,
      "eval_loss": 1.4356608390808105,
      "eval_runtime": 26.2051,
      "eval_samples_per_second": 9.006,
      "eval_steps_per_second": 2.251,
      "step": 50
    },
    {
      "epoch": 0.09099018733273863,
      "grad_norm": 20.409425735473633,
      "learning_rate": 7.975421052631579e-05,
      "loss": 3.0548,
      "step": 51
    },
    {
      "epoch": 0.0927743086529884,
      "grad_norm": 16.00966453552246,
      "learning_rate": 7.921894736842106e-05,
      "loss": 2.1396,
      "step": 52
    },
    {
      "epoch": 0.09455842997323818,
      "grad_norm": 7.537677764892578,
      "learning_rate": 7.868368421052632e-05,
      "loss": 1.2696,
      "step": 53
    },
    {
      "epoch": 0.09634255129348795,
      "grad_norm": 6.587912082672119,
      "learning_rate": 7.814842105263157e-05,
      "loss": 1.1337,
      "step": 54
    },
    {
      "epoch": 0.09812667261373774,
      "grad_norm": 4.329331398010254,
      "learning_rate": 7.761315789473685e-05,
      "loss": 0.8171,
      "step": 55
    },
    {
      "epoch": 0.09991079393398751,
      "grad_norm": 3.663255453109741,
      "learning_rate": 7.70778947368421e-05,
      "loss": 0.6999,
      "step": 56
    },
    {
      "epoch": 0.1016949152542373,
      "grad_norm": 2.727301597595215,
      "learning_rate": 7.654263157894737e-05,
      "loss": 0.5279,
      "step": 57
    },
    {
      "epoch": 0.10347903657448707,
      "grad_norm": 2.517827272415161,
      "learning_rate": 7.600736842105264e-05,
      "loss": 0.4443,
      "step": 58
    },
    {
      "epoch": 0.10526315789473684,
      "grad_norm": 1.8720314502716064,
      "learning_rate": 7.54721052631579e-05,
      "loss": 0.3783,
      "step": 59
    },
    {
      "epoch": 0.10704727921498662,
      "grad_norm": 3.110391616821289,
      "learning_rate": 7.493684210526315e-05,
      "loss": 0.3388,
      "step": 60
    },
    {
      "epoch": 0.10883140053523639,
      "grad_norm": 4.023976802825928,
      "learning_rate": 7.440157894736843e-05,
      "loss": 0.3982,
      "step": 61
    },
    {
      "epoch": 0.11061552185548618,
      "grad_norm": 3.8260369300842285,
      "learning_rate": 7.386631578947369e-05,
      "loss": 0.4348,
      "step": 62
    },
    {
      "epoch": 0.11239964317573595,
      "grad_norm": 2.7333099842071533,
      "learning_rate": 7.333105263157895e-05,
      "loss": 0.2955,
      "step": 63
    },
    {
      "epoch": 0.11418376449598573,
      "grad_norm": 2.771901845932007,
      "learning_rate": 7.279578947368422e-05,
      "loss": 0.2213,
      "step": 64
    },
    {
      "epoch": 0.1159678858162355,
      "grad_norm": 5.099678993225098,
      "learning_rate": 7.226052631578947e-05,
      "loss": 0.566,
      "step": 65
    },
    {
      "epoch": 0.11775200713648529,
      "grad_norm": 8.057597160339355,
      "learning_rate": 7.172526315789474e-05,
      "loss": 0.6456,
      "step": 66
    },
    {
      "epoch": 0.11953612845673506,
      "grad_norm": 2.755199909210205,
      "learning_rate": 7.119e-05,
      "loss": 0.241,
      "step": 67
    },
    {
      "epoch": 0.12132024977698483,
      "grad_norm": 2.9649033546447754,
      "learning_rate": 7.065473684210527e-05,
      "loss": 0.3628,
      "step": 68
    },
    {
      "epoch": 0.12310437109723461,
      "grad_norm": 2.2330434322357178,
      "learning_rate": 7.011947368421053e-05,
      "loss": 0.217,
      "step": 69
    },
    {
      "epoch": 0.12488849241748438,
      "grad_norm": 2.6080071926116943,
      "learning_rate": 6.95842105263158e-05,
      "loss": 0.1843,
      "step": 70
    },
    {
      "epoch": 0.12667261373773417,
      "grad_norm": 2.6920740604400635,
      "learning_rate": 6.904894736842105e-05,
      "loss": 0.1465,
      "step": 71
    },
    {
      "epoch": 0.12845673505798394,
      "grad_norm": 1.5900241136550903,
      "learning_rate": 6.851368421052632e-05,
      "loss": 0.0644,
      "step": 72
    },
    {
      "epoch": 0.1302408563782337,
      "grad_norm": 2.373265027999878,
      "learning_rate": 6.797842105263158e-05,
      "loss": 0.1218,
      "step": 73
    },
    {
      "epoch": 0.1320249776984835,
      "grad_norm": 1.9884077310562134,
      "learning_rate": 6.744315789473685e-05,
      "loss": 0.1243,
      "step": 74
    },
    {
      "epoch": 0.13380909901873328,
      "grad_norm": 7.717135429382324,
      "learning_rate": 6.690789473684211e-05,
      "loss": 0.4788,
      "step": 75
    },
    {
      "epoch": 0.13559322033898305,
      "grad_norm": 6.044665813446045,
      "learning_rate": 6.637263157894738e-05,
      "loss": 0.5914,
      "step": 76
    },
    {
      "epoch": 0.13737734165923282,
      "grad_norm": 5.422643661499023,
      "learning_rate": 6.583736842105263e-05,
      "loss": 0.4602,
      "step": 77
    },
    {
      "epoch": 0.1391614629794826,
      "grad_norm": 4.037408351898193,
      "learning_rate": 6.53021052631579e-05,
      "loss": 0.483,
      "step": 78
    },
    {
      "epoch": 0.1409455842997324,
      "grad_norm": 5.6697235107421875,
      "learning_rate": 6.476684210526316e-05,
      "loss": 0.5961,
      "step": 79
    },
    {
      "epoch": 0.14272970561998216,
      "grad_norm": 4.6678466796875,
      "learning_rate": 6.423157894736841e-05,
      "loss": 0.3001,
      "step": 80
    },
    {
      "epoch": 0.14451382694023193,
      "grad_norm": 2.532202959060669,
      "learning_rate": 6.369631578947368e-05,
      "loss": 0.2518,
      "step": 81
    },
    {
      "epoch": 0.1462979482604817,
      "grad_norm": 28.16657066345215,
      "learning_rate": 6.316105263157896e-05,
      "loss": 0.9487,
      "step": 82
    },
    {
      "epoch": 0.1480820695807315,
      "grad_norm": 5.243542671203613,
      "learning_rate": 6.262578947368421e-05,
      "loss": 0.5024,
      "step": 83
    },
    {
      "epoch": 0.14986619090098127,
      "grad_norm": 5.984805107116699,
      "learning_rate": 6.209052631578948e-05,
      "loss": 0.436,
      "step": 84
    },
    {
      "epoch": 0.15165031222123104,
      "grad_norm": 5.015280246734619,
      "learning_rate": 6.155526315789474e-05,
      "loss": 0.2732,
      "step": 85
    },
    {
      "epoch": 0.1534344335414808,
      "grad_norm": 1.5868383646011353,
      "learning_rate": 6.102e-05,
      "loss": 0.1067,
      "step": 86
    },
    {
      "epoch": 0.15521855486173058,
      "grad_norm": 2.420863628387451,
      "learning_rate": 6.048473684210526e-05,
      "loss": 0.214,
      "step": 87
    },
    {
      "epoch": 0.15700267618198038,
      "grad_norm": 1.6200649738311768,
      "learning_rate": 5.9949473684210527e-05,
      "loss": 0.1387,
      "step": 88
    },
    {
      "epoch": 0.15878679750223015,
      "grad_norm": 3.103991985321045,
      "learning_rate": 5.94142105263158e-05,
      "loss": 0.2785,
      "step": 89
    },
    {
      "epoch": 0.16057091882247992,
      "grad_norm": 7.85850191116333,
      "learning_rate": 5.887894736842106e-05,
      "loss": 0.4151,
      "step": 90
    },
    {
      "epoch": 0.1623550401427297,
      "grad_norm": 4.9108476638793945,
      "learning_rate": 5.834368421052632e-05,
      "loss": 0.4358,
      "step": 91
    },
    {
      "epoch": 0.1641391614629795,
      "grad_norm": 4.213490009307861,
      "learning_rate": 5.780842105263158e-05,
      "loss": 0.4191,
      "step": 92
    },
    {
      "epoch": 0.16592328278322926,
      "grad_norm": 3.382030725479126,
      "learning_rate": 5.727315789473684e-05,
      "loss": 0.3118,
      "step": 93
    },
    {
      "epoch": 0.16770740410347904,
      "grad_norm": 4.982720851898193,
      "learning_rate": 5.673789473684211e-05,
      "loss": 0.5901,
      "step": 94
    },
    {
      "epoch": 0.1694915254237288,
      "grad_norm": 3.429215669631958,
      "learning_rate": 5.620263157894738e-05,
      "loss": 0.4194,
      "step": 95
    },
    {
      "epoch": 0.17127564674397858,
      "grad_norm": 8.598753929138184,
      "learning_rate": 5.566736842105264e-05,
      "loss": 0.6376,
      "step": 96
    },
    {
      "epoch": 0.17305976806422838,
      "grad_norm": 5.749628067016602,
      "learning_rate": 5.51321052631579e-05,
      "loss": 0.45,
      "step": 97
    },
    {
      "epoch": 0.17484388938447815,
      "grad_norm": 6.595522880554199,
      "learning_rate": 5.459684210526316e-05,
      "loss": 0.7349,
      "step": 98
    },
    {
      "epoch": 0.17662801070472792,
      "grad_norm": 4.2516679763793945,
      "learning_rate": 5.406157894736842e-05,
      "loss": 0.2413,
      "step": 99
    },
    {
      "epoch": 0.1784121320249777,
      "grad_norm": 6.781344413757324,
      "learning_rate": 5.352631578947368e-05,
      "loss": 0.5948,
      "step": 100
    },
    {
      "epoch": 0.1784121320249777,
      "eval_loss": 1.0900410413742065,
      "eval_runtime": 25.9871,
      "eval_samples_per_second": 9.081,
      "eval_steps_per_second": 2.27,
      "step": 100
    },
    {
      "epoch": 0.1801962533452275,
      "grad_norm": 11.509772300720215,
      "learning_rate": 5.299105263157895e-05,
      "loss": 1.9353,
      "step": 101
    },
    {
      "epoch": 0.18198037466547726,
      "grad_norm": 10.326773643493652,
      "learning_rate": 5.245578947368422e-05,
      "loss": 1.7739,
      "step": 102
    },
    {
      "epoch": 0.18376449598572703,
      "grad_norm": 9.427948951721191,
      "learning_rate": 5.192052631578948e-05,
      "loss": 1.317,
      "step": 103
    },
    {
      "epoch": 0.1855486173059768,
      "grad_norm": 7.308841705322266,
      "learning_rate": 5.1385263157894744e-05,
      "loss": 1.1343,
      "step": 104
    },
    {
      "epoch": 0.1873327386262266,
      "grad_norm": 5.664653778076172,
      "learning_rate": 5.085e-05,
      "loss": 0.8218,
      "step": 105
    },
    {
      "epoch": 0.18911685994647637,
      "grad_norm": 9.0348482131958,
      "learning_rate": 5.031473684210526e-05,
      "loss": 0.5077,
      "step": 106
    },
    {
      "epoch": 0.19090098126672614,
      "grad_norm": 2.781574010848999,
      "learning_rate": 4.9779473684210534e-05,
      "loss": 0.4256,
      "step": 107
    },
    {
      "epoch": 0.1926851025869759,
      "grad_norm": 2.9030113220214844,
      "learning_rate": 4.924421052631579e-05,
      "loss": 0.3758,
      "step": 108
    },
    {
      "epoch": 0.19446922390722568,
      "grad_norm": 2.116370677947998,
      "learning_rate": 4.870894736842105e-05,
      "loss": 0.3505,
      "step": 109
    },
    {
      "epoch": 0.19625334522747548,
      "grad_norm": 3.3093905448913574,
      "learning_rate": 4.817368421052632e-05,
      "loss": 0.3063,
      "step": 110
    },
    {
      "epoch": 0.19803746654772525,
      "grad_norm": 2.9320712089538574,
      "learning_rate": 4.763842105263158e-05,
      "loss": 0.3796,
      "step": 111
    },
    {
      "epoch": 0.19982158786797502,
      "grad_norm": 3.8944294452667236,
      "learning_rate": 4.710315789473684e-05,
      "loss": 0.352,
      "step": 112
    },
    {
      "epoch": 0.2016057091882248,
      "grad_norm": 2.2316792011260986,
      "learning_rate": 4.656789473684211e-05,
      "loss": 0.262,
      "step": 113
    },
    {
      "epoch": 0.2033898305084746,
      "grad_norm": 2.349055528640747,
      "learning_rate": 4.6032631578947374e-05,
      "loss": 0.2623,
      "step": 114
    },
    {
      "epoch": 0.20517395182872436,
      "grad_norm": 2.159189224243164,
      "learning_rate": 4.549736842105263e-05,
      "loss": 0.1667,
      "step": 115
    },
    {
      "epoch": 0.20695807314897413,
      "grad_norm": 2.112760543823242,
      "learning_rate": 4.49621052631579e-05,
      "loss": 0.1752,
      "step": 116
    },
    {
      "epoch": 0.2087421944692239,
      "grad_norm": 2.888823986053467,
      "learning_rate": 4.4426842105263164e-05,
      "loss": 0.2025,
      "step": 117
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 1.091259479522705,
      "learning_rate": 4.389157894736842e-05,
      "loss": 0.1747,
      "step": 118
    },
    {
      "epoch": 0.21231043710972347,
      "grad_norm": 3.409271240234375,
      "learning_rate": 4.335631578947369e-05,
      "loss": 0.3556,
      "step": 119
    },
    {
      "epoch": 0.21409455842997324,
      "grad_norm": 1.5886255502700806,
      "learning_rate": 4.282105263157895e-05,
      "loss": 0.129,
      "step": 120
    },
    {
      "epoch": 0.215878679750223,
      "grad_norm": 1.3102084398269653,
      "learning_rate": 4.228578947368421e-05,
      "loss": 0.0602,
      "step": 121
    },
    {
      "epoch": 0.21766280107047278,
      "grad_norm": 1.2553768157958984,
      "learning_rate": 4.175052631578948e-05,
      "loss": 0.1296,
      "step": 122
    },
    {
      "epoch": 0.21944692239072258,
      "grad_norm": 4.5074872970581055,
      "learning_rate": 4.121526315789474e-05,
      "loss": 0.2554,
      "step": 123
    },
    {
      "epoch": 0.22123104371097235,
      "grad_norm": 4.849306106567383,
      "learning_rate": 4.0680000000000004e-05,
      "loss": 0.3592,
      "step": 124
    },
    {
      "epoch": 0.22301516503122212,
      "grad_norm": 3.515700578689575,
      "learning_rate": 4.014473684210527e-05,
      "loss": 0.2306,
      "step": 125
    },
    {
      "epoch": 0.2247992863514719,
      "grad_norm": 3.472377300262451,
      "learning_rate": 3.960947368421053e-05,
      "loss": 0.2561,
      "step": 126
    },
    {
      "epoch": 0.22658340767172166,
      "grad_norm": 4.4542555809021,
      "learning_rate": 3.907421052631579e-05,
      "loss": 0.3113,
      "step": 127
    },
    {
      "epoch": 0.22836752899197146,
      "grad_norm": 4.667314529418945,
      "learning_rate": 3.853894736842105e-05,
      "loss": 0.1177,
      "step": 128
    },
    {
      "epoch": 0.23015165031222123,
      "grad_norm": 2.0839500427246094,
      "learning_rate": 3.800368421052632e-05,
      "loss": 0.4101,
      "step": 129
    },
    {
      "epoch": 0.231935771632471,
      "grad_norm": 6.770464897155762,
      "learning_rate": 3.746842105263158e-05,
      "loss": 0.2081,
      "step": 130
    },
    {
      "epoch": 0.23371989295272078,
      "grad_norm": 5.7927680015563965,
      "learning_rate": 3.693315789473684e-05,
      "loss": 0.5442,
      "step": 131
    },
    {
      "epoch": 0.23550401427297057,
      "grad_norm": 5.349955081939697,
      "learning_rate": 3.639789473684211e-05,
      "loss": 0.3164,
      "step": 132
    },
    {
      "epoch": 0.23728813559322035,
      "grad_norm": 3.003903388977051,
      "learning_rate": 3.586263157894737e-05,
      "loss": 0.1964,
      "step": 133
    },
    {
      "epoch": 0.23907225691347012,
      "grad_norm": 2.745546817779541,
      "learning_rate": 3.5327368421052633e-05,
      "loss": 0.1661,
      "step": 134
    },
    {
      "epoch": 0.2408563782337199,
      "grad_norm": 2.8977372646331787,
      "learning_rate": 3.47921052631579e-05,
      "loss": 0.2443,
      "step": 135
    },
    {
      "epoch": 0.24264049955396966,
      "grad_norm": 2.2022128105163574,
      "learning_rate": 3.425684210526316e-05,
      "loss": 0.1696,
      "step": 136
    },
    {
      "epoch": 0.24442462087421946,
      "grad_norm": 0.762494683265686,
      "learning_rate": 3.3721578947368424e-05,
      "loss": 0.0615,
      "step": 137
    },
    {
      "epoch": 0.24620874219446923,
      "grad_norm": 2.644778251647949,
      "learning_rate": 3.318631578947369e-05,
      "loss": 0.271,
      "step": 138
    },
    {
      "epoch": 0.247992863514719,
      "grad_norm": 2.8362395763397217,
      "learning_rate": 3.265105263157895e-05,
      "loss": 0.3431,
      "step": 139
    },
    {
      "epoch": 0.24977698483496877,
      "grad_norm": 2.1041507720947266,
      "learning_rate": 3.211578947368421e-05,
      "loss": 0.217,
      "step": 140
    },
    {
      "epoch": 0.25156110615521854,
      "grad_norm": 3.0417773723602295,
      "learning_rate": 3.158052631578948e-05,
      "loss": 0.2555,
      "step": 141
    },
    {
      "epoch": 0.25334522747546834,
      "grad_norm": 4.0223798751831055,
      "learning_rate": 3.104526315789474e-05,
      "loss": 0.227,
      "step": 142
    },
    {
      "epoch": 0.25512934879571814,
      "grad_norm": 2.5270657539367676,
      "learning_rate": 3.051e-05,
      "loss": 0.2334,
      "step": 143
    },
    {
      "epoch": 0.2569134701159679,
      "grad_norm": 2.6406853199005127,
      "learning_rate": 2.9974736842105263e-05,
      "loss": 0.3729,
      "step": 144
    },
    {
      "epoch": 0.2586975914362177,
      "grad_norm": 1.985392689704895,
      "learning_rate": 2.943947368421053e-05,
      "loss": 0.2918,
      "step": 145
    },
    {
      "epoch": 0.2604817127564674,
      "grad_norm": 2.7406768798828125,
      "learning_rate": 2.890421052631579e-05,
      "loss": 0.1722,
      "step": 146
    },
    {
      "epoch": 0.2622658340767172,
      "grad_norm": 7.494437217712402,
      "learning_rate": 2.8368947368421054e-05,
      "loss": 0.5254,
      "step": 147
    },
    {
      "epoch": 0.264049955396967,
      "grad_norm": 4.069852828979492,
      "learning_rate": 2.783368421052632e-05,
      "loss": 0.3031,
      "step": 148
    },
    {
      "epoch": 0.26583407671721676,
      "grad_norm": 2.6836159229278564,
      "learning_rate": 2.729842105263158e-05,
      "loss": 0.327,
      "step": 149
    },
    {
      "epoch": 0.26761819803746656,
      "grad_norm": 5.013256072998047,
      "learning_rate": 2.676315789473684e-05,
      "loss": 0.3383,
      "step": 150
    },
    {
      "epoch": 0.26761819803746656,
      "eval_loss": 0.3433411717414856,
      "eval_runtime": 25.9901,
      "eval_samples_per_second": 9.08,
      "eval_steps_per_second": 2.27,
      "step": 150
    },
    {
      "epoch": 0.2694023193577163,
      "grad_norm": 6.377121925354004,
      "learning_rate": 2.622789473684211e-05,
      "loss": 0.6521,
      "step": 151
    },
    {
      "epoch": 0.2711864406779661,
      "grad_norm": 3.229111671447754,
      "learning_rate": 2.5692631578947372e-05,
      "loss": 0.4173,
      "step": 152
    },
    {
      "epoch": 0.2729705619982159,
      "grad_norm": 2.997849225997925,
      "learning_rate": 2.515736842105263e-05,
      "loss": 0.486,
      "step": 153
    },
    {
      "epoch": 0.27475468331846564,
      "grad_norm": 5.414923191070557,
      "learning_rate": 2.4622105263157897e-05,
      "loss": 0.4984,
      "step": 154
    },
    {
      "epoch": 0.27653880463871544,
      "grad_norm": 5.7754597663879395,
      "learning_rate": 2.408684210526316e-05,
      "loss": 0.4548,
      "step": 155
    },
    {
      "epoch": 0.2783229259589652,
      "grad_norm": 3.613875389099121,
      "learning_rate": 2.355157894736842e-05,
      "loss": 0.3154,
      "step": 156
    },
    {
      "epoch": 0.280107047279215,
      "grad_norm": 2.7714474201202393,
      "learning_rate": 2.3016315789473687e-05,
      "loss": 0.2716,
      "step": 157
    },
    {
      "epoch": 0.2818911685994648,
      "grad_norm": 3.1848134994506836,
      "learning_rate": 2.248105263157895e-05,
      "loss": 0.1476,
      "step": 158
    },
    {
      "epoch": 0.2836752899197145,
      "grad_norm": 1.7357780933380127,
      "learning_rate": 2.194578947368421e-05,
      "loss": 0.1349,
      "step": 159
    },
    {
      "epoch": 0.2854594112399643,
      "grad_norm": 2.317922353744507,
      "learning_rate": 2.1410526315789474e-05,
      "loss": 0.0644,
      "step": 160
    },
    {
      "epoch": 0.2872435325602141,
      "grad_norm": 1.9329112768173218,
      "learning_rate": 2.087526315789474e-05,
      "loss": 0.1022,
      "step": 161
    },
    {
      "epoch": 0.28902765388046386,
      "grad_norm": 1.6571458578109741,
      "learning_rate": 2.0340000000000002e-05,
      "loss": 0.125,
      "step": 162
    },
    {
      "epoch": 0.29081177520071366,
      "grad_norm": 3.2216265201568604,
      "learning_rate": 1.9804736842105264e-05,
      "loss": 0.3244,
      "step": 163
    },
    {
      "epoch": 0.2925958965209634,
      "grad_norm": 3.2759523391723633,
      "learning_rate": 1.9269473684210526e-05,
      "loss": 0.2553,
      "step": 164
    },
    {
      "epoch": 0.2943800178412132,
      "grad_norm": 3.061447858810425,
      "learning_rate": 1.873421052631579e-05,
      "loss": 0.1635,
      "step": 165
    },
    {
      "epoch": 0.296164139161463,
      "grad_norm": 2.6589152812957764,
      "learning_rate": 1.8198947368421054e-05,
      "loss": 0.3699,
      "step": 166
    },
    {
      "epoch": 0.29794826048171275,
      "grad_norm": 2.176741600036621,
      "learning_rate": 1.7663684210526317e-05,
      "loss": 0.2426,
      "step": 167
    },
    {
      "epoch": 0.29973238180196254,
      "grad_norm": 3.4110331535339355,
      "learning_rate": 1.712842105263158e-05,
      "loss": 0.1751,
      "step": 168
    },
    {
      "epoch": 0.3015165031222123,
      "grad_norm": 2.073974132537842,
      "learning_rate": 1.6593157894736845e-05,
      "loss": 0.1996,
      "step": 169
    },
    {
      "epoch": 0.3033006244424621,
      "grad_norm": 2.374593496322632,
      "learning_rate": 1.6057894736842104e-05,
      "loss": 0.1299,
      "step": 170
    },
    {
      "epoch": 0.3050847457627119,
      "grad_norm": 2.038259744644165,
      "learning_rate": 1.552263157894737e-05,
      "loss": 0.1029,
      "step": 171
    },
    {
      "epoch": 0.3068688670829616,
      "grad_norm": 1.358562707901001,
      "learning_rate": 1.4987368421052632e-05,
      "loss": 0.1095,
      "step": 172
    },
    {
      "epoch": 0.3086529884032114,
      "grad_norm": 2.7677323818206787,
      "learning_rate": 1.4452105263157896e-05,
      "loss": 0.2534,
      "step": 173
    },
    {
      "epoch": 0.31043710972346117,
      "grad_norm": 3.26887845993042,
      "learning_rate": 1.391684210526316e-05,
      "loss": 0.2149,
      "step": 174
    },
    {
      "epoch": 0.31222123104371097,
      "grad_norm": 2.62199330329895,
      "learning_rate": 1.338157894736842e-05,
      "loss": 0.2241,
      "step": 175
    },
    {
      "epoch": 0.31400535236396077,
      "grad_norm": 1.790993571281433,
      "learning_rate": 1.2846315789473686e-05,
      "loss": 0.2005,
      "step": 176
    },
    {
      "epoch": 0.3157894736842105,
      "grad_norm": 1.6840771436691284,
      "learning_rate": 1.2311052631578948e-05,
      "loss": 0.2001,
      "step": 177
    },
    {
      "epoch": 0.3175735950044603,
      "grad_norm": 1.7056312561035156,
      "learning_rate": 1.177578947368421e-05,
      "loss": 0.1361,
      "step": 178
    },
    {
      "epoch": 0.3193577163247101,
      "grad_norm": 1.952252984046936,
      "learning_rate": 1.1240526315789475e-05,
      "loss": 0.2078,
      "step": 179
    },
    {
      "epoch": 0.32114183764495985,
      "grad_norm": 2.965940475463867,
      "learning_rate": 1.0705263157894737e-05,
      "loss": 0.2415,
      "step": 180
    },
    {
      "epoch": 0.32292595896520965,
      "grad_norm": 2.9831676483154297,
      "learning_rate": 1.0170000000000001e-05,
      "loss": 0.2756,
      "step": 181
    },
    {
      "epoch": 0.3247100802854594,
      "grad_norm": 4.729600429534912,
      "learning_rate": 9.634736842105263e-06,
      "loss": 0.4065,
      "step": 182
    },
    {
      "epoch": 0.3264942016057092,
      "grad_norm": 2.4799299240112305,
      "learning_rate": 9.099473684210527e-06,
      "loss": 0.1518,
      "step": 183
    },
    {
      "epoch": 0.328278322925959,
      "grad_norm": 1.6759108304977417,
      "learning_rate": 8.56421052631579e-06,
      "loss": 0.1324,
      "step": 184
    },
    {
      "epoch": 0.33006244424620873,
      "grad_norm": 1.1743565797805786,
      "learning_rate": 8.028947368421052e-06,
      "loss": 0.0901,
      "step": 185
    },
    {
      "epoch": 0.33184656556645853,
      "grad_norm": 3.570462465286255,
      "learning_rate": 7.493684210526316e-06,
      "loss": 0.1744,
      "step": 186
    },
    {
      "epoch": 0.33363068688670827,
      "grad_norm": 2.275346517562866,
      "learning_rate": 6.95842105263158e-06,
      "loss": 0.1587,
      "step": 187
    },
    {
      "epoch": 0.33541480820695807,
      "grad_norm": 1.610485315322876,
      "learning_rate": 6.423157894736843e-06,
      "loss": 0.1512,
      "step": 188
    },
    {
      "epoch": 0.33719892952720787,
      "grad_norm": 2.2590842247009277,
      "learning_rate": 5.887894736842105e-06,
      "loss": 0.0993,
      "step": 189
    },
    {
      "epoch": 0.3389830508474576,
      "grad_norm": 2.172537088394165,
      "learning_rate": 5.3526315789473684e-06,
      "loss": 0.1312,
      "step": 190
    },
    {
      "epoch": 0.3407671721677074,
      "grad_norm": 1.2215029001235962,
      "learning_rate": 4.817368421052632e-06,
      "loss": 0.0668,
      "step": 191
    },
    {
      "epoch": 0.34255129348795715,
      "grad_norm": 0.9878784418106079,
      "learning_rate": 4.282105263157895e-06,
      "loss": 0.0921,
      "step": 192
    },
    {
      "epoch": 0.34433541480820695,
      "grad_norm": 1.8482226133346558,
      "learning_rate": 3.746842105263158e-06,
      "loss": 0.1168,
      "step": 193
    },
    {
      "epoch": 0.34611953612845675,
      "grad_norm": 4.2362775802612305,
      "learning_rate": 3.2115789473684215e-06,
      "loss": 0.153,
      "step": 194
    },
    {
      "epoch": 0.3479036574487065,
      "grad_norm": 3.5083532333374023,
      "learning_rate": 2.6763157894736842e-06,
      "loss": 0.2441,
      "step": 195
    },
    {
      "epoch": 0.3496877787689563,
      "grad_norm": 2.575528144836426,
      "learning_rate": 2.1410526315789474e-06,
      "loss": 0.2789,
      "step": 196
    },
    {
      "epoch": 0.3514719000892061,
      "grad_norm": 3.301903247833252,
      "learning_rate": 1.6057894736842107e-06,
      "loss": 0.1416,
      "step": 197
    },
    {
      "epoch": 0.35325602140945583,
      "grad_norm": 2.226771354675293,
      "learning_rate": 1.0705263157894737e-06,
      "loss": 0.2886,
      "step": 198
    },
    {
      "epoch": 0.35504014272970563,
      "grad_norm": 3.2611441612243652,
      "learning_rate": 5.352631578947368e-07,
      "loss": 0.4134,
      "step": 199
    },
    {
      "epoch": 0.3568242640499554,
      "grad_norm": 6.527837753295898,
      "learning_rate": 0.0,
      "loss": 0.6558,
      "step": 200
    },
    {
      "epoch": 0.3568242640499554,
      "eval_loss": 0.11699455231428146,
      "eval_runtime": 25.9831,
      "eval_samples_per_second": 9.083,
      "eval_steps_per_second": 2.271,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.54256789372928e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}