{
  "best_metric": 10.707942008972168,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.07426661715558856,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003713330857779428,
      "grad_norm": 0.4906452000141144,
      "learning_rate": 1.007e-05,
      "loss": 10.835,
      "step": 1
    },
    {
      "epoch": 0.0003713330857779428,
      "eval_loss": 10.832501411437988,
      "eval_runtime": 8.608,
      "eval_samples_per_second": 131.738,
      "eval_steps_per_second": 32.993,
      "step": 1
    },
    {
      "epoch": 0.0007426661715558856,
      "grad_norm": 0.4328306317329407,
      "learning_rate": 2.014e-05,
      "loss": 10.8341,
      "step": 2
    },
    {
      "epoch": 0.0011139992573338284,
      "grad_norm": 0.37087035179138184,
      "learning_rate": 3.0209999999999997e-05,
      "loss": 10.8293,
      "step": 3
    },
    {
      "epoch": 0.0014853323431117712,
      "grad_norm": 0.39447692036628723,
      "learning_rate": 4.028e-05,
      "loss": 10.8318,
      "step": 4
    },
    {
      "epoch": 0.001856665428889714,
      "grad_norm": 0.4673115611076355,
      "learning_rate": 5.035e-05,
      "loss": 10.8282,
      "step": 5
    },
    {
      "epoch": 0.0022279985146676567,
      "grad_norm": 0.4667337238788605,
      "learning_rate": 6.0419999999999994e-05,
      "loss": 10.8325,
      "step": 6
    },
    {
      "epoch": 0.0025993316004456,
      "grad_norm": 0.37647679448127747,
      "learning_rate": 7.049e-05,
      "loss": 10.8326,
      "step": 7
    },
    {
      "epoch": 0.0029706646862235424,
      "grad_norm": 0.4516909420490265,
      "learning_rate": 8.056e-05,
      "loss": 10.8271,
      "step": 8
    },
    {
      "epoch": 0.0033419977720014855,
      "grad_norm": 0.5389593839645386,
      "learning_rate": 9.062999999999999e-05,
      "loss": 10.8291,
      "step": 9
    },
    {
      "epoch": 0.003713330857779428,
      "grad_norm": 0.40566104650497437,
      "learning_rate": 0.0001007,
      "loss": 10.8375,
      "step": 10
    },
    {
      "epoch": 0.004084663943557371,
      "grad_norm": 0.48166805505752563,
      "learning_rate": 0.00010017,
      "loss": 10.8247,
      "step": 11
    },
    {
      "epoch": 0.004455997029335313,
      "grad_norm": 0.4881480038166046,
      "learning_rate": 9.963999999999999e-05,
      "loss": 10.8119,
      "step": 12
    },
    {
      "epoch": 0.004827330115113257,
      "grad_norm": 0.4888553321361542,
      "learning_rate": 9.910999999999999e-05,
      "loss": 10.8045,
      "step": 13
    },
    {
      "epoch": 0.0051986632008912,
      "grad_norm": 0.5155038237571716,
      "learning_rate": 9.858e-05,
      "loss": 10.8187,
      "step": 14
    },
    {
      "epoch": 0.005569996286669142,
      "grad_norm": 0.5028515458106995,
      "learning_rate": 9.805e-05,
      "loss": 10.8058,
      "step": 15
    },
    {
      "epoch": 0.005941329372447085,
      "grad_norm": 0.5659723877906799,
      "learning_rate": 9.752e-05,
      "loss": 10.8044,
      "step": 16
    },
    {
      "epoch": 0.0063126624582250275,
      "grad_norm": 0.552946150302887,
      "learning_rate": 9.698999999999999e-05,
      "loss": 10.8163,
      "step": 17
    },
    {
      "epoch": 0.006683995544002971,
      "grad_norm": 0.575535774230957,
      "learning_rate": 9.646e-05,
      "loss": 10.7946,
      "step": 18
    },
    {
      "epoch": 0.007055328629780914,
      "grad_norm": 0.5085407495498657,
      "learning_rate": 9.593e-05,
      "loss": 10.7978,
      "step": 19
    },
    {
      "epoch": 0.007426661715558856,
      "grad_norm": 0.48418793082237244,
      "learning_rate": 9.539999999999999e-05,
      "loss": 10.8028,
      "step": 20
    },
    {
      "epoch": 0.007797994801336799,
      "grad_norm": 0.5124921202659607,
      "learning_rate": 9.487e-05,
      "loss": 10.8111,
      "step": 21
    },
    {
      "epoch": 0.008169327887114742,
      "grad_norm": 0.629709780216217,
      "learning_rate": 9.434e-05,
      "loss": 10.7865,
      "step": 22
    },
    {
      "epoch": 0.008540660972892685,
      "grad_norm": 0.5611943006515503,
      "learning_rate": 9.381e-05,
      "loss": 10.7937,
      "step": 23
    },
    {
      "epoch": 0.008911994058670627,
      "grad_norm": 0.5063443183898926,
      "learning_rate": 9.327999999999999e-05,
      "loss": 10.7651,
      "step": 24
    },
    {
      "epoch": 0.00928332714444857,
      "grad_norm": 0.6020315885543823,
      "learning_rate": 9.274999999999999e-05,
      "loss": 10.7925,
      "step": 25
    },
    {
      "epoch": 0.009654660230226514,
      "grad_norm": 0.5812113285064697,
      "learning_rate": 9.222e-05,
      "loss": 10.7925,
      "step": 26
    },
    {
      "epoch": 0.010025993316004456,
      "grad_norm": 0.561542272567749,
      "learning_rate": 9.169e-05,
      "loss": 10.761,
      "step": 27
    },
    {
      "epoch": 0.0103973264017824,
      "grad_norm": 0.5838537812232971,
      "learning_rate": 9.116e-05,
      "loss": 10.753,
      "step": 28
    },
    {
      "epoch": 0.010768659487560341,
      "grad_norm": 0.5075663328170776,
      "learning_rate": 9.062999999999999e-05,
      "loss": 10.777,
      "step": 29
    },
    {
      "epoch": 0.011139992573338284,
      "grad_norm": 0.5487096309661865,
      "learning_rate": 9.01e-05,
      "loss": 10.7593,
      "step": 30
    },
    {
      "epoch": 0.011511325659116228,
      "grad_norm": 0.4488137662410736,
      "learning_rate": 8.957e-05,
      "loss": 10.7719,
      "step": 31
    },
    {
      "epoch": 0.01188265874489417,
      "grad_norm": 0.5524377226829529,
      "learning_rate": 8.903999999999999e-05,
      "loss": 10.7879,
      "step": 32
    },
    {
      "epoch": 0.012253991830672113,
      "grad_norm": 0.5395157933235168,
      "learning_rate": 8.850999999999999e-05,
      "loss": 10.775,
      "step": 33
    },
    {
      "epoch": 0.012625324916450055,
      "grad_norm": 0.5032263994216919,
      "learning_rate": 8.798e-05,
      "loss": 10.7386,
      "step": 34
    },
    {
      "epoch": 0.012996658002227999,
      "grad_norm": 0.5099305510520935,
      "learning_rate": 8.745e-05,
      "loss": 10.7548,
      "step": 35
    },
    {
      "epoch": 0.013367991088005942,
      "grad_norm": 0.5281259417533875,
      "learning_rate": 8.692e-05,
      "loss": 10.7409,
      "step": 36
    },
    {
      "epoch": 0.013739324173783884,
      "grad_norm": 0.5443010330200195,
      "learning_rate": 8.638999999999999e-05,
      "loss": 10.7454,
      "step": 37
    },
    {
      "epoch": 0.014110657259561827,
      "grad_norm": 0.5503028631210327,
      "learning_rate": 8.586e-05,
      "loss": 10.7472,
      "step": 38
    },
    {
      "epoch": 0.014481990345339769,
      "grad_norm": 0.5560601949691772,
      "learning_rate": 8.533e-05,
      "loss": 10.7289,
      "step": 39
    },
    {
      "epoch": 0.014853323431117713,
      "grad_norm": 0.5327764749526978,
      "learning_rate": 8.479999999999999e-05,
      "loss": 10.7278,
      "step": 40
    },
    {
      "epoch": 0.015224656516895656,
      "grad_norm": 0.49340856075286865,
      "learning_rate": 8.427e-05,
      "loss": 10.7534,
      "step": 41
    },
    {
      "epoch": 0.015595989602673598,
      "grad_norm": 0.5683452486991882,
      "learning_rate": 8.374e-05,
      "loss": 10.7333,
      "step": 42
    },
    {
      "epoch": 0.01596732268845154,
      "grad_norm": 0.5234541893005371,
      "learning_rate": 8.321e-05,
      "loss": 10.7106,
      "step": 43
    },
    {
      "epoch": 0.016338655774229483,
      "grad_norm": 0.5029370188713074,
      "learning_rate": 8.268e-05,
      "loss": 10.7453,
      "step": 44
    },
    {
      "epoch": 0.01670998886000743,
      "grad_norm": 0.5557736158370972,
      "learning_rate": 8.214999999999999e-05,
      "loss": 10.7304,
      "step": 45
    },
    {
      "epoch": 0.01708132194578537,
      "grad_norm": 0.5473191142082214,
      "learning_rate": 8.162e-05,
      "loss": 10.7416,
      "step": 46
    },
    {
      "epoch": 0.017452655031563312,
      "grad_norm": 0.6747854948043823,
      "learning_rate": 8.108999999999998e-05,
      "loss": 10.7589,
      "step": 47
    },
    {
      "epoch": 0.017823988117341254,
      "grad_norm": 0.5004291534423828,
      "learning_rate": 8.056e-05,
      "loss": 10.7202,
      "step": 48
    },
    {
      "epoch": 0.0181953212031192,
      "grad_norm": 0.524412214756012,
      "learning_rate": 8.003e-05,
      "loss": 10.7175,
      "step": 49
    },
    {
      "epoch": 0.01856665428889714,
      "grad_norm": 0.5781667828559875,
      "learning_rate": 7.95e-05,
      "loss": 10.7257,
      "step": 50
    },
    {
      "epoch": 0.01856665428889714,
      "eval_loss": 10.735980033874512,
      "eval_runtime": 8.5155,
      "eval_samples_per_second": 133.168,
      "eval_steps_per_second": 33.351,
      "step": 50
    },
    {
      "epoch": 0.018937987374675083,
      "grad_norm": 0.4127328395843506,
      "learning_rate": 7.897e-05,
      "loss": 10.7444,
      "step": 51
    },
    {
      "epoch": 0.019309320460453028,
      "grad_norm": 0.3050692081451416,
      "learning_rate": 7.843999999999999e-05,
      "loss": 10.7566,
      "step": 52
    },
    {
      "epoch": 0.01968065354623097,
      "grad_norm": 0.3271315395832062,
      "learning_rate": 7.790999999999999e-05,
      "loss": 10.7442,
      "step": 53
    },
    {
      "epoch": 0.02005198663200891,
      "grad_norm": 0.32859012484550476,
      "learning_rate": 7.738e-05,
      "loss": 10.7451,
      "step": 54
    },
    {
      "epoch": 0.020423319717786857,
      "grad_norm": 0.3305034637451172,
      "learning_rate": 7.685e-05,
      "loss": 10.7568,
      "step": 55
    },
    {
      "epoch": 0.0207946528035648,
      "grad_norm": 0.3300938308238983,
      "learning_rate": 7.632e-05,
      "loss": 10.7359,
      "step": 56
    },
    {
      "epoch": 0.02116598588934274,
      "grad_norm": 0.3706151247024536,
      "learning_rate": 7.578999999999999e-05,
      "loss": 10.7507,
      "step": 57
    },
    {
      "epoch": 0.021537318975120682,
      "grad_norm": 0.3721340000629425,
      "learning_rate": 7.526e-05,
      "loss": 10.7443,
      "step": 58
    },
    {
      "epoch": 0.021908652060898627,
      "grad_norm": 0.30731654167175293,
      "learning_rate": 7.473e-05,
      "loss": 10.7477,
      "step": 59
    },
    {
      "epoch": 0.02227998514667657,
      "grad_norm": 0.3816874623298645,
      "learning_rate": 7.419999999999999e-05,
      "loss": 10.7548,
      "step": 60
    },
    {
      "epoch": 0.02265131823245451,
      "grad_norm": 0.3089187443256378,
      "learning_rate": 7.367e-05,
      "loss": 10.7363,
      "step": 61
    },
    {
      "epoch": 0.023022651318232456,
      "grad_norm": 0.3170040547847748,
      "learning_rate": 7.314e-05,
      "loss": 10.7385,
      "step": 62
    },
    {
      "epoch": 0.023393984404010398,
      "grad_norm": 0.3177466094493866,
      "learning_rate": 7.261e-05,
      "loss": 10.7296,
      "step": 63
    },
    {
      "epoch": 0.02376531748978834,
      "grad_norm": 0.32649269700050354,
      "learning_rate": 7.208e-05,
      "loss": 10.7279,
      "step": 64
    },
    {
      "epoch": 0.024136650575566285,
      "grad_norm": 0.31671473383903503,
      "learning_rate": 7.154999999999999e-05,
      "loss": 10.7275,
      "step": 65
    },
    {
      "epoch": 0.024507983661344226,
      "grad_norm": 0.3684324622154236,
      "learning_rate": 7.102e-05,
      "loss": 10.7562,
      "step": 66
    },
    {
      "epoch": 0.024879316747122168,
      "grad_norm": 0.35255691409111023,
      "learning_rate": 7.049e-05,
      "loss": 10.7501,
      "step": 67
    },
    {
      "epoch": 0.02525064983290011,
      "grad_norm": 0.3559291362762451,
      "learning_rate": 6.996e-05,
      "loss": 10.7445,
      "step": 68
    },
    {
      "epoch": 0.025621982918678055,
      "grad_norm": 0.29838132858276367,
      "learning_rate": 6.943e-05,
      "loss": 10.7373,
      "step": 69
    },
    {
      "epoch": 0.025993316004455997,
      "grad_norm": 0.32272014021873474,
      "learning_rate": 6.89e-05,
      "loss": 10.7402,
      "step": 70
    },
    {
      "epoch": 0.02636464909023394,
      "grad_norm": 0.29716819524765015,
      "learning_rate": 6.837e-05,
      "loss": 10.7499,
      "step": 71
    },
    {
      "epoch": 0.026735982176011884,
      "grad_norm": 0.2992607057094574,
      "learning_rate": 6.784e-05,
      "loss": 10.7316,
      "step": 72
    },
    {
      "epoch": 0.027107315261789826,
      "grad_norm": 0.3100895285606384,
      "learning_rate": 6.730999999999999e-05,
      "loss": 10.7266,
      "step": 73
    },
    {
      "epoch": 0.027478648347567768,
      "grad_norm": 0.3643105924129486,
      "learning_rate": 6.678e-05,
      "loss": 10.7325,
      "step": 74
    },
    {
      "epoch": 0.027849981433345713,
      "grad_norm": 0.3808096945285797,
      "learning_rate": 6.625e-05,
      "loss": 10.715,
      "step": 75
    },
    {
      "epoch": 0.028221314519123655,
      "grad_norm": 0.3222029209136963,
      "learning_rate": 6.572e-05,
      "loss": 10.7365,
      "step": 76
    },
    {
      "epoch": 0.028592647604901596,
      "grad_norm": 0.32192742824554443,
      "learning_rate": 6.519e-05,
      "loss": 10.7343,
      "step": 77
    },
    {
      "epoch": 0.028963980690679538,
      "grad_norm": 0.40252402424812317,
      "learning_rate": 6.466e-05,
      "loss": 10.7201,
      "step": 78
    },
    {
      "epoch": 0.029335313776457483,
      "grad_norm": 0.3803711533546448,
      "learning_rate": 6.413e-05,
      "loss": 10.7316,
      "step": 79
    },
    {
      "epoch": 0.029706646862235425,
      "grad_norm": 0.3504716455936432,
      "learning_rate": 6.359999999999999e-05,
      "loss": 10.7356,
      "step": 80
    },
    {
      "epoch": 0.030077979948013367,
      "grad_norm": 0.35962575674057007,
      "learning_rate": 6.306999999999999e-05,
      "loss": 10.7201,
      "step": 81
    },
    {
      "epoch": 0.030449313033791312,
      "grad_norm": 0.36944904923439026,
      "learning_rate": 6.254000000000001e-05,
      "loss": 10.7067,
      "step": 82
    },
    {
      "epoch": 0.030820646119569254,
      "grad_norm": 0.38394877314567566,
      "learning_rate": 6.201e-05,
      "loss": 10.7409,
      "step": 83
    },
    {
      "epoch": 0.031191979205347196,
      "grad_norm": 0.41426077485084534,
      "learning_rate": 6.148e-05,
      "loss": 10.748,
      "step": 84
    },
    {
      "epoch": 0.03156331229112514,
      "grad_norm": 0.3880663812160492,
      "learning_rate": 6.095e-05,
      "loss": 10.7121,
      "step": 85
    },
    {
      "epoch": 0.03193464537690308,
      "grad_norm": 0.4019233286380768,
      "learning_rate": 6.0419999999999994e-05,
      "loss": 10.7155,
      "step": 86
    },
    {
      "epoch": 0.032305978462681025,
      "grad_norm": 0.4152543544769287,
      "learning_rate": 5.988999999999999e-05,
      "loss": 10.7029,
      "step": 87
    },
    {
      "epoch": 0.032677311548458966,
      "grad_norm": 0.47186049818992615,
      "learning_rate": 5.9359999999999994e-05,
      "loss": 10.7208,
      "step": 88
    },
    {
      "epoch": 0.03304864463423691,
      "grad_norm": 0.4307488203048706,
      "learning_rate": 5.8830000000000004e-05,
      "loss": 10.701,
      "step": 89
    },
    {
      "epoch": 0.03341997772001486,
      "grad_norm": 0.47585317492485046,
      "learning_rate": 5.83e-05,
      "loss": 10.7097,
      "step": 90
    },
    {
      "epoch": 0.0337913108057928,
      "grad_norm": 0.4662454426288605,
      "learning_rate": 5.777e-05,
      "loss": 10.6999,
      "step": 91
    },
    {
      "epoch": 0.03416264389157074,
      "grad_norm": 0.45331087708473206,
      "learning_rate": 5.7239999999999994e-05,
      "loss": 10.6841,
      "step": 92
    },
    {
      "epoch": 0.03453397697734868,
      "grad_norm": 0.5249789357185364,
      "learning_rate": 5.671e-05,
      "loss": 10.7172,
      "step": 93
    },
    {
      "epoch": 0.034905310063126624,
      "grad_norm": 0.5332587361335754,
      "learning_rate": 5.6179999999999994e-05,
      "loss": 10.7276,
      "step": 94
    },
    {
      "epoch": 0.035276643148904566,
      "grad_norm": 0.4843442440032959,
      "learning_rate": 5.5650000000000004e-05,
      "loss": 10.7224,
      "step": 95
    },
    {
      "epoch": 0.03564797623468251,
      "grad_norm": 0.5148628950119019,
      "learning_rate": 5.512e-05,
      "loss": 10.6775,
      "step": 96
    },
    {
      "epoch": 0.036019309320460456,
      "grad_norm": 0.5223995447158813,
      "learning_rate": 5.459e-05,
      "loss": 10.7094,
      "step": 97
    },
    {
      "epoch": 0.0363906424062384,
      "grad_norm": 0.5281713604927063,
      "learning_rate": 5.406e-05,
      "loss": 10.6981,
      "step": 98
    },
    {
      "epoch": 0.03676197549201634,
      "grad_norm": 0.6166062951087952,
      "learning_rate": 5.353e-05,
      "loss": 10.7082,
      "step": 99
    },
    {
      "epoch": 0.03713330857779428,
      "grad_norm": 0.7465858459472656,
      "learning_rate": 5.2999999999999994e-05,
      "loss": 10.6922,
      "step": 100
    },
    {
      "epoch": 0.03713330857779428,
      "eval_loss": 10.71716022491455,
      "eval_runtime": 8.5368,
      "eval_samples_per_second": 132.837,
      "eval_steps_per_second": 33.268,
      "step": 100
    },
    {
      "epoch": 0.03750464166357222,
      "grad_norm": 0.30814334750175476,
      "learning_rate": 5.246999999999999e-05,
      "loss": 10.7375,
      "step": 101
    },
    {
      "epoch": 0.037875974749350165,
      "grad_norm": 0.34333688020706177,
      "learning_rate": 5.194e-05,
      "loss": 10.7405,
      "step": 102
    },
    {
      "epoch": 0.03824730783512811,
      "grad_norm": 0.396445631980896,
      "learning_rate": 5.141e-05,
      "loss": 10.7225,
      "step": 103
    },
    {
      "epoch": 0.038618640920906055,
      "grad_norm": 0.3750787079334259,
      "learning_rate": 5.088e-05,
      "loss": 10.7264,
      "step": 104
    },
    {
      "epoch": 0.038989974006684,
      "grad_norm": 0.30554020404815674,
      "learning_rate": 5.035e-05,
      "loss": 10.7261,
      "step": 105
    },
    {
      "epoch": 0.03936130709246194,
      "grad_norm": 0.35283979773521423,
      "learning_rate": 4.9819999999999994e-05,
      "loss": 10.7309,
      "step": 106
    },
    {
      "epoch": 0.03973264017823988,
      "grad_norm": 0.39950183033943176,
      "learning_rate": 4.929e-05,
      "loss": 10.7223,
      "step": 107
    },
    {
      "epoch": 0.04010397326401782,
      "grad_norm": 0.38336852192878723,
      "learning_rate": 4.876e-05,
      "loss": 10.7209,
      "step": 108
    },
    {
      "epoch": 0.040475306349795764,
      "grad_norm": 0.362358421087265,
      "learning_rate": 4.823e-05,
      "loss": 10.735,
      "step": 109
    },
    {
      "epoch": 0.04084663943557371,
      "grad_norm": 0.397513747215271,
      "learning_rate": 4.7699999999999994e-05,
      "loss": 10.7304,
      "step": 110
    },
    {
      "epoch": 0.041217972521351655,
      "grad_norm": 0.4068267047405243,
      "learning_rate": 4.717e-05,
      "loss": 10.7297,
      "step": 111
    },
    {
      "epoch": 0.0415893056071296,
      "grad_norm": 0.38471511006355286,
      "learning_rate": 4.6639999999999994e-05,
      "loss": 10.754,
      "step": 112
    },
    {
      "epoch": 0.04196063869290754,
      "grad_norm": 0.3469901978969574,
      "learning_rate": 4.611e-05,
      "loss": 10.7255,
      "step": 113
    },
    {
      "epoch": 0.04233197177868548,
      "grad_norm": 0.3917114734649658,
      "learning_rate": 4.558e-05,
      "loss": 10.72,
      "step": 114
    },
    {
      "epoch": 0.04270330486446342,
      "grad_norm": 0.3135025203227997,
      "learning_rate": 4.505e-05,
      "loss": 10.7204,
      "step": 115
    },
    {
      "epoch": 0.043074637950241364,
      "grad_norm": 0.32310202717781067,
      "learning_rate": 4.4519999999999994e-05,
      "loss": 10.7334,
      "step": 116
    },
    {
      "epoch": 0.04344597103601931,
      "grad_norm": 0.316651314496994,
      "learning_rate": 4.399e-05,
      "loss": 10.7357,
      "step": 117
    },
    {
      "epoch": 0.043817304121797254,
      "grad_norm": 0.3423415422439575,
      "learning_rate": 4.346e-05,
      "loss": 10.7195,
      "step": 118
    },
    {
      "epoch": 0.044188637207575196,
      "grad_norm": 0.3235597610473633,
      "learning_rate": 4.293e-05,
      "loss": 10.7321,
      "step": 119
    },
    {
      "epoch": 0.04455997029335314,
      "grad_norm": 0.33004501461982727,
      "learning_rate": 4.2399999999999994e-05,
      "loss": 10.7148,
      "step": 120
    },
    {
      "epoch": 0.04493130337913108,
      "grad_norm": 0.3902532756328583,
      "learning_rate": 4.187e-05,
      "loss": 10.7344,
      "step": 121
    },
    {
      "epoch": 0.04530263646490902,
      "grad_norm": 0.30236899852752686,
      "learning_rate": 4.134e-05,
      "loss": 10.7194,
      "step": 122
    },
    {
      "epoch": 0.04567396955068696,
      "grad_norm": 0.38607534766197205,
      "learning_rate": 4.081e-05,
      "loss": 10.7046,
      "step": 123
    },
    {
      "epoch": 0.04604530263646491,
      "grad_norm": 0.3628384470939636,
      "learning_rate": 4.028e-05,
      "loss": 10.7198,
      "step": 124
    },
    {
      "epoch": 0.046416635722242854,
      "grad_norm": 0.36593976616859436,
      "learning_rate": 3.975e-05,
      "loss": 10.7281,
      "step": 125
    },
    {
      "epoch": 0.046787968808020795,
      "grad_norm": 0.3433733880519867,
      "learning_rate": 3.9219999999999994e-05,
      "loss": 10.7148,
      "step": 126
    },
    {
      "epoch": 0.04715930189379874,
      "grad_norm": 0.37441202998161316,
      "learning_rate": 3.869e-05,
      "loss": 10.7132,
      "step": 127
    },
    {
      "epoch": 0.04753063497957668,
      "grad_norm": 0.3574247658252716,
      "learning_rate": 3.816e-05,
      "loss": 10.7207,
      "step": 128
    },
    {
      "epoch": 0.04790196806535462,
      "grad_norm": 0.3976617157459259,
      "learning_rate": 3.763e-05,
      "loss": 10.7027,
      "step": 129
    },
    {
      "epoch": 0.04827330115113257,
      "grad_norm": 0.4094492495059967,
      "learning_rate": 3.7099999999999994e-05,
      "loss": 10.7168,
      "step": 130
    },
    {
      "epoch": 0.04864463423691051,
      "grad_norm": 0.3910907506942749,
      "learning_rate": 3.657e-05,
      "loss": 10.6894,
      "step": 131
    },
    {
      "epoch": 0.04901596732268845,
      "grad_norm": 0.347520112991333,
      "learning_rate": 3.604e-05,
      "loss": 10.7075,
      "step": 132
    },
    {
      "epoch": 0.049387300408466395,
      "grad_norm": 0.33360084891319275,
      "learning_rate": 3.551e-05,
      "loss": 10.7175,
      "step": 133
    },
    {
      "epoch": 0.049758633494244336,
      "grad_norm": 0.3098675608634949,
      "learning_rate": 3.498e-05,
      "loss": 10.6943,
      "step": 134
    },
    {
      "epoch": 0.05012996658002228,
      "grad_norm": 0.417607843875885,
      "learning_rate": 3.445e-05,
      "loss": 10.696,
      "step": 135
    },
    {
      "epoch": 0.05050129966580022,
      "grad_norm": 0.37847384810447693,
      "learning_rate": 3.392e-05,
      "loss": 10.7031,
      "step": 136
    },
    {
      "epoch": 0.05087263275157817,
      "grad_norm": 0.34361228346824646,
      "learning_rate": 3.339e-05,
      "loss": 10.714,
      "step": 137
    },
    {
      "epoch": 0.05124396583735611,
      "grad_norm": 0.4933507740497589,
      "learning_rate": 3.286e-05,
      "loss": 10.6758,
      "step": 138
    },
    {
      "epoch": 0.05161529892313405,
      "grad_norm": 0.412986695766449,
      "learning_rate": 3.233e-05,
      "loss": 10.6963,
      "step": 139
    },
    {
      "epoch": 0.051986632008911994,
      "grad_norm": 0.43772485852241516,
      "learning_rate": 3.1799999999999994e-05,
      "loss": 10.7149,
      "step": 140
    },
    {
      "epoch": 0.052357965094689936,
      "grad_norm": 0.37518948316574097,
      "learning_rate": 3.1270000000000004e-05,
      "loss": 10.6951,
      "step": 141
    },
    {
      "epoch": 0.05272929818046788,
      "grad_norm": 0.36650022864341736,
      "learning_rate": 3.074e-05,
      "loss": 10.6925,
      "step": 142
    },
    {
      "epoch": 0.05310063126624582,
      "grad_norm": 0.4543534219264984,
      "learning_rate": 3.0209999999999997e-05,
      "loss": 10.683,
      "step": 143
    },
    {
      "epoch": 0.05347196435202377,
      "grad_norm": 0.47826236486434937,
      "learning_rate": 2.9679999999999997e-05,
      "loss": 10.7077,
      "step": 144
    },
    {
      "epoch": 0.05384329743780171,
      "grad_norm": 0.3722932040691376,
      "learning_rate": 2.915e-05,
      "loss": 10.6916,
      "step": 145
    },
    {
      "epoch": 0.05421463052357965,
      "grad_norm": 0.5447331666946411,
      "learning_rate": 2.8619999999999997e-05,
      "loss": 10.7065,
      "step": 146
    },
    {
      "epoch": 0.05458596360935759,
      "grad_norm": 0.42991727590560913,
      "learning_rate": 2.8089999999999997e-05,
      "loss": 10.6734,
      "step": 147
    },
    {
      "epoch": 0.054957296695135535,
      "grad_norm": 0.5424541234970093,
      "learning_rate": 2.756e-05,
      "loss": 10.6609,
      "step": 148
    },
    {
      "epoch": 0.05532862978091348,
      "grad_norm": 0.6233406066894531,
      "learning_rate": 2.703e-05,
      "loss": 10.6865,
      "step": 149
    },
    {
      "epoch": 0.055699962866691426,
      "grad_norm": 0.635688066482544,
      "learning_rate": 2.6499999999999997e-05,
      "loss": 10.6352,
      "step": 150
    },
    {
      "epoch": 0.055699962866691426,
      "eval_loss": 10.709113121032715,
      "eval_runtime": 8.5126,
      "eval_samples_per_second": 133.215,
      "eval_steps_per_second": 33.362,
      "step": 150
    },
    {
      "epoch": 0.05607129595246937,
      "grad_norm": 0.29650452733039856,
      "learning_rate": 2.597e-05,
      "loss": 10.7395,
      "step": 151
    },
    {
      "epoch": 0.05644262903824731,
      "grad_norm": 0.2920253276824951,
      "learning_rate": 2.544e-05,
      "loss": 10.7221,
      "step": 152
    },
    {
      "epoch": 0.05681396212402525,
      "grad_norm": 0.25159358978271484,
      "learning_rate": 2.4909999999999997e-05,
      "loss": 10.7207,
      "step": 153
    },
    {
      "epoch": 0.05718529520980319,
      "grad_norm": 0.25797951221466064,
      "learning_rate": 2.438e-05,
      "loss": 10.7393,
      "step": 154
    },
    {
      "epoch": 0.057556628295581135,
      "grad_norm": 0.29740217328071594,
      "learning_rate": 2.3849999999999997e-05,
      "loss": 10.7408,
      "step": 155
    },
    {
      "epoch": 0.057927961381359076,
      "grad_norm": 0.28060102462768555,
      "learning_rate": 2.3319999999999997e-05,
      "loss": 10.7512,
      "step": 156
    },
    {
      "epoch": 0.058299294467137025,
      "grad_norm": 0.3295218050479889,
      "learning_rate": 2.279e-05,
      "loss": 10.7349,
      "step": 157
    },
    {
      "epoch": 0.05867062755291497,
      "grad_norm": 0.2513892948627472,
      "learning_rate": 2.2259999999999997e-05,
      "loss": 10.7128,
      "step": 158
    },
    {
      "epoch": 0.05904196063869291,
      "grad_norm": 0.3017188012599945,
      "learning_rate": 2.173e-05,
      "loss": 10.7023,
      "step": 159
    },
    {
      "epoch": 0.05941329372447085,
      "grad_norm": 0.2507385313510895,
      "learning_rate": 2.1199999999999997e-05,
      "loss": 10.7196,
      "step": 160
    },
    {
      "epoch": 0.05978462681024879,
      "grad_norm": 0.303676038980484,
      "learning_rate": 2.067e-05,
      "loss": 10.7269,
      "step": 161
    },
    {
      "epoch": 0.060155959896026734,
      "grad_norm": 0.2772859036922455,
      "learning_rate": 2.014e-05,
      "loss": 10.7115,
      "step": 162
    },
    {
      "epoch": 0.060527292981804676,
      "grad_norm": 0.2902076244354248,
      "learning_rate": 1.9609999999999997e-05,
      "loss": 10.739,
      "step": 163
    },
    {
      "epoch": 0.060898626067582624,
      "grad_norm": 0.36906760931015015,
      "learning_rate": 1.908e-05,
      "loss": 10.7011,
      "step": 164
    },
    {
      "epoch": 0.061269959153360566,
      "grad_norm": 0.32509785890579224,
      "learning_rate": 1.8549999999999997e-05,
      "loss": 10.701,
      "step": 165
    },
    {
      "epoch": 0.06164129223913851,
      "grad_norm": 0.28817498683929443,
      "learning_rate": 1.802e-05,
      "loss": 10.7248,
      "step": 166
    },
    {
      "epoch": 0.06201262532491645,
      "grad_norm": 0.31899160146713257,
      "learning_rate": 1.749e-05,
      "loss": 10.709,
      "step": 167
    },
    {
      "epoch": 0.06238395841069439,
      "grad_norm": 0.31375667452812195,
      "learning_rate": 1.696e-05,
      "loss": 10.7357,
      "step": 168
    },
    {
      "epoch": 0.06275529149647234,
      "grad_norm": 0.35290607810020447,
      "learning_rate": 1.643e-05,
      "loss": 10.7033,
      "step": 169
    },
    {
      "epoch": 0.06312662458225028,
      "grad_norm": 0.36025020480155945,
      "learning_rate": 1.5899999999999997e-05,
      "loss": 10.708,
      "step": 170
    },
    {
      "epoch": 0.06349795766802822,
      "grad_norm": 0.3365172743797302,
      "learning_rate": 1.537e-05,
      "loss": 10.7031,
      "step": 171
    },
    {
      "epoch": 0.06386929075380617,
      "grad_norm": 0.38072678446769714,
      "learning_rate": 1.4839999999999999e-05,
      "loss": 10.7113,
      "step": 172
    },
    {
      "epoch": 0.06424062383958411,
      "grad_norm": 0.3284794092178345,
      "learning_rate": 1.4309999999999999e-05,
      "loss": 10.7065,
      "step": 173
    },
    {
      "epoch": 0.06461195692536205,
      "grad_norm": 0.3494936227798462,
      "learning_rate": 1.378e-05,
      "loss": 10.7297,
      "step": 174
    },
    {
      "epoch": 0.06498329001113999,
      "grad_norm": 0.33821412920951843,
      "learning_rate": 1.3249999999999999e-05,
      "loss": 10.7248,
      "step": 175
    },
    {
      "epoch": 0.06535462309691793,
      "grad_norm": 0.32980188727378845,
      "learning_rate": 1.272e-05,
      "loss": 10.7139,
      "step": 176
    },
    {
      "epoch": 0.06572595618269587,
      "grad_norm": 0.3426746428012848,
      "learning_rate": 1.219e-05,
      "loss": 10.7181,
      "step": 177
    },
    {
      "epoch": 0.06609728926847382,
      "grad_norm": 0.3118053376674652,
      "learning_rate": 1.1659999999999998e-05,
      "loss": 10.7076,
      "step": 178
    },
    {
      "epoch": 0.06646862235425176,
      "grad_norm": 0.45748060941696167,
      "learning_rate": 1.1129999999999998e-05,
      "loss": 10.6901,
      "step": 179
    },
    {
      "epoch": 0.06683995544002971,
      "grad_norm": 0.33170315623283386,
      "learning_rate": 1.0599999999999998e-05,
      "loss": 10.7051,
      "step": 180
    },
    {
      "epoch": 0.06721128852580766,
      "grad_norm": 0.43855851888656616,
      "learning_rate": 1.007e-05,
      "loss": 10.7058,
      "step": 181
    },
    {
      "epoch": 0.0675826216115856,
      "grad_norm": 0.3363714814186096,
      "learning_rate": 9.54e-06,
      "loss": 10.7244,
      "step": 182
    },
    {
      "epoch": 0.06795395469736354,
      "grad_norm": 0.35381004214286804,
      "learning_rate": 9.01e-06,
      "loss": 10.69,
      "step": 183
    },
    {
      "epoch": 0.06832528778314148,
      "grad_norm": 0.35502874851226807,
      "learning_rate": 8.48e-06,
      "loss": 10.7207,
      "step": 184
    },
    {
      "epoch": 0.06869662086891942,
      "grad_norm": 0.34282708168029785,
      "learning_rate": 7.949999999999998e-06,
      "loss": 10.7068,
      "step": 185
    },
    {
      "epoch": 0.06906795395469736,
      "grad_norm": 0.3804127275943756,
      "learning_rate": 7.419999999999999e-06,
      "loss": 10.7258,
      "step": 186
    },
    {
      "epoch": 0.0694392870404753,
      "grad_norm": 0.3871222138404846,
      "learning_rate": 6.89e-06,
      "loss": 10.7012,
      "step": 187
    },
    {
      "epoch": 0.06981062012625325,
      "grad_norm": 0.36142003536224365,
      "learning_rate": 6.36e-06,
      "loss": 10.7055,
      "step": 188
    },
    {
      "epoch": 0.07018195321203119,
      "grad_norm": 0.4312537908554077,
      "learning_rate": 5.829999999999999e-06,
      "loss": 10.7068,
      "step": 189
    },
    {
      "epoch": 0.07055328629780913,
      "grad_norm": 0.40350255370140076,
      "learning_rate": 5.299999999999999e-06,
      "loss": 10.7052,
      "step": 190
    },
    {
      "epoch": 0.07092461938358707,
      "grad_norm": 0.447262704372406,
      "learning_rate": 4.77e-06,
      "loss": 10.6704,
      "step": 191
    },
    {
      "epoch": 0.07129595246936501,
      "grad_norm": 0.38264331221580505,
      "learning_rate": 4.24e-06,
      "loss": 10.7019,
      "step": 192
    },
    {
      "epoch": 0.07166728555514296,
      "grad_norm": 0.41935181617736816,
      "learning_rate": 3.7099999999999996e-06,
      "loss": 10.6975,
      "step": 193
    },
    {
      "epoch": 0.07203861864092091,
      "grad_norm": 0.45531192421913147,
      "learning_rate": 3.18e-06,
      "loss": 10.686,
      "step": 194
    },
    {
      "epoch": 0.07240995172669885,
      "grad_norm": 0.4257563352584839,
      "learning_rate": 2.6499999999999996e-06,
      "loss": 10.6733,
      "step": 195
    },
    {
      "epoch": 0.0727812848124768,
      "grad_norm": 0.49334388971328735,
      "learning_rate": 2.12e-06,
      "loss": 10.7022,
      "step": 196
    },
    {
      "epoch": 0.07315261789825474,
      "grad_norm": 0.5168543457984924,
      "learning_rate": 1.59e-06,
      "loss": 10.7091,
      "step": 197
    },
    {
      "epoch": 0.07352395098403268,
      "grad_norm": 0.5214105844497681,
      "learning_rate": 1.06e-06,
      "loss": 10.6575,
      "step": 198
    },
    {
      "epoch": 0.07389528406981062,
      "grad_norm": 0.6767050623893738,
      "learning_rate": 5.3e-07,
      "loss": 10.6596,
      "step": 199
    },
    {
      "epoch": 0.07426661715558856,
      "grad_norm": 0.7455865144729614,
      "learning_rate": 0.0,
      "loss": 10.6637,
      "step": 200
    },
    {
      "epoch": 0.07426661715558856,
      "eval_loss": 10.707942008972168,
      "eval_runtime": 8.4982,
      "eval_samples_per_second": 133.44,
      "eval_steps_per_second": 33.419,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 34155056332800.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}