{
  "best_metric": 0.875389039516449,
  "best_model_checkpoint": "miner_id_24/checkpoint-75",
  "epoch": 1.029024637192035,
  "eval_steps": 25,
  "global_step": 95,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.010799865001687479,
      "grad_norm": 6.332698345184326,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 28.1339,
      "step": 1
    },
    {
      "epoch": 0.010799865001687479,
      "eval_loss": 1.2314380407333374,
      "eval_runtime": 2.9438,
      "eval_samples_per_second": 16.985,
      "eval_steps_per_second": 4.416,
      "step": 1
    },
    {
      "epoch": 0.021599730003374958,
      "grad_norm": 8.09016227722168,
      "learning_rate": 6.666666666666667e-05,
      "loss": 33.1195,
      "step": 2
    },
    {
      "epoch": 0.03239959500506244,
      "grad_norm": 8.465554237365723,
      "learning_rate": 0.0001,
      "loss": 32.756,
      "step": 3
    },
    {
      "epoch": 0.043199460006749915,
      "grad_norm": 8.010359764099121,
      "learning_rate": 9.997376600647783e-05,
      "loss": 32.0026,
      "step": 4
    },
    {
      "epoch": 0.0539993250084374,
      "grad_norm": 8.191248893737793,
      "learning_rate": 9.989509461357426e-05,
      "loss": 33.8272,
      "step": 5
    },
    {
      "epoch": 0.06479919001012488,
      "grad_norm": 7.8129353523254395,
      "learning_rate": 9.976407754861426e-05,
      "loss": 32.9461,
      "step": 6
    },
    {
      "epoch": 0.07559905501181235,
      "grad_norm": 9.812628746032715,
      "learning_rate": 9.958086757163489e-05,
      "loss": 32.4032,
      "step": 7
    },
    {
      "epoch": 0.08639892001349983,
      "grad_norm": 10.371075630187988,
      "learning_rate": 9.934567829727386e-05,
      "loss": 32.7067,
      "step": 8
    },
    {
      "epoch": 0.0971987850151873,
      "grad_norm": 9.399039268493652,
      "learning_rate": 9.905878394570453e-05,
      "loss": 34.3519,
      "step": 9
    },
    {
      "epoch": 0.1079986500168748,
      "grad_norm": 8.979853630065918,
      "learning_rate": 9.872051902290737e-05,
      "loss": 32.0134,
      "step": 10
    },
    {
      "epoch": 0.11879851501856227,
      "grad_norm": 9.79316234588623,
      "learning_rate": 9.833127793065098e-05,
      "loss": 31.4575,
      "step": 11
    },
    {
      "epoch": 0.12959838002024976,
      "grad_norm": 11.194050788879395,
      "learning_rate": 9.789151450663723e-05,
      "loss": 30.3001,
      "step": 12
    },
    {
      "epoch": 0.14039824502193723,
      "grad_norm": 9.905965805053711,
      "learning_rate": 9.740174149534693e-05,
      "loss": 26.9907,
      "step": 13
    },
    {
      "epoch": 0.1511981100236247,
      "grad_norm": 10.972681045532227,
      "learning_rate": 9.686252995020249e-05,
      "loss": 27.1488,
      "step": 14
    },
    {
      "epoch": 0.16199797502531219,
      "grad_norm": 10.670634269714355,
      "learning_rate": 9.627450856774539e-05,
      "loss": 28.1412,
      "step": 15
    },
    {
      "epoch": 0.17279784002699966,
      "grad_norm": 8.370551109313965,
      "learning_rate": 9.563836295460398e-05,
      "loss": 28.7171,
      "step": 16
    },
    {
      "epoch": 0.18359770502868714,
      "grad_norm": 6.1335554122924805,
      "learning_rate": 9.495483482810688e-05,
      "loss": 28.6888,
      "step": 17
    },
    {
      "epoch": 0.1943975700303746,
      "grad_norm": 4.91284704208374,
      "learning_rate": 9.422472115147382e-05,
      "loss": 27.9636,
      "step": 18
    },
    {
      "epoch": 0.2051974350320621,
      "grad_norm": 5.70356559753418,
      "learning_rate": 9.3448873204592e-05,
      "loss": 30.2675,
      "step": 19
    },
    {
      "epoch": 0.2159973000337496,
      "grad_norm": 6.1594343185424805,
      "learning_rate": 9.2628195591462e-05,
      "loss": 29.0017,
      "step": 20
    },
    {
      "epoch": 0.22679716503543706,
      "grad_norm": 6.222614765167236,
      "learning_rate": 9.176364518546989e-05,
      "loss": 30.9315,
      "step": 21
    },
    {
      "epoch": 0.23759703003712454,
      "grad_norm": 7.038949489593506,
      "learning_rate": 9.08562300137157e-05,
      "loss": 30.9629,
      "step": 22
    },
    {
      "epoch": 0.24839689503881202,
      "grad_norm": 9.811816215515137,
      "learning_rate": 8.990700808169889e-05,
      "loss": 32.2653,
      "step": 23
    },
    {
      "epoch": 0.2591967600404995,
      "grad_norm": 8.624349594116211,
      "learning_rate": 8.891708613973126e-05,
      "loss": 29.5845,
      "step": 24
    },
    {
      "epoch": 0.26999662504218697,
      "grad_norm": 11.63675308227539,
      "learning_rate": 8.788761839251559e-05,
      "loss": 28.439,
      "step": 25
    },
    {
      "epoch": 0.26999662504218697,
      "eval_loss": 0.9266490936279297,
      "eval_runtime": 2.9996,
      "eval_samples_per_second": 16.669,
      "eval_steps_per_second": 4.334,
      "step": 25
    },
    {
      "epoch": 0.28079649004387447,
      "grad_norm": 4.963972091674805,
      "learning_rate": 8.681980515339464e-05,
      "loss": 25.3526,
      "step": 26
    },
    {
      "epoch": 0.2915963550455619,
      "grad_norm": 5.721101760864258,
      "learning_rate": 8.571489144483944e-05,
      "loss": 27.2771,
      "step": 27
    },
    {
      "epoch": 0.3023962200472494,
      "grad_norm": 5.218023777008057,
      "learning_rate": 8.457416554680877e-05,
      "loss": 27.411,
      "step": 28
    },
    {
      "epoch": 0.31319608504893687,
      "grad_norm": 4.676318645477295,
      "learning_rate": 8.339895749467238e-05,
      "loss": 28.0842,
      "step": 29
    },
    {
      "epoch": 0.32399595005062437,
      "grad_norm": 4.4729413986206055,
      "learning_rate": 8.219063752844926e-05,
      "loss": 27.7702,
      "step": 30
    },
    {
      "epoch": 0.3347958150523119,
      "grad_norm": 4.935058116912842,
      "learning_rate": 8.095061449516903e-05,
      "loss": 28.5356,
      "step": 31
    },
    {
      "epoch": 0.3455956800539993,
      "grad_norm": 5.057448863983154,
      "learning_rate": 7.968033420621935e-05,
      "loss": 30.0861,
      "step": 32
    },
    {
      "epoch": 0.3563955450556868,
      "grad_norm": 5.75179386138916,
      "learning_rate": 7.838127775159452e-05,
      "loss": 29.3708,
      "step": 33
    },
    {
      "epoch": 0.36719541005737427,
      "grad_norm": 6.204367160797119,
      "learning_rate": 7.705495977301078e-05,
      "loss": 28.7072,
      "step": 34
    },
    {
      "epoch": 0.3779952750590618,
      "grad_norm": 7.051600933074951,
      "learning_rate": 7.570292669790186e-05,
      "loss": 28.4409,
      "step": 35
    },
    {
      "epoch": 0.3887951400607492,
      "grad_norm": 7.514161109924316,
      "learning_rate": 7.43267549363537e-05,
      "loss": 30.091,
      "step": 36
    },
    {
      "epoch": 0.3995950050624367,
      "grad_norm": 9.536408424377441,
      "learning_rate": 7.292804904308087e-05,
      "loss": 29.4176,
      "step": 37
    },
    {
      "epoch": 0.4103948700641242,
      "grad_norm": 7.881338119506836,
      "learning_rate": 7.150843984658754e-05,
      "loss": 22.9497,
      "step": 38
    },
    {
      "epoch": 0.4211947350658117,
      "grad_norm": 4.490227699279785,
      "learning_rate": 7.006958254769438e-05,
      "loss": 26.4999,
      "step": 39
    },
    {
      "epoch": 0.4319946000674992,
      "grad_norm": 5.055129528045654,
      "learning_rate": 6.861315478964841e-05,
      "loss": 26.915,
      "step": 40
    },
    {
      "epoch": 0.4427944650691866,
      "grad_norm": 5.907658576965332,
      "learning_rate": 6.714085470206609e-05,
      "loss": 26.6456,
      "step": 41
    },
    {
      "epoch": 0.45359433007087413,
      "grad_norm": 5.585480213165283,
      "learning_rate": 6.56543989209901e-05,
      "loss": 27.6317,
      "step": 42
    },
    {
      "epoch": 0.4643941950725616,
      "grad_norm": 5.009681701660156,
      "learning_rate": 6.415552058736854e-05,
      "loss": 28.3187,
      "step": 43
    },
    {
      "epoch": 0.4751940600742491,
      "grad_norm": 5.010786056518555,
      "learning_rate": 6.264596732629e-05,
      "loss": 27.2067,
      "step": 44
    },
    {
      "epoch": 0.48599392507593653,
      "grad_norm": 5.269121170043945,
      "learning_rate": 6.112749920933111e-05,
      "loss": 27.4503,
      "step": 45
    },
    {
      "epoch": 0.49679379007762403,
      "grad_norm": 8.807077407836914,
      "learning_rate": 5.960188670239154e-05,
      "loss": 30.1587,
      "step": 46
    },
    {
      "epoch": 0.5075936550793115,
      "grad_norm": 6.4897966384887695,
      "learning_rate": 5.80709086014102e-05,
      "loss": 29.6564,
      "step": 47
    },
    {
      "epoch": 0.518393520080999,
      "grad_norm": 7.816920280456543,
      "learning_rate": 5.653634995836856e-05,
      "loss": 28.1137,
      "step": 48
    },
    {
      "epoch": 0.5291933850826864,
      "grad_norm": 8.723081588745117,
      "learning_rate": 5.500000000000001e-05,
      "loss": 26.6002,
      "step": 49
    },
    {
      "epoch": 0.5399932500843739,
      "grad_norm": 14.153793334960938,
      "learning_rate": 5.346365004163145e-05,
      "loss": 27.382,
      "step": 50
    },
    {
      "epoch": 0.5399932500843739,
      "eval_loss": 0.8875579833984375,
      "eval_runtime": 2.9907,
      "eval_samples_per_second": 16.718,
      "eval_steps_per_second": 4.347,
      "step": 50
    },
    {
      "epoch": 0.5507931150860614,
      "grad_norm": 3.5511820316314697,
      "learning_rate": 5.192909139858981e-05,
      "loss": 22.2545,
      "step": 51
    },
    {
      "epoch": 0.5615929800877489,
      "grad_norm": 3.9100775718688965,
      "learning_rate": 5.0398113297608465e-05,
      "loss": 25.3201,
      "step": 52
    },
    {
      "epoch": 0.5723928450894363,
      "grad_norm": 4.131089687347412,
      "learning_rate": 4.887250079066892e-05,
      "loss": 26.0755,
      "step": 53
    },
    {
      "epoch": 0.5831927100911238,
      "grad_norm": 4.428239345550537,
      "learning_rate": 4.7354032673710005e-05,
      "loss": 27.5139,
      "step": 54
    },
    {
      "epoch": 0.5939925750928113,
      "grad_norm": 4.71614408493042,
      "learning_rate": 4.584447941263149e-05,
      "loss": 26.8978,
      "step": 55
    },
    {
      "epoch": 0.6047924400944988,
      "grad_norm": 5.008776664733887,
      "learning_rate": 4.43456010790099e-05,
      "loss": 28.0411,
      "step": 56
    },
    {
      "epoch": 0.6155923050961863,
      "grad_norm": 5.279168128967285,
      "learning_rate": 4.285914529793391e-05,
      "loss": 26.0783,
      "step": 57
    },
    {
      "epoch": 0.6263921700978737,
      "grad_norm": 5.630196571350098,
      "learning_rate": 4.13868452103516e-05,
      "loss": 29.2395,
      "step": 58
    },
    {
      "epoch": 0.6371920350995612,
      "grad_norm": 6.3547539710998535,
      "learning_rate": 3.9930417452305626e-05,
      "loss": 27.7995,
      "step": 59
    },
    {
      "epoch": 0.6479919001012487,
      "grad_norm": 6.45270299911499,
      "learning_rate": 3.8491560153412466e-05,
      "loss": 27.8612,
      "step": 60
    },
    {
      "epoch": 0.6587917651029362,
      "grad_norm": 7.302180767059326,
      "learning_rate": 3.707195095691913e-05,
      "loss": 28.7629,
      "step": 61
    },
    {
      "epoch": 0.6695916301046237,
      "grad_norm": 9.914373397827148,
      "learning_rate": 3.567324506364632e-05,
      "loss": 27.4514,
      "step": 62
    },
    {
      "epoch": 0.6803914951063111,
      "grad_norm": 9.444075584411621,
      "learning_rate": 3.4297073302098156e-05,
      "loss": 23.9413,
      "step": 63
    },
    {
      "epoch": 0.6911913601079986,
      "grad_norm": 3.404921531677246,
      "learning_rate": 3.2945040226989244e-05,
      "loss": 24.0381,
      "step": 64
    },
    {
      "epoch": 0.7019912251096861,
      "grad_norm": 4.061495304107666,
      "learning_rate": 3.16187222484055e-05,
      "loss": 24.79,
      "step": 65
    },
    {
      "epoch": 0.7127910901113736,
      "grad_norm": 4.518710136413574,
      "learning_rate": 3.0319665793780648e-05,
      "loss": 26.2196,
      "step": 66
    },
    {
      "epoch": 0.723590955113061,
      "grad_norm": 4.238020896911621,
      "learning_rate": 2.9049385504830985e-05,
      "loss": 25.8212,
      "step": 67
    },
    {
      "epoch": 0.7343908201147485,
      "grad_norm": 4.598038196563721,
      "learning_rate": 2.7809362471550748e-05,
      "loss": 27.2321,
      "step": 68
    },
    {
      "epoch": 0.745190685116436,
      "grad_norm": 5.143798351287842,
      "learning_rate": 2.660104250532764e-05,
      "loss": 27.7349,
      "step": 69
    },
    {
      "epoch": 0.7559905501181235,
      "grad_norm": 5.115296840667725,
      "learning_rate": 2.5425834453191232e-05,
      "loss": 28.3516,
      "step": 70
    },
    {
      "epoch": 0.766790415119811,
      "grad_norm": 5.619431018829346,
      "learning_rate": 2.4285108555160577e-05,
      "loss": 26.8702,
      "step": 71
    },
    {
      "epoch": 0.7775902801214984,
      "grad_norm": 6.309797286987305,
      "learning_rate": 2.3180194846605367e-05,
      "loss": 26.7543,
      "step": 72
    },
    {
      "epoch": 0.788390145123186,
      "grad_norm": 7.280150413513184,
      "learning_rate": 2.2112381607484417e-05,
      "loss": 27.6525,
      "step": 73
    },
    {
      "epoch": 0.7991900101248735,
      "grad_norm": 8.837532043457031,
      "learning_rate": 2.1082913860268765e-05,
      "loss": 27.2453,
      "step": 74
    },
    {
      "epoch": 0.809989875126561,
      "grad_norm": 12.409788131713867,
      "learning_rate": 2.0092991918301108e-05,
      "loss": 26.0607,
      "step": 75
    },
    {
      "epoch": 0.809989875126561,
      "eval_loss": 0.875389039516449,
      "eval_runtime": 2.9586,
      "eval_samples_per_second": 16.9,
      "eval_steps_per_second": 4.394,
      "step": 75
    },
    {
      "epoch": 0.8207897401282483,
      "grad_norm": 3.476285934448242,
      "learning_rate": 1.91437699862843e-05,
      "loss": 23.4691,
      "step": 76
    },
    {
      "epoch": 0.8315896051299358,
      "grad_norm": 3.745943784713745,
      "learning_rate": 1.8236354814530112e-05,
      "loss": 23.8662,
      "step": 77
    },
    {
      "epoch": 0.8423894701316234,
      "grad_norm": 4.169620513916016,
      "learning_rate": 1.7371804408538024e-05,
      "loss": 25.0528,
      "step": 78
    },
    {
      "epoch": 0.8531893351333109,
      "grad_norm": 4.716166973114014,
      "learning_rate": 1.6551126795408016e-05,
      "loss": 27.1536,
      "step": 79
    },
    {
      "epoch": 0.8639892001349984,
      "grad_norm": 5.140438556671143,
      "learning_rate": 1.577527884852619e-05,
      "loss": 26.5616,
      "step": 80
    },
    {
      "epoch": 0.8747890651366858,
      "grad_norm": 5.3505377769470215,
      "learning_rate": 1.5045165171893116e-05,
      "loss": 26.8969,
      "step": 81
    },
    {
      "epoch": 0.8855889301383733,
      "grad_norm": 5.595109462738037,
      "learning_rate": 1.4361637045396029e-05,
      "loss": 28.2955,
      "step": 82
    },
    {
      "epoch": 0.8963887951400608,
      "grad_norm": 5.898855686187744,
      "learning_rate": 1.3725491432254624e-05,
      "loss": 27.3337,
      "step": 83
    },
    {
      "epoch": 0.9071886601417483,
      "grad_norm": 6.456700325012207,
      "learning_rate": 1.313747004979751e-05,
      "loss": 28.0079,
      "step": 84
    },
    {
      "epoch": 0.9179885251434357,
      "grad_norm": 6.876176834106445,
      "learning_rate": 1.2598258504653081e-05,
      "loss": 27.2967,
      "step": 85
    },
    {
      "epoch": 0.9287883901451232,
      "grad_norm": 7.9374470710754395,
      "learning_rate": 1.2108485493362765e-05,
      "loss": 25.9607,
      "step": 86
    },
    {
      "epoch": 0.9395882551468107,
      "grad_norm": 10.575539588928223,
      "learning_rate": 1.1668722069349041e-05,
      "loss": 26.5254,
      "step": 87
    },
    {
      "epoch": 0.9503881201484982,
      "grad_norm": 9.901918411254883,
      "learning_rate": 1.1279480977092635e-05,
      "loss": 23.2875,
      "step": 88
    },
    {
      "epoch": 0.9611879851501857,
      "grad_norm": 4.038336753845215,
      "learning_rate": 1.094121605429547e-05,
      "loss": 24.9806,
      "step": 89
    },
    {
      "epoch": 0.9719878501518731,
      "grad_norm": 4.956374168395996,
      "learning_rate": 1.0654321702726141e-05,
      "loss": 26.7367,
      "step": 90
    },
    {
      "epoch": 0.9827877151535606,
      "grad_norm": 5.509356498718262,
      "learning_rate": 1.0419132428365116e-05,
      "loss": 27.8363,
      "step": 91
    },
    {
      "epoch": 0.9935875801552481,
      "grad_norm": 7.214131832122803,
      "learning_rate": 1.0235922451385733e-05,
      "loss": 26.2913,
      "step": 92
    },
    {
      "epoch": 1.00742490718866,
      "grad_norm": 5.383974552154541,
      "learning_rate": 1.0104905386425733e-05,
      "loss": 24.9079,
      "step": 93
    },
    {
      "epoch": 1.0182247721903477,
      "grad_norm": 3.546001672744751,
      "learning_rate": 1.002623399352217e-05,
      "loss": 23.9262,
      "step": 94
    },
    {
      "epoch": 1.029024637192035,
      "grad_norm": 3.9186465740203857,
      "learning_rate": 1e-05,
      "loss": 24.4919,
      "step": 95
    }
  ],
  "logging_steps": 1,
  "max_steps": 95,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0007090297202278e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}