{
  "best_metric": 1.1331738233566284,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.03266372693124286,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00016331863465621427,
      "grad_norm": 1.7042306661605835,
      "learning_rate": 1.012e-05,
      "loss": 1.0081,
      "step": 1
    },
    {
      "epoch": 0.00016331863465621427,
      "eval_loss": 1.9000940322875977,
      "eval_runtime": 346.4895,
      "eval_samples_per_second": 7.44,
      "eval_steps_per_second": 1.862,
      "step": 1
    },
    {
      "epoch": 0.00032663726931242854,
      "grad_norm": 2.2307252883911133,
      "learning_rate": 2.024e-05,
      "loss": 1.0249,
      "step": 2
    },
    {
      "epoch": 0.0004899559039686428,
      "grad_norm": 2.0956921577453613,
      "learning_rate": 3.0359999999999997e-05,
      "loss": 1.0868,
      "step": 3
    },
    {
      "epoch": 0.0006532745386248571,
      "grad_norm": 2.039720296859741,
      "learning_rate": 4.048e-05,
      "loss": 1.2094,
      "step": 4
    },
    {
      "epoch": 0.0008165931732810714,
      "grad_norm": 1.3259650468826294,
      "learning_rate": 5.06e-05,
      "loss": 0.9582,
      "step": 5
    },
    {
      "epoch": 0.0009799118079372856,
      "grad_norm": 1.205886960029602,
      "learning_rate": 6.0719999999999995e-05,
      "loss": 1.001,
      "step": 6
    },
    {
      "epoch": 0.0011432304425935,
      "grad_norm": 1.0165492296218872,
      "learning_rate": 7.083999999999999e-05,
      "loss": 1.0274,
      "step": 7
    },
    {
      "epoch": 0.0013065490772497142,
      "grad_norm": 0.972838282585144,
      "learning_rate": 8.096e-05,
      "loss": 1.0375,
      "step": 8
    },
    {
      "epoch": 0.0014698677119059284,
      "grad_norm": 1.0043171644210815,
      "learning_rate": 9.108e-05,
      "loss": 0.9732,
      "step": 9
    },
    {
      "epoch": 0.0016331863465621427,
      "grad_norm": 0.9692656993865967,
      "learning_rate": 0.0001012,
      "loss": 1.0112,
      "step": 10
    },
    {
      "epoch": 0.001796504981218357,
      "grad_norm": 0.9606770873069763,
      "learning_rate": 0.00010066736842105262,
      "loss": 0.8896,
      "step": 11
    },
    {
      "epoch": 0.0019598236158745713,
      "grad_norm": 0.8950055837631226,
      "learning_rate": 0.00010013473684210525,
      "loss": 0.9947,
      "step": 12
    },
    {
      "epoch": 0.0021231422505307855,
      "grad_norm": 0.8928905725479126,
      "learning_rate": 9.960210526315788e-05,
      "loss": 1.0632,
      "step": 13
    },
    {
      "epoch": 0.002286460885187,
      "grad_norm": 0.9168328046798706,
      "learning_rate": 9.906947368421052e-05,
      "loss": 1.0586,
      "step": 14
    },
    {
      "epoch": 0.002449779519843214,
      "grad_norm": 1.0353293418884277,
      "learning_rate": 9.853684210526316e-05,
      "loss": 1.1029,
      "step": 15
    },
    {
      "epoch": 0.0026130981544994283,
      "grad_norm": 0.8722869753837585,
      "learning_rate": 9.800421052631579e-05,
      "loss": 1.0083,
      "step": 16
    },
    {
      "epoch": 0.0027764167891556426,
      "grad_norm": 0.8499244451522827,
      "learning_rate": 9.747157894736841e-05,
      "loss": 1.017,
      "step": 17
    },
    {
      "epoch": 0.002939735423811857,
      "grad_norm": 0.9322229623794556,
      "learning_rate": 9.693894736842104e-05,
      "loss": 0.9358,
      "step": 18
    },
    {
      "epoch": 0.003103054058468071,
      "grad_norm": 0.8392684459686279,
      "learning_rate": 9.640631578947367e-05,
      "loss": 0.9242,
      "step": 19
    },
    {
      "epoch": 0.0032663726931242854,
      "grad_norm": 1.019084095954895,
      "learning_rate": 9.58736842105263e-05,
      "loss": 1.0399,
      "step": 20
    },
    {
      "epoch": 0.0034296913277804997,
      "grad_norm": 1.062418818473816,
      "learning_rate": 9.534105263157894e-05,
      "loss": 1.0059,
      "step": 21
    },
    {
      "epoch": 0.003593009962436714,
      "grad_norm": 1.0159262418746948,
      "learning_rate": 9.480842105263158e-05,
      "loss": 1.0929,
      "step": 22
    },
    {
      "epoch": 0.0037563285970929282,
      "grad_norm": 1.0702104568481445,
      "learning_rate": 9.427578947368421e-05,
      "loss": 1.2774,
      "step": 23
    },
    {
      "epoch": 0.0039196472317491425,
      "grad_norm": 1.074951410293579,
      "learning_rate": 9.374315789473684e-05,
      "loss": 0.9806,
      "step": 24
    },
    {
      "epoch": 0.004082965866405357,
      "grad_norm": 1.158247947692871,
      "learning_rate": 9.321052631578946e-05,
      "loss": 1.2087,
      "step": 25
    },
    {
      "epoch": 0.004246284501061571,
      "grad_norm": 1.4527666568756104,
      "learning_rate": 9.267789473684209e-05,
      "loss": 1.1789,
      "step": 26
    },
    {
      "epoch": 0.004409603135717786,
      "grad_norm": 1.2067434787750244,
      "learning_rate": 9.214526315789473e-05,
      "loss": 0.8392,
      "step": 27
    },
    {
      "epoch": 0.004572921770374,
      "grad_norm": 1.4714635610580444,
      "learning_rate": 9.161263157894736e-05,
      "loss": 1.0489,
      "step": 28
    },
    {
      "epoch": 0.004736240405030214,
      "grad_norm": 1.3839832544326782,
      "learning_rate": 9.108e-05,
      "loss": 1.1357,
      "step": 29
    },
    {
      "epoch": 0.004899559039686428,
      "grad_norm": 1.367979884147644,
      "learning_rate": 9.054736842105263e-05,
      "loss": 0.997,
      "step": 30
    },
    {
      "epoch": 0.005062877674342643,
      "grad_norm": 1.4818540811538696,
      "learning_rate": 9.001473684210526e-05,
      "loss": 1.2541,
      "step": 31
    },
    {
      "epoch": 0.005226196308998857,
      "grad_norm": 2.075519561767578,
      "learning_rate": 8.948210526315789e-05,
      "loss": 1.0172,
      "step": 32
    },
    {
      "epoch": 0.005389514943655071,
      "grad_norm": 1.9319980144500732,
      "learning_rate": 8.894947368421051e-05,
      "loss": 0.9407,
      "step": 33
    },
    {
      "epoch": 0.005552833578311285,
      "grad_norm": 1.750422477722168,
      "learning_rate": 8.841684210526315e-05,
      "loss": 1.0471,
      "step": 34
    },
    {
      "epoch": 0.0057161522129675,
      "grad_norm": 2.639967203140259,
      "learning_rate": 8.788421052631578e-05,
      "loss": 1.3381,
      "step": 35
    },
    {
      "epoch": 0.005879470847623714,
      "grad_norm": 2.1170694828033447,
      "learning_rate": 8.735157894736842e-05,
      "loss": 1.2476,
      "step": 36
    },
    {
      "epoch": 0.0060427894822799285,
      "grad_norm": 2.5765817165374756,
      "learning_rate": 8.681894736842105e-05,
      "loss": 1.4211,
      "step": 37
    },
    {
      "epoch": 0.006206108116936142,
      "grad_norm": 2.546158790588379,
      "learning_rate": 8.628631578947368e-05,
      "loss": 1.2151,
      "step": 38
    },
    {
      "epoch": 0.006369426751592357,
      "grad_norm": 2.58278489112854,
      "learning_rate": 8.575368421052631e-05,
      "loss": 1.0127,
      "step": 39
    },
    {
      "epoch": 0.006532745386248571,
      "grad_norm": 3.0092344284057617,
      "learning_rate": 8.522105263157893e-05,
      "loss": 1.6326,
      "step": 40
    },
    {
      "epoch": 0.0066960640209047856,
      "grad_norm": 3.687113046646118,
      "learning_rate": 8.468842105263158e-05,
      "loss": 1.7307,
      "step": 41
    },
    {
      "epoch": 0.006859382655560999,
      "grad_norm": 4.082314968109131,
      "learning_rate": 8.41557894736842e-05,
      "loss": 1.5561,
      "step": 42
    },
    {
      "epoch": 0.007022701290217214,
      "grad_norm": 2.752763509750366,
      "learning_rate": 8.362315789473683e-05,
      "loss": 1.1092,
      "step": 43
    },
    {
      "epoch": 0.007186019924873428,
      "grad_norm": 4.062565326690674,
      "learning_rate": 8.309052631578947e-05,
      "loss": 1.6329,
      "step": 44
    },
    {
      "epoch": 0.007349338559529643,
      "grad_norm": 4.718578815460205,
      "learning_rate": 8.25578947368421e-05,
      "loss": 1.3342,
      "step": 45
    },
    {
      "epoch": 0.0075126571941858565,
      "grad_norm": 4.455033779144287,
      "learning_rate": 8.202526315789473e-05,
      "loss": 1.6849,
      "step": 46
    },
    {
      "epoch": 0.007675975828842071,
      "grad_norm": 4.341427326202393,
      "learning_rate": 8.149263157894736e-05,
      "loss": 1.5502,
      "step": 47
    },
    {
      "epoch": 0.007839294463498285,
      "grad_norm": 4.273191452026367,
      "learning_rate": 8.096e-05,
      "loss": 2.0972,
      "step": 48
    },
    {
      "epoch": 0.008002613098154499,
      "grad_norm": 6.652866363525391,
      "learning_rate": 8.042736842105263e-05,
      "loss": 2.0388,
      "step": 49
    },
    {
      "epoch": 0.008165931732810714,
      "grad_norm": 12.959983825683594,
      "learning_rate": 7.989473684210525e-05,
      "loss": 3.4359,
      "step": 50
    },
    {
      "epoch": 0.008165931732810714,
      "eval_loss": 1.3043476343154907,
      "eval_runtime": 346.8278,
      "eval_samples_per_second": 7.433,
      "eval_steps_per_second": 1.86,
      "step": 50
    },
    {
      "epoch": 0.008329250367466928,
      "grad_norm": 1.94479238986969,
      "learning_rate": 7.93621052631579e-05,
      "loss": 0.9202,
      "step": 51
    },
    {
      "epoch": 0.008492569002123142,
      "grad_norm": 1.4838091135025024,
      "learning_rate": 7.882947368421052e-05,
      "loss": 1.089,
      "step": 52
    },
    {
      "epoch": 0.008655887636779356,
      "grad_norm": 0.9831111431121826,
      "learning_rate": 7.829684210526315e-05,
      "loss": 0.9152,
      "step": 53
    },
    {
      "epoch": 0.008819206271435572,
      "grad_norm": 0.7576506733894348,
      "learning_rate": 7.776421052631578e-05,
      "loss": 0.9208,
      "step": 54
    },
    {
      "epoch": 0.008982524906091785,
      "grad_norm": 0.6465530395507812,
      "learning_rate": 7.723157894736842e-05,
      "loss": 0.8561,
      "step": 55
    },
    {
      "epoch": 0.009145843540748,
      "grad_norm": 0.7159188389778137,
      "learning_rate": 7.669894736842105e-05,
      "loss": 1.0403,
      "step": 56
    },
    {
      "epoch": 0.009309162175404213,
      "grad_norm": 0.6850789785385132,
      "learning_rate": 7.616631578947367e-05,
      "loss": 0.9291,
      "step": 57
    },
    {
      "epoch": 0.009472480810060429,
      "grad_norm": 0.6845297813415527,
      "learning_rate": 7.563368421052632e-05,
      "loss": 0.8501,
      "step": 58
    },
    {
      "epoch": 0.009635799444716642,
      "grad_norm": 0.7407588958740234,
      "learning_rate": 7.510105263157894e-05,
      "loss": 0.9247,
      "step": 59
    },
    {
      "epoch": 0.009799118079372856,
      "grad_norm": 0.7539004683494568,
      "learning_rate": 7.456842105263157e-05,
      "loss": 0.9212,
      "step": 60
    },
    {
      "epoch": 0.00996243671402907,
      "grad_norm": 0.7553631663322449,
      "learning_rate": 7.403578947368421e-05,
      "loss": 1.0036,
      "step": 61
    },
    {
      "epoch": 0.010125755348685286,
      "grad_norm": 0.7613407969474792,
      "learning_rate": 7.350315789473684e-05,
      "loss": 0.9951,
      "step": 62
    },
    {
      "epoch": 0.0102890739833415,
      "grad_norm": 0.7495595216751099,
      "learning_rate": 7.297052631578947e-05,
      "loss": 0.9005,
      "step": 63
    },
    {
      "epoch": 0.010452392617997713,
      "grad_norm": 0.7066554427146912,
      "learning_rate": 7.24378947368421e-05,
      "loss": 0.8979,
      "step": 64
    },
    {
      "epoch": 0.010615711252653927,
      "grad_norm": 0.8285641670227051,
      "learning_rate": 7.190526315789474e-05,
      "loss": 1.0862,
      "step": 65
    },
    {
      "epoch": 0.010779029887310143,
      "grad_norm": 0.7572029829025269,
      "learning_rate": 7.137263157894736e-05,
      "loss": 0.9471,
      "step": 66
    },
    {
      "epoch": 0.010942348521966357,
      "grad_norm": 0.826912522315979,
      "learning_rate": 7.083999999999999e-05,
      "loss": 1.1455,
      "step": 67
    },
    {
      "epoch": 0.01110566715662257,
      "grad_norm": 0.7934699058532715,
      "learning_rate": 7.030736842105263e-05,
      "loss": 1.1612,
      "step": 68
    },
    {
      "epoch": 0.011268985791278784,
      "grad_norm": 0.7999746799468994,
      "learning_rate": 6.977473684210526e-05,
      "loss": 0.9527,
      "step": 69
    },
    {
      "epoch": 0.011432304425935,
      "grad_norm": 0.8419119715690613,
      "learning_rate": 6.924210526315789e-05,
      "loss": 1.0101,
      "step": 70
    },
    {
      "epoch": 0.011595623060591214,
      "grad_norm": 1.0432356595993042,
      "learning_rate": 6.870947368421052e-05,
      "loss": 1.0112,
      "step": 71
    },
    {
      "epoch": 0.011758941695247428,
      "grad_norm": 0.8628774881362915,
      "learning_rate": 6.817684210526316e-05,
      "loss": 0.7492,
      "step": 72
    },
    {
      "epoch": 0.011922260329903641,
      "grad_norm": 0.9572346210479736,
      "learning_rate": 6.764421052631579e-05,
      "loss": 0.9916,
      "step": 73
    },
    {
      "epoch": 0.012085578964559857,
      "grad_norm": 0.8990764021873474,
      "learning_rate": 6.711157894736841e-05,
      "loss": 0.9354,
      "step": 74
    },
    {
      "epoch": 0.01224889759921607,
      "grad_norm": 1.063326120376587,
      "learning_rate": 6.657894736842106e-05,
      "loss": 0.8173,
      "step": 75
    },
    {
      "epoch": 0.012412216233872285,
      "grad_norm": 1.2052441835403442,
      "learning_rate": 6.604631578947368e-05,
      "loss": 1.2048,
      "step": 76
    },
    {
      "epoch": 0.012575534868528498,
      "grad_norm": 1.075282335281372,
      "learning_rate": 6.551368421052631e-05,
      "loss": 0.9307,
      "step": 77
    },
    {
      "epoch": 0.012738853503184714,
      "grad_norm": 1.175893783569336,
      "learning_rate": 6.498105263157894e-05,
      "loss": 0.8642,
      "step": 78
    },
    {
      "epoch": 0.012902172137840928,
      "grad_norm": 1.6724530458450317,
      "learning_rate": 6.444842105263157e-05,
      "loss": 0.9696,
      "step": 79
    },
    {
      "epoch": 0.013065490772497142,
      "grad_norm": 1.5392160415649414,
      "learning_rate": 6.391578947368421e-05,
      "loss": 1.1057,
      "step": 80
    },
    {
      "epoch": 0.013228809407153356,
      "grad_norm": 1.393849492073059,
      "learning_rate": 6.338315789473684e-05,
      "loss": 1.1333,
      "step": 81
    },
    {
      "epoch": 0.013392128041809571,
      "grad_norm": 2.3144326210021973,
      "learning_rate": 6.285052631578948e-05,
      "loss": 1.5345,
      "step": 82
    },
    {
      "epoch": 0.013555446676465785,
      "grad_norm": 3.1804120540618896,
      "learning_rate": 6.23178947368421e-05,
      "loss": 1.0608,
      "step": 83
    },
    {
      "epoch": 0.013718765311121999,
      "grad_norm": 1.7719932794570923,
      "learning_rate": 6.178526315789473e-05,
      "loss": 1.4588,
      "step": 84
    },
    {
      "epoch": 0.013882083945778213,
      "grad_norm": 2.210019111633301,
      "learning_rate": 6.125263157894736e-05,
      "loss": 1.426,
      "step": 85
    },
    {
      "epoch": 0.014045402580434428,
      "grad_norm": 2.2413384914398193,
      "learning_rate": 6.0719999999999995e-05,
      "loss": 1.3263,
      "step": 86
    },
    {
      "epoch": 0.014208721215090642,
      "grad_norm": 1.9355822801589966,
      "learning_rate": 6.018736842105262e-05,
      "loss": 1.0073,
      "step": 87
    },
    {
      "epoch": 0.014372039849746856,
      "grad_norm": 2.410989284515381,
      "learning_rate": 5.965473684210526e-05,
      "loss": 1.1166,
      "step": 88
    },
    {
      "epoch": 0.01453535848440307,
      "grad_norm": 2.2822117805480957,
      "learning_rate": 5.912210526315789e-05,
      "loss": 1.1964,
      "step": 89
    },
    {
      "epoch": 0.014698677119059285,
      "grad_norm": 2.62667179107666,
      "learning_rate": 5.8589473684210526e-05,
      "loss": 1.3589,
      "step": 90
    },
    {
      "epoch": 0.014861995753715499,
      "grad_norm": 2.800161123275757,
      "learning_rate": 5.8056842105263154e-05,
      "loss": 0.7581,
      "step": 91
    },
    {
      "epoch": 0.015025314388371713,
      "grad_norm": 2.510404586791992,
      "learning_rate": 5.752421052631578e-05,
      "loss": 1.2204,
      "step": 92
    },
    {
      "epoch": 0.015188633023027927,
      "grad_norm": 3.1603639125823975,
      "learning_rate": 5.6991578947368416e-05,
      "loss": 1.3609,
      "step": 93
    },
    {
      "epoch": 0.015351951657684142,
      "grad_norm": 3.389171838760376,
      "learning_rate": 5.6458947368421044e-05,
      "loss": 1.5303,
      "step": 94
    },
    {
      "epoch": 0.015515270292340356,
      "grad_norm": 2.8912353515625,
      "learning_rate": 5.5926315789473685e-05,
      "loss": 1.4156,
      "step": 95
    },
    {
      "epoch": 0.01567858892699657,
      "grad_norm": 3.8965184688568115,
      "learning_rate": 5.539368421052631e-05,
      "loss": 1.476,
      "step": 96
    },
    {
      "epoch": 0.015841907561652786,
      "grad_norm": 3.453352212905884,
      "learning_rate": 5.486105263157895e-05,
      "loss": 2.0521,
      "step": 97
    },
    {
      "epoch": 0.016005226196308998,
      "grad_norm": 4.2889933586120605,
      "learning_rate": 5.4328421052631575e-05,
      "loss": 1.5246,
      "step": 98
    },
    {
      "epoch": 0.016168544830965213,
      "grad_norm": 4.870437145233154,
      "learning_rate": 5.37957894736842e-05,
      "loss": 1.7429,
      "step": 99
    },
    {
      "epoch": 0.01633186346562143,
      "grad_norm": 8.470459938049316,
      "learning_rate": 5.326315789473684e-05,
      "loss": 2.499,
      "step": 100
    },
    {
      "epoch": 0.01633186346562143,
      "eval_loss": 1.203449010848999,
      "eval_runtime": 347.0805,
      "eval_samples_per_second": 7.428,
      "eval_steps_per_second": 1.858,
      "step": 100
    },
    {
      "epoch": 0.01649518210027764,
      "grad_norm": 0.7635178565979004,
      "learning_rate": 5.2730526315789465e-05,
      "loss": 0.8036,
      "step": 101
    },
    {
      "epoch": 0.016658500734933857,
      "grad_norm": 0.8503963351249695,
      "learning_rate": 5.2197894736842107e-05,
      "loss": 0.9383,
      "step": 102
    },
    {
      "epoch": 0.01682181936959007,
      "grad_norm": 0.745448648929596,
      "learning_rate": 5.1665263157894734e-05,
      "loss": 0.9432,
      "step": 103
    },
    {
      "epoch": 0.016985138004246284,
      "grad_norm": 0.726409912109375,
      "learning_rate": 5.113263157894737e-05,
      "loss": 0.861,
      "step": 104
    },
    {
      "epoch": 0.0171484566389025,
      "grad_norm": 0.6889907121658325,
      "learning_rate": 5.06e-05,
      "loss": 0.8729,
      "step": 105
    },
    {
      "epoch": 0.017311775273558712,
      "grad_norm": 0.6307392716407776,
      "learning_rate": 5.0067368421052624e-05,
      "loss": 0.9369,
      "step": 106
    },
    {
      "epoch": 0.017475093908214927,
      "grad_norm": 0.6670257449150085,
      "learning_rate": 4.953473684210526e-05,
      "loss": 0.8949,
      "step": 107
    },
    {
      "epoch": 0.017638412542871143,
      "grad_norm": 0.6001061797142029,
      "learning_rate": 4.9002105263157893e-05,
      "loss": 1.0066,
      "step": 108
    },
    {
      "epoch": 0.017801731177527355,
      "grad_norm": 0.5344387292861938,
      "learning_rate": 4.846947368421052e-05,
      "loss": 0.8938,
      "step": 109
    },
    {
      "epoch": 0.01796504981218357,
      "grad_norm": 0.6056143641471863,
      "learning_rate": 4.793684210526315e-05,
      "loss": 1.0348,
      "step": 110
    },
    {
      "epoch": 0.018128368446839783,
      "grad_norm": 0.6418351531028748,
      "learning_rate": 4.740421052631579e-05,
      "loss": 1.0287,
      "step": 111
    },
    {
      "epoch": 0.018291687081496,
      "grad_norm": 0.6395000219345093,
      "learning_rate": 4.687157894736842e-05,
      "loss": 0.9717,
      "step": 112
    },
    {
      "epoch": 0.018455005716152214,
      "grad_norm": 0.6373867392539978,
      "learning_rate": 4.6338947368421046e-05,
      "loss": 0.792,
      "step": 113
    },
    {
      "epoch": 0.018618324350808426,
      "grad_norm": 0.6864282488822937,
      "learning_rate": 4.580631578947368e-05,
      "loss": 1.0145,
      "step": 114
    },
    {
      "epoch": 0.01878164298546464,
      "grad_norm": 0.77516770362854,
      "learning_rate": 4.5273684210526315e-05,
      "loss": 0.9647,
      "step": 115
    },
    {
      "epoch": 0.018944961620120857,
      "grad_norm": 0.7614290118217468,
      "learning_rate": 4.474105263157894e-05,
      "loss": 1.0255,
      "step": 116
    },
    {
      "epoch": 0.01910828025477707,
      "grad_norm": 0.7989086508750916,
      "learning_rate": 4.420842105263158e-05,
      "loss": 1.1265,
      "step": 117
    },
    {
      "epoch": 0.019271598889433285,
      "grad_norm": 0.7747368812561035,
      "learning_rate": 4.367578947368421e-05,
      "loss": 1.1397,
      "step": 118
    },
    {
      "epoch": 0.019434917524089497,
      "grad_norm": 0.8137250542640686,
      "learning_rate": 4.314315789473684e-05,
      "loss": 0.9718,
      "step": 119
    },
    {
      "epoch": 0.019598236158745713,
      "grad_norm": 0.7559633255004883,
      "learning_rate": 4.261052631578947e-05,
      "loss": 0.8148,
      "step": 120
    },
    {
      "epoch": 0.019761554793401928,
      "grad_norm": 0.8318312168121338,
      "learning_rate": 4.20778947368421e-05,
      "loss": 0.9615,
      "step": 121
    },
    {
      "epoch": 0.01992487342805814,
      "grad_norm": 0.9359192848205566,
      "learning_rate": 4.1545263157894736e-05,
      "loss": 0.9477,
      "step": 122
    },
    {
      "epoch": 0.020088192062714356,
      "grad_norm": 0.9204171895980835,
      "learning_rate": 4.1012631578947364e-05,
      "loss": 1.011,
      "step": 123
    },
    {
      "epoch": 0.02025151069737057,
      "grad_norm": 0.9451426267623901,
      "learning_rate": 4.048e-05,
      "loss": 0.9764,
      "step": 124
    },
    {
      "epoch": 0.020414829332026783,
      "grad_norm": 1.0229765176773071,
      "learning_rate": 3.9947368421052626e-05,
      "loss": 1.1981,
      "step": 125
    },
    {
      "epoch": 0.020578147966683,
      "grad_norm": 1.2665070295333862,
      "learning_rate": 3.941473684210526e-05,
      "loss": 0.9588,
      "step": 126
    },
    {
      "epoch": 0.02074146660133921,
      "grad_norm": 1.029344916343689,
      "learning_rate": 3.888210526315789e-05,
      "loss": 0.9834,
      "step": 127
    },
    {
      "epoch": 0.020904785235995427,
      "grad_norm": 1.048657774925232,
      "learning_rate": 3.834947368421052e-05,
      "loss": 0.6912,
      "step": 128
    },
    {
      "epoch": 0.021068103870651642,
      "grad_norm": 1.2514305114746094,
      "learning_rate": 3.781684210526316e-05,
      "loss": 1.0024,
      "step": 129
    },
    {
      "epoch": 0.021231422505307854,
      "grad_norm": 1.212006688117981,
      "learning_rate": 3.7284210526315786e-05,
      "loss": 0.9063,
      "step": 130
    },
    {
      "epoch": 0.02139474113996407,
      "grad_norm": 1.2560826539993286,
      "learning_rate": 3.675157894736842e-05,
      "loss": 1.0174,
      "step": 131
    },
    {
      "epoch": 0.021558059774620286,
      "grad_norm": 1.3463040590286255,
      "learning_rate": 3.621894736842105e-05,
      "loss": 1.0186,
      "step": 132
    },
    {
      "epoch": 0.021721378409276498,
      "grad_norm": 1.706166386604309,
      "learning_rate": 3.568631578947368e-05,
      "loss": 1.1517,
      "step": 133
    },
    {
      "epoch": 0.021884697043932713,
      "grad_norm": 1.9711982011795044,
      "learning_rate": 3.515368421052632e-05,
      "loss": 1.2049,
      "step": 134
    },
    {
      "epoch": 0.022048015678588925,
      "grad_norm": 2.158444881439209,
      "learning_rate": 3.4621052631578945e-05,
      "loss": 1.3903,
      "step": 135
    },
    {
      "epoch": 0.02221133431324514,
      "grad_norm": 3.3347225189208984,
      "learning_rate": 3.408842105263158e-05,
      "loss": 1.2726,
      "step": 136
    },
    {
      "epoch": 0.022374652947901356,
      "grad_norm": 2.0676677227020264,
      "learning_rate": 3.355578947368421e-05,
      "loss": 1.149,
      "step": 137
    },
    {
      "epoch": 0.02253797158255757,
      "grad_norm": 2.5630714893341064,
      "learning_rate": 3.302315789473684e-05,
      "loss": 1.1565,
      "step": 138
    },
    {
      "epoch": 0.022701290217213784,
      "grad_norm": 3.033112049102783,
      "learning_rate": 3.249052631578947e-05,
      "loss": 1.435,
      "step": 139
    },
    {
      "epoch": 0.02286460885187,
      "grad_norm": 2.8984217643737793,
      "learning_rate": 3.1957894736842104e-05,
      "loss": 1.4273,
      "step": 140
    },
    {
      "epoch": 0.023027927486526212,
      "grad_norm": 3.207420587539673,
      "learning_rate": 3.142526315789474e-05,
      "loss": 0.9735,
      "step": 141
    },
    {
      "epoch": 0.023191246121182427,
      "grad_norm": 3.2945454120635986,
      "learning_rate": 3.0892631578947366e-05,
      "loss": 1.3133,
      "step": 142
    },
    {
      "epoch": 0.02335456475583864,
      "grad_norm": 3.3357183933258057,
      "learning_rate": 3.0359999999999997e-05,
      "loss": 1.6648,
      "step": 143
    },
    {
      "epoch": 0.023517883390494855,
      "grad_norm": 3.130361318588257,
      "learning_rate": 2.982736842105263e-05,
      "loss": 1.6031,
      "step": 144
    },
    {
      "epoch": 0.02368120202515107,
      "grad_norm": 3.3328027725219727,
      "learning_rate": 2.9294736842105263e-05,
      "loss": 0.9355,
      "step": 145
    },
    {
      "epoch": 0.023844520659807283,
      "grad_norm": 3.6638779640197754,
      "learning_rate": 2.876210526315789e-05,
      "loss": 1.8912,
      "step": 146
    },
    {
      "epoch": 0.0240078392944635,
      "grad_norm": 28.031490325927734,
      "learning_rate": 2.8229473684210522e-05,
      "loss": 1.1623,
      "step": 147
    },
    {
      "epoch": 0.024171157929119714,
      "grad_norm": 4.737260818481445,
      "learning_rate": 2.7696842105263156e-05,
      "loss": 2.2842,
      "step": 148
    },
    {
      "epoch": 0.024334476563775926,
      "grad_norm": 6.12730073928833,
      "learning_rate": 2.7164210526315788e-05,
      "loss": 2.1137,
      "step": 149
    },
    {
      "epoch": 0.02449779519843214,
      "grad_norm": 11.408863067626953,
      "learning_rate": 2.663157894736842e-05,
      "loss": 1.9774,
      "step": 150
    },
    {
      "epoch": 0.02449779519843214,
      "eval_loss": 1.1528884172439575,
      "eval_runtime": 347.1329,
      "eval_samples_per_second": 7.427,
      "eval_steps_per_second": 1.858,
      "step": 150
    },
    {
      "epoch": 0.024661113833088357,
      "grad_norm": 0.5356239676475525,
      "learning_rate": 2.6098947368421053e-05,
      "loss": 0.9105,
      "step": 151
    },
    {
      "epoch": 0.02482443246774457,
      "grad_norm": 0.4258039891719818,
      "learning_rate": 2.5566315789473684e-05,
      "loss": 0.72,
      "step": 152
    },
    {
      "epoch": 0.024987751102400785,
      "grad_norm": 0.456553190946579,
      "learning_rate": 2.5033684210526312e-05,
      "loss": 0.768,
      "step": 153
    },
    {
      "epoch": 0.025151069737056997,
      "grad_norm": 0.5910121202468872,
      "learning_rate": 2.4501052631578947e-05,
      "loss": 0.9083,
      "step": 154
    },
    {
      "epoch": 0.025314388371713212,
      "grad_norm": 0.6794564127922058,
      "learning_rate": 2.3968421052631575e-05,
      "loss": 0.7221,
      "step": 155
    },
    {
      "epoch": 0.025477707006369428,
      "grad_norm": 0.5881600379943848,
      "learning_rate": 2.343578947368421e-05,
      "loss": 0.9136,
      "step": 156
    },
    {
      "epoch": 0.02564102564102564,
      "grad_norm": 0.4938678443431854,
      "learning_rate": 2.290315789473684e-05,
      "loss": 0.9185,
      "step": 157
    },
    {
      "epoch": 0.025804344275681856,
      "grad_norm": 0.5425702929496765,
      "learning_rate": 2.237052631578947e-05,
      "loss": 1.0097,
      "step": 158
    },
    {
      "epoch": 0.02596766291033807,
      "grad_norm": 0.5684035420417786,
      "learning_rate": 2.1837894736842106e-05,
      "loss": 0.9204,
      "step": 159
    },
    {
      "epoch": 0.026130981544994283,
      "grad_norm": 0.5700662732124329,
      "learning_rate": 2.1305263157894734e-05,
      "loss": 0.8738,
      "step": 160
    },
    {
      "epoch": 0.0262943001796505,
      "grad_norm": 0.6181349754333496,
      "learning_rate": 2.0772631578947368e-05,
      "loss": 1.0018,
      "step": 161
    },
    {
      "epoch": 0.02645761881430671,
      "grad_norm": 0.5862953066825867,
      "learning_rate": 2.024e-05,
      "loss": 0.8206,
      "step": 162
    },
    {
      "epoch": 0.026620937448962927,
      "grad_norm": 0.6227483153343201,
      "learning_rate": 1.970736842105263e-05,
      "loss": 0.9165,
      "step": 163
    },
    {
      "epoch": 0.026784256083619142,
      "grad_norm": 0.580269992351532,
      "learning_rate": 1.917473684210526e-05,
      "loss": 0.8943,
      "step": 164
    },
    {
      "epoch": 0.026947574718275354,
      "grad_norm": 0.8530476093292236,
      "learning_rate": 1.8642105263157893e-05,
      "loss": 0.6756,
      "step": 165
    },
    {
      "epoch": 0.02711089335293157,
      "grad_norm": 0.7040343880653381,
      "learning_rate": 1.8109473684210524e-05,
      "loss": 0.7996,
      "step": 166
    },
    {
      "epoch": 0.027274211987587785,
      "grad_norm": 0.6564158797264099,
      "learning_rate": 1.757684210526316e-05,
      "loss": 0.9797,
      "step": 167
    },
    {
      "epoch": 0.027437530622243998,
      "grad_norm": 0.6906030178070068,
      "learning_rate": 1.704421052631579e-05,
      "loss": 0.8917,
      "step": 168
    },
    {
      "epoch": 0.027600849256900213,
      "grad_norm": 0.7074795365333557,
      "learning_rate": 1.651157894736842e-05,
      "loss": 0.8638,
      "step": 169
    },
    {
      "epoch": 0.027764167891556425,
      "grad_norm": 0.8279651999473572,
      "learning_rate": 1.5978947368421052e-05,
      "loss": 0.8782,
      "step": 170
    },
    {
      "epoch": 0.02792748652621264,
      "grad_norm": 0.8862021565437317,
      "learning_rate": 1.5446315789473683e-05,
      "loss": 1.0457,
      "step": 171
    },
    {
      "epoch": 0.028090805160868856,
      "grad_norm": 0.915541410446167,
      "learning_rate": 1.4913684210526314e-05,
      "loss": 1.0713,
      "step": 172
    },
    {
      "epoch": 0.02825412379552507,
      "grad_norm": 0.9149680137634277,
      "learning_rate": 1.4381052631578945e-05,
      "loss": 1.0635,
      "step": 173
    },
    {
      "epoch": 0.028417442430181284,
      "grad_norm": 0.8943498134613037,
      "learning_rate": 1.3848421052631578e-05,
      "loss": 0.7741,
      "step": 174
    },
    {
      "epoch": 0.0285807610648375,
      "grad_norm": 0.9709733724594116,
      "learning_rate": 1.331578947368421e-05,
      "loss": 0.9691,
      "step": 175
    },
    {
      "epoch": 0.02874407969949371,
      "grad_norm": 1.0130949020385742,
      "learning_rate": 1.2783157894736842e-05,
      "loss": 0.916,
      "step": 176
    },
    {
      "epoch": 0.028907398334149927,
      "grad_norm": 1.0432227849960327,
      "learning_rate": 1.2250526315789473e-05,
      "loss": 1.2532,
      "step": 177
    },
    {
      "epoch": 0.02907071696880614,
      "grad_norm": 1.1129393577575684,
      "learning_rate": 1.1717894736842105e-05,
      "loss": 0.941,
      "step": 178
    },
    {
      "epoch": 0.029234035603462355,
      "grad_norm": 1.029136061668396,
      "learning_rate": 1.1185263157894736e-05,
      "loss": 0.8473,
      "step": 179
    },
    {
      "epoch": 0.02939735423811857,
      "grad_norm": 1.376283049583435,
      "learning_rate": 1.0652631578947367e-05,
      "loss": 1.1653,
      "step": 180
    },
    {
      "epoch": 0.029560672872774783,
      "grad_norm": 1.5209676027297974,
      "learning_rate": 1.012e-05,
      "loss": 1.1036,
      "step": 181
    },
    {
      "epoch": 0.029723991507430998,
      "grad_norm": 1.3598507642745972,
      "learning_rate": 9.58736842105263e-06,
      "loss": 1.111,
      "step": 182
    },
    {
      "epoch": 0.029887310142087214,
      "grad_norm": 1.7697727680206299,
      "learning_rate": 9.054736842105262e-06,
      "loss": 1.1236,
      "step": 183
    },
    {
      "epoch": 0.030050628776743426,
      "grad_norm": 1.5890552997589111,
      "learning_rate": 8.522105263157895e-06,
      "loss": 1.1014,
      "step": 184
    },
    {
      "epoch": 0.03021394741139964,
      "grad_norm": 2.1595990657806396,
      "learning_rate": 7.989473684210526e-06,
      "loss": 1.0673,
      "step": 185
    },
    {
      "epoch": 0.030377266046055854,
      "grad_norm": 2.107438802719116,
      "learning_rate": 7.456842105263157e-06,
      "loss": 1.587,
      "step": 186
    },
    {
      "epoch": 0.03054058468071207,
      "grad_norm": 2.4235117435455322,
      "learning_rate": 6.924210526315789e-06,
      "loss": 1.18,
      "step": 187
    },
    {
      "epoch": 0.030703903315368285,
      "grad_norm": 2.650186061859131,
      "learning_rate": 6.391578947368421e-06,
      "loss": 1.2659,
      "step": 188
    },
    {
      "epoch": 0.030867221950024497,
      "grad_norm": 2.3017964363098145,
      "learning_rate": 5.858947368421052e-06,
      "loss": 1.2318,
      "step": 189
    },
    {
      "epoch": 0.031030540584680712,
      "grad_norm": 4.141698360443115,
      "learning_rate": 5.326315789473683e-06,
      "loss": 1.2752,
      "step": 190
    },
    {
      "epoch": 0.031193859219336928,
      "grad_norm": 3.2129716873168945,
      "learning_rate": 4.793684210526315e-06,
      "loss": 1.7301,
      "step": 191
    },
    {
      "epoch": 0.03135717785399314,
      "grad_norm": 3.3127875328063965,
      "learning_rate": 4.261052631578947e-06,
      "loss": 1.4359,
      "step": 192
    },
    {
      "epoch": 0.03152049648864935,
      "grad_norm": 2.944632053375244,
      "learning_rate": 3.7284210526315786e-06,
      "loss": 1.5108,
      "step": 193
    },
    {
      "epoch": 0.03168381512330557,
      "grad_norm": 3.738710641860962,
      "learning_rate": 3.1957894736842106e-06,
      "loss": 1.5921,
      "step": 194
    },
    {
      "epoch": 0.03184713375796178,
      "grad_norm": 2.629503011703491,
      "learning_rate": 2.6631578947368417e-06,
      "loss": 1.0235,
      "step": 195
    },
    {
      "epoch": 0.032010452392617995,
      "grad_norm": 3.7466647624969482,
      "learning_rate": 2.1305263157894737e-06,
      "loss": 0.9939,
      "step": 196
    },
    {
      "epoch": 0.032173771027274214,
      "grad_norm": 5.6493964195251465,
      "learning_rate": 1.5978947368421053e-06,
      "loss": 2.8761,
      "step": 197
    },
    {
      "epoch": 0.03233708966193043,
      "grad_norm": 4.56735372543335,
      "learning_rate": 1.0652631578947369e-06,
      "loss": 2.4463,
      "step": 198
    },
    {
      "epoch": 0.03250040829658664,
      "grad_norm": 5.248714923858643,
      "learning_rate": 5.326315789473684e-07,
      "loss": 2.0689,
      "step": 199
    },
    {
      "epoch": 0.03266372693124286,
      "grad_norm": 5.74015474319458,
      "learning_rate": 0.0,
      "loss": 1.6778,
      "step": 200
    },
    {
      "epoch": 0.03266372693124286,
      "eval_loss": 1.1331738233566284,
      "eval_runtime": 347.8951,
      "eval_samples_per_second": 7.41,
      "eval_steps_per_second": 1.854,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.65769979075625e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}