{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.013124389826584941,
  "eval_steps": 326,
  "global_step": 652,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0129432249363408e-05,
      "grad_norm": 1.1866097338497639e-05,
      "learning_rate": 2e-05,
      "loss": 46.0,
      "step": 1
    },
    {
      "epoch": 2.0129432249363408e-05,
      "eval_loss": 11.5,
      "eval_runtime": 126.1545,
      "eval_samples_per_second": 165.813,
      "eval_steps_per_second": 82.906,
      "step": 1
    },
    {
      "epoch": 4.0258864498726816e-05,
      "grad_norm": 2.147201303159818e-05,
      "learning_rate": 4e-05,
      "loss": 46.0,
      "step": 2
    },
    {
      "epoch": 6.038829674809022e-05,
      "grad_norm": 1.848486135713756e-05,
      "learning_rate": 6e-05,
      "loss": 46.0,
      "step": 3
    },
    {
      "epoch": 8.051772899745363e-05,
      "grad_norm": 1.654278821661137e-05,
      "learning_rate": 8e-05,
      "loss": 46.0,
      "step": 4
    },
    {
      "epoch": 0.00010064716124681703,
      "grad_norm": 2.277838393638376e-05,
      "learning_rate": 0.0001,
      "loss": 46.0,
      "step": 5
    },
    {
      "epoch": 0.00012077659349618043,
      "grad_norm": 2.333819975319784e-05,
      "learning_rate": 0.00012,
      "loss": 46.0,
      "step": 6
    },
    {
      "epoch": 0.00014090602574554385,
      "grad_norm": 1.976581188500859e-05,
      "learning_rate": 0.00014,
      "loss": 46.0,
      "step": 7
    },
    {
      "epoch": 0.00016103545799490726,
      "grad_norm": 2.9277169232955202e-05,
      "learning_rate": 0.00016,
      "loss": 46.0,
      "step": 8
    },
    {
      "epoch": 0.00018116489024427065,
      "grad_norm": 1.2510759916040115e-05,
      "learning_rate": 0.00018,
      "loss": 46.0,
      "step": 9
    },
    {
      "epoch": 0.00020129432249363407,
      "grad_norm": 1.7789652702049352e-05,
      "learning_rate": 0.0002,
      "loss": 46.0,
      "step": 10
    },
    {
      "epoch": 0.00022142375474299748,
      "grad_norm": 2.230467725894414e-05,
      "learning_rate": 0.00019999970482981582,
      "loss": 46.0,
      "step": 11
    },
    {
      "epoch": 0.00024155318699236087,
      "grad_norm": 2.8929885957040824e-05,
      "learning_rate": 0.0001999988193210057,
      "loss": 46.0,
      "step": 12
    },
    {
      "epoch": 0.0002616826192417243,
      "grad_norm": 2.140910510206595e-05,
      "learning_rate": 0.00019999734347879723,
      "loss": 46.0,
      "step": 13
    },
    {
      "epoch": 0.0002818120514910877,
      "grad_norm": 1.3324294741323683e-05,
      "learning_rate": 0.0001999952773119029,
      "loss": 46.0,
      "step": 14
    },
    {
      "epoch": 0.0003019414837404511,
      "grad_norm": 6.112633127486333e-05,
      "learning_rate": 0.00019999262083252007,
      "loss": 46.0,
      "step": 15
    },
    {
      "epoch": 0.00032207091598981453,
      "grad_norm": 2.477996349625755e-05,
      "learning_rate": 0.00019998937405633105,
      "loss": 46.0,
      "step": 16
    },
    {
      "epoch": 0.0003422003482391779,
      "grad_norm": 2.2150932636577636e-05,
      "learning_rate": 0.00019998553700250284,
      "loss": 46.0,
      "step": 17
    },
    {
      "epoch": 0.0003623297804885413,
      "grad_norm": 1.1595971955102868e-05,
      "learning_rate": 0.00019998110969368717,
      "loss": 46.0,
      "step": 18
    },
    {
      "epoch": 0.00038245921273790474,
      "grad_norm": 1.8772680050460622e-05,
      "learning_rate": 0.00019997609215602019,
      "loss": 46.0,
      "step": 19
    },
    {
      "epoch": 0.00040258864498726813,
      "grad_norm": 1.745060035318602e-05,
      "learning_rate": 0.00019997048441912246,
      "loss": 46.0,
      "step": 20
    },
    {
      "epoch": 0.0004227180772366315,
      "grad_norm": 3.103197013842873e-05,
      "learning_rate": 0.0001999642865160987,
      "loss": 46.0,
      "step": 21
    },
    {
      "epoch": 0.00044284750948599496,
      "grad_norm": 3.2184922019951046e-05,
      "learning_rate": 0.0001999574984835377,
      "loss": 46.0,
      "step": 22
    },
    {
      "epoch": 0.00046297694173535835,
      "grad_norm": 2.257189953525085e-05,
      "learning_rate": 0.00019995012036151186,
      "loss": 46.0,
      "step": 23
    },
    {
      "epoch": 0.00048310637398472174,
      "grad_norm": 3.554321301635355e-05,
      "learning_rate": 0.00019994215219357728,
      "loss": 46.0,
      "step": 24
    },
    {
      "epoch": 0.0005032358062340851,
      "grad_norm": 1.5587129382765852e-05,
      "learning_rate": 0.00019993359402677323,
      "loss": 46.0,
      "step": 25
    },
    {
      "epoch": 0.0005233652384834486,
      "grad_norm": 9.828573638515081e-06,
      "learning_rate": 0.00019992444591162206,
      "loss": 46.0,
      "step": 26
    },
    {
      "epoch": 0.000543494670732812,
      "grad_norm": 1.708105810394045e-05,
      "learning_rate": 0.00019991470790212877,
      "loss": 46.0,
      "step": 27
    },
    {
      "epoch": 0.0005636241029821754,
      "grad_norm": 2.235212923551444e-05,
      "learning_rate": 0.00019990438005578075,
      "loss": 46.0,
      "step": 28
    },
    {
      "epoch": 0.0005837535352315388,
      "grad_norm": 2.0345447410363704e-05,
      "learning_rate": 0.00019989346243354746,
      "loss": 46.0,
      "step": 29
    },
    {
      "epoch": 0.0006038829674809022,
      "grad_norm": 2.3022035747999325e-05,
      "learning_rate": 0.00019988195509988005,
      "loss": 46.0,
      "step": 30
    },
    {
      "epoch": 0.0006240123997302656,
      "grad_norm": 2.097547439916525e-05,
      "learning_rate": 0.00019986985812271092,
      "loss": 46.0,
      "step": 31
    },
    {
      "epoch": 0.0006441418319796291,
      "grad_norm": 2.48163087235298e-05,
      "learning_rate": 0.00019985717157345345,
      "loss": 46.0,
      "step": 32
    },
    {
      "epoch": 0.0006642712642289924,
      "grad_norm": 1.3824127563566435e-05,
      "learning_rate": 0.00019984389552700144,
      "loss": 46.0,
      "step": 33
    },
    {
      "epoch": 0.0006844006964783558,
      "grad_norm": 5.524979133042507e-05,
      "learning_rate": 0.0001998300300617287,
      "loss": 46.0,
      "step": 34
    },
    {
      "epoch": 0.0007045301287277192,
      "grad_norm": 2.9547367375926115e-05,
      "learning_rate": 0.00019981557525948875,
      "loss": 46.0,
      "step": 35
    },
    {
      "epoch": 0.0007246595609770826,
      "grad_norm": 3.511565591907129e-05,
      "learning_rate": 0.00019980053120561411,
      "loss": 46.0,
      "step": 36
    },
    {
      "epoch": 0.0007447889932264461,
      "grad_norm": 1.500822963862447e-05,
      "learning_rate": 0.00019978489798891584,
      "loss": 46.0,
      "step": 37
    },
    {
      "epoch": 0.0007649184254758095,
      "grad_norm": 2.595680416561663e-05,
      "learning_rate": 0.00019976867570168318,
      "loss": 46.0,
      "step": 38
    },
    {
      "epoch": 0.0007850478577251729,
      "grad_norm": 2.681766818568576e-05,
      "learning_rate": 0.00019975186443968286,
      "loss": 46.0,
      "step": 39
    },
    {
      "epoch": 0.0008051772899745363,
      "grad_norm": 3.518196172080934e-05,
      "learning_rate": 0.0001997344643021585,
      "loss": 46.0,
      "step": 40
    },
    {
      "epoch": 0.0008253067222238997,
      "grad_norm": 2.3766757294652052e-05,
      "learning_rate": 0.00019971647539183013,
      "loss": 46.0,
      "step": 41
    },
    {
      "epoch": 0.000845436154473263,
      "grad_norm": 1.9241595509811305e-05,
      "learning_rate": 0.00019969789781489362,
      "loss": 46.0,
      "step": 42
    },
    {
      "epoch": 0.0008655655867226265,
      "grad_norm": 2.352761111978907e-05,
      "learning_rate": 0.00019967873168101984,
      "loss": 46.0,
      "step": 43
    },
    {
      "epoch": 0.0008856950189719899,
      "grad_norm": 2.3743756173644215e-05,
      "learning_rate": 0.00019965897710335422,
      "loss": 46.0,
      "step": 44
    },
    {
      "epoch": 0.0009058244512213533,
      "grad_norm": 3.65232554031536e-05,
      "learning_rate": 0.00019963863419851605,
      "loss": 46.0,
      "step": 45
    },
    {
      "epoch": 0.0009259538834707167,
      "grad_norm": 2.59846947301412e-05,
      "learning_rate": 0.00019961770308659767,
      "loss": 46.0,
      "step": 46
    },
    {
      "epoch": 0.0009460833157200801,
      "grad_norm": 2.885664434870705e-05,
      "learning_rate": 0.00019959618389116387,
      "loss": 46.0,
      "step": 47
    },
    {
      "epoch": 0.0009662127479694435,
      "grad_norm": 2.3175163732958026e-05,
      "learning_rate": 0.0001995740767392512,
      "loss": 46.0,
      "step": 48
    },
    {
      "epoch": 0.000986342180218807,
      "grad_norm": 4.130275920033455e-05,
      "learning_rate": 0.0001995513817613671,
      "loss": 46.0,
      "step": 49
    },
    {
      "epoch": 0.0010064716124681702,
      "grad_norm": 3.658945206552744e-05,
      "learning_rate": 0.00019952809909148914,
      "loss": 46.0,
      "step": 50
    },
    {
      "epoch": 0.0010266010447175337,
      "grad_norm": 2.976952600874938e-05,
      "learning_rate": 0.0001995042288670643,
      "loss": 46.0,
      "step": 51
    },
    {
      "epoch": 0.0010467304769668972,
      "grad_norm": 1.5616597011103295e-05,
      "learning_rate": 0.00019947977122900822,
      "loss": 46.0,
      "step": 52
    },
    {
      "epoch": 0.0010668599092162605,
      "grad_norm": 2.330297138541937e-05,
      "learning_rate": 0.0001994547263217042,
      "loss": 46.0,
      "step": 53
    },
    {
      "epoch": 0.001086989341465624,
      "grad_norm": 2.5345374524476938e-05,
      "learning_rate": 0.00019942909429300238,
      "loss": 46.0,
      "step": 54
    },
    {
      "epoch": 0.0011071187737149873,
      "grad_norm": 2.747085818555206e-05,
      "learning_rate": 0.00019940287529421902,
      "loss": 46.0,
      "step": 55
    },
    {
      "epoch": 0.0011272482059643508,
      "grad_norm": 5.7161822041962296e-05,
      "learning_rate": 0.00019937606948013548,
      "loss": 46.0,
      "step": 56
    },
    {
      "epoch": 0.0011473776382137143,
      "grad_norm": 1.3162572031433228e-05,
      "learning_rate": 0.00019934867700899722,
      "loss": 46.0,
      "step": 57
    },
    {
      "epoch": 0.0011675070704630776,
      "grad_norm": 3.8153884815983474e-05,
      "learning_rate": 0.00019932069804251312,
      "loss": 46.0,
      "step": 58
    },
    {
      "epoch": 0.001187636502712441,
      "grad_norm": 2.5788935090531595e-05,
      "learning_rate": 0.0001992921327458543,
      "loss": 46.0,
      "step": 59
    },
    {
      "epoch": 0.0012077659349618043,
      "grad_norm": 1.2793129826604854e-05,
      "learning_rate": 0.00019926298128765323,
      "loss": 46.0,
      "step": 60
    },
    {
      "epoch": 0.0012278953672111678,
      "grad_norm": 2.963062252092641e-05,
      "learning_rate": 0.00019923324384000276,
      "loss": 46.0,
      "step": 61
    },
    {
      "epoch": 0.0012480247994605311,
      "grad_norm": 1.7501424736110494e-05,
      "learning_rate": 0.00019920292057845499,
      "loss": 46.0,
      "step": 62
    },
    {
      "epoch": 0.0012681542317098946,
      "grad_norm": 2.3330876501859166e-05,
      "learning_rate": 0.00019917201168202043,
      "loss": 46.0,
      "step": 63
    },
    {
      "epoch": 0.0012882836639592581,
      "grad_norm": 1.3082960322208237e-05,
      "learning_rate": 0.00019914051733316678,
      "loss": 46.0,
      "step": 64
    },
    {
      "epoch": 0.0013084130962086214,
      "grad_norm": 2.3455559130525216e-05,
      "learning_rate": 0.00019910843771781783,
      "loss": 46.0,
      "step": 65
    },
    {
      "epoch": 0.0013285425284579849,
      "grad_norm": 1.9461349438643083e-05,
      "learning_rate": 0.00019907577302535255,
      "loss": 46.0,
      "step": 66
    },
    {
      "epoch": 0.0013486719607073482,
      "grad_norm": 3.472498428891413e-05,
      "learning_rate": 0.00019904252344860382,
      "loss": 46.0,
      "step": 67
    },
    {
      "epoch": 0.0013688013929567117,
      "grad_norm": 2.7159438104717992e-05,
      "learning_rate": 0.00019900868918385726,
      "loss": 46.0,
      "step": 68
    },
    {
      "epoch": 0.0013889308252060752,
      "grad_norm": 1.6992695236695e-05,
      "learning_rate": 0.00019897427043085022,
      "loss": 46.0,
      "step": 69
    },
    {
      "epoch": 0.0014090602574554384,
      "grad_norm": 2.162869532185141e-05,
      "learning_rate": 0.0001989392673927705,
      "loss": 46.0,
      "step": 70
    },
    {
      "epoch": 0.001429189689704802,
      "grad_norm": 5.969742778688669e-05,
      "learning_rate": 0.00019890368027625517,
      "loss": 46.0,
      "step": 71
    },
    {
      "epoch": 0.0014493191219541652,
      "grad_norm": 2.1275785911711864e-05,
      "learning_rate": 0.00019886750929138934,
      "loss": 46.0,
      "step": 72
    },
    {
      "epoch": 0.0014694485542035287,
      "grad_norm": 2.3872542442404665e-05,
      "learning_rate": 0.0001988307546517049,
      "loss": 46.0,
      "step": 73
    },
    {
      "epoch": 0.0014895779864528922,
      "grad_norm": 5.359681381378323e-05,
      "learning_rate": 0.00019879341657417935,
      "loss": 46.0,
      "step": 74
    },
    {
      "epoch": 0.0015097074187022555,
      "grad_norm": 2.5549368729116395e-05,
      "learning_rate": 0.00019875549527923449,
      "loss": 46.0,
      "step": 75
    },
    {
      "epoch": 0.001529836850951619,
      "grad_norm": 2.281313754792791e-05,
      "learning_rate": 0.00019871699099073493,
      "loss": 46.0,
      "step": 76
    },
    {
      "epoch": 0.0015499662832009823,
      "grad_norm": 3.20350554829929e-05,
      "learning_rate": 0.0001986779039359871,
      "loss": 46.0,
      "step": 77
    },
    {
      "epoch": 0.0015700957154503458,
      "grad_norm": 3.160408232361078e-05,
      "learning_rate": 0.00019863823434573762,
      "loss": 46.0,
      "step": 78
    },
    {
      "epoch": 0.001590225147699709,
      "grad_norm": 2.4337972718058154e-05,
      "learning_rate": 0.00019859798245417217,
      "loss": 46.0,
      "step": 79
    },
    {
      "epoch": 0.0016103545799490725,
      "grad_norm": 3.159191328450106e-05,
      "learning_rate": 0.0001985571484989138,
      "loss": 46.0,
      "step": 80
    },
    {
      "epoch": 0.001630484012198436,
      "grad_norm": 2.5550882128300145e-05,
      "learning_rate": 0.00019851573272102195,
      "loss": 46.0,
      "step": 81
    },
    {
      "epoch": 0.0016506134444477993,
      "grad_norm": 1.8689172065933235e-05,
      "learning_rate": 0.0001984737353649906,
      "loss": 46.0,
      "step": 82
    },
    {
      "epoch": 0.0016707428766971628,
      "grad_norm": 2.9251643354655243e-05,
      "learning_rate": 0.00019843115667874707,
      "loss": 46.0,
      "step": 83
    },
    {
      "epoch": 0.001690872308946526,
      "grad_norm": 3.018877760041505e-05,
      "learning_rate": 0.00019838799691365065,
      "loss": 46.0,
      "step": 84
    },
    {
      "epoch": 0.0017110017411958896,
      "grad_norm": 1.1726152479241136e-05,
      "learning_rate": 0.00019834425632449075,
      "loss": 46.0,
      "step": 85
    },
    {
      "epoch": 0.001731131173445253,
      "grad_norm": 2.3671049348195083e-05,
      "learning_rate": 0.00019829993516948577,
      "loss": 46.0,
      "step": 86
    },
    {
      "epoch": 0.0017512606056946164,
      "grad_norm": 2.0576631868607365e-05,
      "learning_rate": 0.00019825503371028136,
      "loss": 46.0,
      "step": 87
    },
    {
      "epoch": 0.0017713900379439798,
      "grad_norm": 1.466808589611901e-05,
      "learning_rate": 0.000198209552211949,
      "loss": 46.0,
      "step": 88
    },
    {
      "epoch": 0.0017915194701933431,
      "grad_norm": 2.361923543503508e-05,
      "learning_rate": 0.00019816349094298427,
      "loss": 46.0,
      "step": 89
    },
    {
      "epoch": 0.0018116489024427066,
      "grad_norm": 1.9187695215805434e-05,
      "learning_rate": 0.0001981168501753055,
      "loss": 46.0,
      "step": 90
    },
    {
      "epoch": 0.0018317783346920701,
      "grad_norm": 2.630672861414496e-05,
      "learning_rate": 0.0001980696301842519,
      "loss": 46.0,
      "step": 91
    },
    {
      "epoch": 0.0018519077669414334,
      "grad_norm": 1.8121598259313032e-05,
      "learning_rate": 0.00019802183124858222,
      "loss": 46.0,
      "step": 92
    },
    {
      "epoch": 0.001872037199190797,
      "grad_norm": 3.593276414903812e-05,
      "learning_rate": 0.00019797345365047284,
      "loss": 46.0,
      "step": 93
    },
    {
      "epoch": 0.0018921666314401602,
      "grad_norm": 2.5328612537123263e-05,
      "learning_rate": 0.0001979244976755162,
      "loss": 46.0,
      "step": 94
    },
    {
      "epoch": 0.0019122960636895237,
      "grad_norm": 3.064305201405659e-05,
      "learning_rate": 0.00019787496361271925,
      "loss": 46.0,
      "step": 95
    },
    {
      "epoch": 0.001932425495938887,
      "grad_norm": 2.1601079424726777e-05,
      "learning_rate": 0.00019782485175450155,
      "loss": 46.0,
      "step": 96
    },
    {
      "epoch": 0.0019525549281882504,
      "grad_norm": 1.7290110918111168e-05,
      "learning_rate": 0.0001977741623966936,
      "loss": 46.0,
      "step": 97
    },
    {
      "epoch": 0.001972684360437614,
      "grad_norm": 1.116962175728986e-05,
      "learning_rate": 0.00019772289583853514,
      "loss": 46.0,
      "step": 98
    },
    {
      "epoch": 0.0019928137926869772,
      "grad_norm": 1.0275795830239076e-05,
      "learning_rate": 0.00019767105238267338,
      "loss": 46.0,
      "step": 99
    },
    {
      "epoch": 0.0020129432249363405,
      "grad_norm": 2.2131345758680254e-05,
      "learning_rate": 0.00019761863233516117,
      "loss": 46.0,
      "step": 100
    },
    {
      "epoch": 0.002033072657185704,
      "grad_norm": 3.4143031371058896e-05,
      "learning_rate": 0.0001975656360054552,
      "loss": 46.0,
      "step": 101
    },
    {
      "epoch": 0.0020532020894350675,
      "grad_norm": 3.857325282297097e-05,
      "learning_rate": 0.0001975120637064142,
      "loss": 46.0,
      "step": 102
    },
    {
      "epoch": 0.0020733315216844308,
      "grad_norm": 2.403794314886909e-05,
      "learning_rate": 0.00019745791575429705,
      "loss": 46.0,
      "step": 103
    },
    {
      "epoch": 0.0020934609539337945,
      "grad_norm": 3.789052425418049e-05,
      "learning_rate": 0.00019740319246876106,
      "loss": 46.0,
      "step": 104
    },
    {
      "epoch": 0.0021135903861831578,
      "grad_norm": 3.8589034375036135e-05,
      "learning_rate": 0.00019734789417285976,
      "loss": 46.0,
      "step": 105
    },
    {
      "epoch": 0.002133719818432521,
      "grad_norm": 2.034025419561658e-05,
      "learning_rate": 0.0001972920211930414,
      "loss": 46.0,
      "step": 106
    },
    {
      "epoch": 0.0021538492506818843,
      "grad_norm": 1.9496819732012227e-05,
      "learning_rate": 0.0001972355738591467,
      "loss": 46.0,
      "step": 107
    },
    {
      "epoch": 0.002173978682931248,
      "grad_norm": 1.7886142813949846e-05,
      "learning_rate": 0.00019717855250440705,
      "loss": 46.0,
      "step": 108
    },
    {
      "epoch": 0.0021941081151806113,
      "grad_norm": 1.818929194996599e-05,
      "learning_rate": 0.00019712095746544255,
      "loss": 46.0,
      "step": 109
    },
    {
      "epoch": 0.0022142375474299746,
      "grad_norm": 2.199762820964679e-05,
      "learning_rate": 0.00019706278908225992,
      "loss": 46.0,
      "step": 110
    },
    {
      "epoch": 0.0022343669796793383,
      "grad_norm": 2.1755575289716944e-05,
      "learning_rate": 0.00019700404769825068,
      "loss": 46.0,
      "step": 111
    },
    {
      "epoch": 0.0022544964119287016,
      "grad_norm": 3.8793521525803953e-05,
      "learning_rate": 0.00019694473366018887,
      "loss": 46.0,
      "step": 112
    },
    {
      "epoch": 0.002274625844178065,
      "grad_norm": 3.468850627541542e-05,
      "learning_rate": 0.00019688484731822923,
      "loss": 46.0,
      "step": 113
    },
    {
      "epoch": 0.0022947552764274286,
      "grad_norm": 2.4715391191421077e-05,
      "learning_rate": 0.00019682438902590498,
      "loss": 46.0,
      "step": 114
    },
    {
      "epoch": 0.002314884708676792,
      "grad_norm": 3.426595503697172e-05,
      "learning_rate": 0.0001967633591401259,
      "loss": 46.0,
      "step": 115
    },
    {
      "epoch": 0.002335014140926155,
      "grad_norm": 5.176919148652814e-05,
      "learning_rate": 0.000196701758021176,
      "loss": 46.0,
      "step": 116
    },
    {
      "epoch": 0.0023551435731755184,
      "grad_norm": 2.376974771323148e-05,
      "learning_rate": 0.00019663958603271148,
      "loss": 46.0,
      "step": 117
    },
    {
      "epoch": 0.002375273005424882,
      "grad_norm": 2.0293871784815565e-05,
      "learning_rate": 0.0001965768435417588,
      "loss": 46.0,
      "step": 118
    },
    {
      "epoch": 0.0023954024376742454,
      "grad_norm": 4.838638415094465e-05,
      "learning_rate": 0.00019651353091871215,
      "loss": 46.0,
      "step": 119
    },
    {
      "epoch": 0.0024155318699236087,
      "grad_norm": 2.106054307660088e-05,
      "learning_rate": 0.00019644964853733152,
      "loss": 46.0,
      "step": 120
    },
    {
      "epoch": 0.0024356613021729724,
      "grad_norm": 2.7618483727565035e-05,
      "learning_rate": 0.0001963851967747404,
      "loss": 46.0,
      "step": 121
    },
    {
      "epoch": 0.0024557907344223357,
      "grad_norm": 1.421527485945262e-05,
      "learning_rate": 0.00019632017601142355,
      "loss": 46.0,
      "step": 122
    },
    {
      "epoch": 0.002475920166671699,
      "grad_norm": 3.1367508199764416e-05,
      "learning_rate": 0.00019625458663122478,
      "loss": 46.0,
      "step": 123
    },
    {
      "epoch": 0.0024960495989210622,
      "grad_norm": 3.238041608710773e-05,
      "learning_rate": 0.00019618842902134465,
      "loss": 46.0,
      "step": 124
    },
    {
      "epoch": 0.002516179031170426,
      "grad_norm": 2.0453908291528933e-05,
      "learning_rate": 0.00019612170357233836,
      "loss": 46.0,
      "step": 125
    },
    {
      "epoch": 0.0025363084634197892,
      "grad_norm": 1.5395889931824058e-05,
      "learning_rate": 0.00019605441067811302,
      "loss": 46.0,
      "step": 126
    },
    {
      "epoch": 0.0025564378956691525,
      "grad_norm": 2.2598505893256515e-05,
      "learning_rate": 0.00019598655073592585,
      "loss": 46.0,
      "step": 127
    },
    {
      "epoch": 0.0025765673279185162,
      "grad_norm": 2.011835022130981e-05,
      "learning_rate": 0.0001959181241463814,
      "loss": 46.0,
      "step": 128
    },
    {
      "epoch": 0.0025966967601678795,
      "grad_norm": 2.2615582565777004e-05,
      "learning_rate": 0.00019584913131342953,
      "loss": 46.0,
      "step": 129
    },
    {
      "epoch": 0.0026168261924172428,
      "grad_norm": 2.472496998962015e-05,
      "learning_rate": 0.0001957795726443628,
      "loss": 46.0,
      "step": 130
    },
    {
      "epoch": 0.0026369556246666065,
      "grad_norm": 2.1229192498140037e-05,
      "learning_rate": 0.000195709448549814,
      "loss": 46.0,
      "step": 131
    },
    {
      "epoch": 0.0026570850569159698,
      "grad_norm": 3.1881041650194675e-05,
      "learning_rate": 0.00019563875944375407,
      "loss": 46.0,
      "step": 132
    },
    {
      "epoch": 0.002677214489165333,
      "grad_norm": 3.062764881178737e-05,
      "learning_rate": 0.0001955675057434893,
      "loss": 46.0,
      "step": 133
    },
    {
      "epoch": 0.0026973439214146963,
      "grad_norm": 3.407730400795117e-05,
      "learning_rate": 0.00019549568786965903,
      "loss": 46.0,
      "step": 134
    },
    {
      "epoch": 0.00271747335366406,
      "grad_norm": 2.335791396035347e-05,
      "learning_rate": 0.00019542330624623322,
      "loss": 46.0,
      "step": 135
    },
    {
      "epoch": 0.0027376027859134233,
      "grad_norm": 2.1637504687532783e-05,
      "learning_rate": 0.00019535036130050975,
      "loss": 46.0,
      "step": 136
    },
    {
      "epoch": 0.0027577322181627866,
      "grad_norm": 2.3219181457534432e-05,
      "learning_rate": 0.00019527685346311212,
      "loss": 46.0,
      "step": 137
    },
    {
      "epoch": 0.0027778616504121503,
      "grad_norm": 1.165738285635598e-05,
      "learning_rate": 0.0001952027831679867,
      "loss": 46.0,
      "step": 138
    },
    {
      "epoch": 0.0027979910826615136,
      "grad_norm": 2.6394216547487304e-05,
      "learning_rate": 0.00019512815085240046,
      "loss": 46.0,
      "step": 139
    },
    {
      "epoch": 0.002818120514910877,
      "grad_norm": 2.7199243049835786e-05,
      "learning_rate": 0.000195052956956938,
      "loss": 46.0,
      "step": 140
    },
    {
      "epoch": 0.00283824994716024,
      "grad_norm": 1.723020432109479e-05,
      "learning_rate": 0.00019497720192549926,
      "loss": 46.0,
      "step": 141
    },
    {
      "epoch": 0.002858379379409604,
      "grad_norm": 2.4921268050093204e-05,
      "learning_rate": 0.00019490088620529678,
      "loss": 46.0,
      "step": 142
    },
    {
      "epoch": 0.002878508811658967,
      "grad_norm": 2.3121931008063257e-05,
      "learning_rate": 0.00019482401024685308,
      "loss": 46.0,
      "step": 143
    },
    {
      "epoch": 0.0028986382439083304,
      "grad_norm": 4.1502407839288935e-05,
      "learning_rate": 0.0001947465745039979,
      "loss": 46.0,
      "step": 144
    },
    {
      "epoch": 0.002918767676157694,
      "grad_norm": 3.218562051188201e-05,
      "learning_rate": 0.0001946685794338658,
      "loss": 46.0,
      "step": 145
    },
    {
      "epoch": 0.0029388971084070574,
      "grad_norm": 1.8879612980526872e-05,
      "learning_rate": 0.00019459002549689308,
      "loss": 46.0,
      "step": 146
    },
    {
      "epoch": 0.0029590265406564207,
      "grad_norm": 2.8899030439788476e-05,
      "learning_rate": 0.0001945109131568154,
      "loss": 46.0,
      "step": 147
    },
    {
      "epoch": 0.0029791559729057844,
      "grad_norm": 3.5309523809701204e-05,
      "learning_rate": 0.00019443124288066475,
      "loss": 46.0,
      "step": 148
    },
    {
      "epoch": 0.0029992854051551477,
      "grad_norm": 4.7148212615866214e-05,
      "learning_rate": 0.00019435101513876703,
      "loss": 46.0,
      "step": 149
    },
    {
      "epoch": 0.003019414837404511,
      "grad_norm": 3.963925701100379e-05,
      "learning_rate": 0.00019427023040473896,
      "loss": 46.0,
      "step": 150
    },
    {
      "epoch": 0.0030395442696538742,
      "grad_norm": 2.9483388061635196e-05,
      "learning_rate": 0.0001941888891554854,
      "loss": 46.0,
      "step": 151
    },
    {
      "epoch": 0.003059673701903238,
      "grad_norm": 2.0797941033379175e-05,
      "learning_rate": 0.00019410699187119663,
      "loss": 46.0,
      "step": 152
    },
    {
      "epoch": 0.0030798031341526012,
      "grad_norm": 2.525432500988245e-05,
      "learning_rate": 0.00019402453903534533,
      "loss": 46.0,
      "step": 153
    },
    {
      "epoch": 0.0030999325664019645,
      "grad_norm": 1.9120217984891497e-05,
      "learning_rate": 0.0001939415311346839,
      "loss": 46.0,
      "step": 154
    },
    {
      "epoch": 0.0031200619986513282,
      "grad_norm": 2.6778399842442013e-05,
      "learning_rate": 0.0001938579686592415,
      "loss": 46.0,
      "step": 155
    },
    {
      "epoch": 0.0031401914309006915,
      "grad_norm": 2.4967603167169727e-05,
      "learning_rate": 0.00019377385210232113,
      "loss": 46.0,
      "step": 156
    },
    {
      "epoch": 0.003160320863150055,
      "grad_norm": 2.38423963310197e-05,
      "learning_rate": 0.0001936891819604968,
      "loss": 46.0,
      "step": 157
    },
    {
      "epoch": 0.003180450295399418,
      "grad_norm": 5.6928216508822516e-05,
      "learning_rate": 0.00019360395873361055,
      "loss": 46.0,
      "step": 158
    },
    {
      "epoch": 0.0032005797276487818,
      "grad_norm": 4.014354999526404e-05,
      "learning_rate": 0.00019351818292476946,
      "loss": 46.0,
      "step": 159
    },
    {
      "epoch": 0.003220709159898145,
      "grad_norm": 4.82712421217002e-05,
      "learning_rate": 0.00019343185504034277,
      "loss": 46.0,
      "step": 160
    },
    {
      "epoch": 0.0032408385921475083,
      "grad_norm": 3.384835144970566e-05,
      "learning_rate": 0.0001933449755899588,
      "loss": 46.0,
      "step": 161
    },
    {
      "epoch": 0.003260968024396872,
      "grad_norm": 1.4583272786694579e-05,
      "learning_rate": 0.0001932575450865021,
      "loss": 46.0,
      "step": 162
    },
    {
      "epoch": 0.0032810974566462353,
      "grad_norm": 4.5586399210151285e-05,
      "learning_rate": 0.00019316956404611012,
      "loss": 46.0,
      "step": 163
    },
    {
      "epoch": 0.0033012268888955986,
      "grad_norm": 4.526826523942873e-05,
      "learning_rate": 0.00019308103298817052,
      "loss": 46.0,
      "step": 164
    },
    {
      "epoch": 0.0033213563211449623,
      "grad_norm": 5.154962491360493e-05,
      "learning_rate": 0.00019299195243531792,
      "loss": 46.0,
      "step": 165
    },
    {
      "epoch": 0.0033414857533943256,
      "grad_norm": 2.3496044377679937e-05,
      "learning_rate": 0.00019290232291343067,
      "loss": 46.0,
      "step": 166
    },
    {
      "epoch": 0.003361615185643689,
      "grad_norm": 3.0550760129699484e-05,
      "learning_rate": 0.0001928121449516281,
      "loss": 46.0,
      "step": 167
    },
    {
      "epoch": 0.003381744617893052,
      "grad_norm": 2.7053209123550914e-05,
      "learning_rate": 0.00019272141908226707,
      "loss": 46.0,
      "step": 168
    },
    {
      "epoch": 0.003401874050142416,
      "grad_norm": 1.612185405974742e-05,
      "learning_rate": 0.0001926301458409391,
      "loss": 46.0,
      "step": 169
    },
    {
      "epoch": 0.003422003482391779,
      "grad_norm": 1.803100349206943e-05,
      "learning_rate": 0.00019253832576646688,
      "loss": 46.0,
      "step": 170
    },
    {
      "epoch": 0.0034421329146411424,
      "grad_norm": 1.77473557414487e-05,
      "learning_rate": 0.00019244595940090143,
      "loss": 46.0,
      "step": 171
    },
    {
      "epoch": 0.003462262346890506,
      "grad_norm": 2.4842493075993843e-05,
      "learning_rate": 0.00019235304728951866,
      "loss": 46.0,
      "step": 172
    },
    {
      "epoch": 0.0034823917791398694,
      "grad_norm": 3.840986391878687e-05,
      "learning_rate": 0.00019225958998081633,
      "loss": 46.0,
      "step": 173
    },
    {
      "epoch": 0.0035025212113892327,
      "grad_norm": 3.629952698247507e-05,
      "learning_rate": 0.0001921655880265106,
      "loss": 46.0,
      "step": 174
    },
    {
      "epoch": 0.003522650643638596,
      "grad_norm": 3.082855619140901e-05,
      "learning_rate": 0.00019207104198153295,
      "loss": 46.0,
      "step": 175
    },
    {
      "epoch": 0.0035427800758879597,
      "grad_norm": 8.436971984338015e-05,
      "learning_rate": 0.0001919759524040269,
      "loss": 46.0,
      "step": 176
    },
    {
      "epoch": 0.003562909508137323,
      "grad_norm": 3.003582423843909e-05,
      "learning_rate": 0.0001918803198553446,
      "loss": 46.0,
      "step": 177
    },
    {
      "epoch": 0.0035830389403866863,
      "grad_norm": 4.6667788410559297e-05,
      "learning_rate": 0.00019178414490004356,
      "loss": 46.0,
      "step": 178
    },
    {
      "epoch": 0.00360316837263605,
      "grad_norm": 3.2573891076026484e-05,
      "learning_rate": 0.00019168742810588335,
      "loss": 46.0,
      "step": 179
    },
    {
      "epoch": 0.0036232978048854132,
      "grad_norm": 2.6542162231635302e-05,
      "learning_rate": 0.00019159017004382234,
      "loss": 46.0,
      "step": 180
    },
    {
      "epoch": 0.0036434272371347765,
      "grad_norm": 2.6043957404908724e-05,
      "learning_rate": 0.00019149237128801404,
      "loss": 46.0,
      "step": 181
    },
    {
      "epoch": 0.0036635566693841402,
      "grad_norm": 1.9306073227198794e-05,
      "learning_rate": 0.000191394032415804,
      "loss": 46.0,
      "step": 182
    },
    {
      "epoch": 0.0036836861016335035,
      "grad_norm": 4.7370471293106675e-05,
      "learning_rate": 0.00019129515400772635,
      "loss": 46.0,
      "step": 183
    },
    {
      "epoch": 0.003703815533882867,
      "grad_norm": 3.607594771892764e-05,
      "learning_rate": 0.00019119573664750018,
      "loss": 46.0,
      "step": 184
    },
    {
      "epoch": 0.00372394496613223,
      "grad_norm": 4.207424717606045e-05,
      "learning_rate": 0.00019109578092202628,
      "loss": 46.0,
      "step": 185
    },
    {
      "epoch": 0.003744074398381594,
      "grad_norm": 4.7341436584247276e-05,
      "learning_rate": 0.00019099528742138371,
      "loss": 46.0,
      "step": 186
    },
    {
      "epoch": 0.003764203830630957,
      "grad_norm": 6.413136725313962e-05,
      "learning_rate": 0.00019089425673882615,
      "loss": 46.0,
      "step": 187
    },
    {
      "epoch": 0.0037843332628803203,
      "grad_norm": 3.3956010156543925e-05,
      "learning_rate": 0.0001907926894707785,
      "loss": 46.0,
      "step": 188
    },
    {
      "epoch": 0.003804462695129684,
      "grad_norm": 7.443443610100076e-05,
      "learning_rate": 0.00019069058621683336,
      "loss": 46.0,
      "step": 189
    },
    {
      "epoch": 0.0038245921273790473,
      "grad_norm": 9.83256395556964e-05,
      "learning_rate": 0.0001905879475797474,
      "loss": 46.0,
      "step": 190
    },
    {
      "epoch": 0.0038447215596284106,
      "grad_norm": 2.799310823320411e-05,
      "learning_rate": 0.00019048477416543801,
      "loss": 46.0,
      "step": 191
    },
    {
      "epoch": 0.003864850991877774,
      "grad_norm": 2.725904414546676e-05,
      "learning_rate": 0.00019038106658297944,
      "loss": 46.0,
      "step": 192
    },
    {
      "epoch": 0.0038849804241271376,
      "grad_norm": 1.805232386686839e-05,
      "learning_rate": 0.00019027682544459947,
      "loss": 46.0,
      "step": 193
    },
    {
      "epoch": 0.003905109856376501,
      "grad_norm": 2.9510436434065923e-05,
      "learning_rate": 0.00019017205136567556,
      "loss": 46.0,
      "step": 194
    },
    {
      "epoch": 0.003925239288625864,
      "grad_norm": 3.2932246540440246e-05,
      "learning_rate": 0.00019006674496473144,
      "loss": 46.0,
      "step": 195
    },
    {
      "epoch": 0.003945368720875228,
      "grad_norm": 3.495354394544847e-05,
      "learning_rate": 0.00018996090686343328,
      "loss": 46.0,
      "step": 196
    },
    {
      "epoch": 0.003965498153124591,
      "grad_norm": 6.263954128371552e-05,
      "learning_rate": 0.0001898545376865861,
      "loss": 46.0,
      "step": 197
    },
    {
      "epoch": 0.0039856275853739544,
      "grad_norm": 2.9388587790890597e-05,
      "learning_rate": 0.00018974763806213013,
      "loss": 46.0,
      "step": 198
    },
    {
      "epoch": 0.004005757017623318,
      "grad_norm": 2.9143146093701944e-05,
      "learning_rate": 0.000189640208621137,
      "loss": 46.0,
      "step": 199
    },
    {
      "epoch": 0.004025886449872681,
      "grad_norm": 2.8607553758774884e-05,
      "learning_rate": 0.00018953224999780605,
      "loss": 46.0,
      "step": 200
    },
    {
      "epoch": 0.004046015882122045,
      "grad_norm": 2.6011948648374528e-05,
      "learning_rate": 0.00018942376282946066,
      "loss": 46.0,
      "step": 201
    },
    {
      "epoch": 0.004066145314371408,
      "grad_norm": 5.046524165663868e-05,
      "learning_rate": 0.0001893147477565443,
      "loss": 46.0,
      "step": 202
    },
    {
      "epoch": 0.004086274746620771,
      "grad_norm": 2.9760611141682602e-05,
      "learning_rate": 0.000189205205422617,
      "loss": 46.0,
      "step": 203
    },
    {
      "epoch": 0.004106404178870135,
      "grad_norm": 8.055127545958385e-05,
      "learning_rate": 0.0001890951364743514,
      "loss": 46.0,
      "step": 204
    },
    {
      "epoch": 0.004126533611119499,
      "grad_norm": 3.0201517802197486e-05,
      "learning_rate": 0.00018898454156152886,
      "loss": 46.0,
      "step": 205
    },
    {
      "epoch": 0.0041466630433688615,
      "grad_norm": 3.596295937313698e-05,
      "learning_rate": 0.0001888734213370359,
      "loss": 46.0,
      "step": 206
    },
    {
      "epoch": 0.004166792475618225,
      "grad_norm": 3.9855971408542246e-05,
      "learning_rate": 0.00018876177645685998,
      "loss": 46.0,
      "step": 207
    },
    {
      "epoch": 0.004186921907867589,
      "grad_norm": 2.937594945251476e-05,
      "learning_rate": 0.00018864960758008592,
      "loss": 46.0,
      "step": 208
    },
    {
      "epoch": 0.004207051340116952,
      "grad_norm": 2.6503237677388825e-05,
      "learning_rate": 0.00018853691536889188,
      "loss": 46.0,
      "step": 209
    },
    {
      "epoch": 0.0042271807723663155,
      "grad_norm": 2.7466578103485517e-05,
      "learning_rate": 0.0001884237004885455,
      "loss": 46.0,
      "step": 210
    },
    {
      "epoch": 0.004247310204615679,
      "grad_norm": 2.5270055630244315e-05,
      "learning_rate": 0.0001883099636073999,
      "loss": 46.0,
      "step": 211
    },
    {
      "epoch": 0.004267439636865042,
      "grad_norm": 4.509964492172003e-05,
      "learning_rate": 0.0001881957053968898,
      "loss": 46.0,
      "step": 212
    },
    {
      "epoch": 0.004287569069114406,
      "grad_norm": 4.1347884689457715e-05,
      "learning_rate": 0.00018808092653152753,
      "loss": 46.0,
      "step": 213
    },
    {
      "epoch": 0.004307698501363769,
      "grad_norm": 2.3344733563135378e-05,
      "learning_rate": 0.00018796562768889913,
      "loss": 46.0,
      "step": 214
    },
    {
      "epoch": 0.004327827933613132,
      "grad_norm": 3.056141213164665e-05,
      "learning_rate": 0.0001878498095496601,
      "loss": 46.0,
      "step": 215
    },
    {
      "epoch": 0.004347957365862496,
      "grad_norm": 1.8424869267619215e-05,
      "learning_rate": 0.00018773347279753177,
      "loss": 46.0,
      "step": 216
    },
    {
      "epoch": 0.004368086798111859,
      "grad_norm": 3.535512223606929e-05,
      "learning_rate": 0.00018761661811929686,
      "loss": 46.0,
      "step": 217
    },
    {
      "epoch": 0.004388216230361223,
      "grad_norm": 2.6731742764241062e-05,
      "learning_rate": 0.00018749924620479585,
      "loss": 46.0,
      "step": 218
    },
    {
      "epoch": 0.004408345662610586,
      "grad_norm": 4.029847332276404e-05,
      "learning_rate": 0.0001873813577469224,
      "loss": 46.0,
      "step": 219
    },
    {
      "epoch": 0.004428475094859949,
      "grad_norm": 4.0732127672526985e-05,
      "learning_rate": 0.0001872629534416197,
      "loss": 46.0,
      "step": 220
    },
    {
      "epoch": 0.004448604527109313,
      "grad_norm": 2.8962362193851732e-05,
      "learning_rate": 0.0001871440339878762,
      "loss": 46.0,
      "step": 221
    },
    {
      "epoch": 0.004468733959358677,
      "grad_norm": 4.08275009249337e-05,
      "learning_rate": 0.0001870246000877214,
      "loss": 46.0,
      "step": 222
    },
    {
      "epoch": 0.0044888633916080395,
      "grad_norm": 3.2036841730587184e-05,
      "learning_rate": 0.00018690465244622183,
      "loss": 46.0,
      "step": 223
    },
    {
      "epoch": 0.004508992823857403,
      "grad_norm": 5.666902507073246e-05,
      "learning_rate": 0.00018678419177147685,
      "loss": 46.0,
      "step": 224
    },
    {
      "epoch": 0.004529122256106767,
      "grad_norm": 1.926498043758329e-05,
      "learning_rate": 0.0001866632187746145,
      "loss": 46.0,
      "step": 225
    },
    {
      "epoch": 0.00454925168835613,
      "grad_norm": 5.15770552738104e-05,
      "learning_rate": 0.00018654173416978714,
      "loss": 46.0,
      "step": 226
    },
    {
      "epoch": 0.0045693811206054934,
      "grad_norm": 4.0023831388680264e-05,
      "learning_rate": 0.0001864197386741674,
      "loss": 46.0,
      "step": 227
    },
    {
      "epoch": 0.004589510552854857,
      "grad_norm": 2.732311622821726e-05,
      "learning_rate": 0.00018629723300794408,
      "loss": 46.0,
      "step": 228
    },
    {
      "epoch": 0.00460963998510422,
      "grad_norm": 3.606328391470015e-05,
      "learning_rate": 0.00018617421789431747,
      "loss": 46.0,
      "step": 229
    },
    {
      "epoch": 0.004629769417353584,
      "grad_norm": 4.1729483200469986e-05,
      "learning_rate": 0.0001860506940594955,
      "loss": 46.0,
      "step": 230
    },
    {
      "epoch": 0.0046498988496029466,
      "grad_norm": 4.251101199770346e-05,
      "learning_rate": 0.00018592666223268917,
      "loss": 46.0,
      "step": 231
    },
    {
      "epoch": 0.00467002828185231,
      "grad_norm": 4.2483963625272736e-05,
      "learning_rate": 0.00018580212314610846,
      "loss": 46.0,
      "step": 232
    },
    {
      "epoch": 0.004690157714101674,
      "grad_norm": 3.098902016063221e-05,
      "learning_rate": 0.0001856770775349579,
      "loss": 46.0,
      "step": 233
    },
    {
      "epoch": 0.004710287146351037,
      "grad_norm": 2.9945371352368966e-05,
      "learning_rate": 0.00018555152613743215,
      "loss": 46.0,
      "step": 234
    },
    {
      "epoch": 0.0047304165786004005,
      "grad_norm": 4.764752884511836e-05,
      "learning_rate": 0.00018542546969471183,
      "loss": 46.0,
      "step": 235
    },
    {
      "epoch": 0.004750546010849764,
      "grad_norm": 2.68215353571577e-05,
      "learning_rate": 0.00018529890895095902,
      "loss": 46.0,
      "step": 236
    },
    {
      "epoch": 0.004770675443099127,
      "grad_norm": 5.318366311257705e-05,
      "learning_rate": 0.00018517184465331288,
      "loss": 46.0,
      "step": 237
    },
    {
      "epoch": 0.004790804875348491,
      "grad_norm": 7.759372965665534e-05,
      "learning_rate": 0.00018504427755188521,
      "loss": 46.0,
      "step": 238
    },
    {
      "epoch": 0.0048109343075978545,
      "grad_norm": 2.4518141799489968e-05,
      "learning_rate": 0.00018491620839975617,
      "loss": 46.0,
      "step": 239
    },
    {
      "epoch": 0.004831063739847217,
      "grad_norm": 2.9744596758973785e-05,
      "learning_rate": 0.00018478763795296962,
      "loss": 46.0,
      "step": 240
    },
    {
      "epoch": 0.004851193172096581,
      "grad_norm": 3.903737888322212e-05,
      "learning_rate": 0.0001846585669705288,
      "loss": 46.0,
      "step": 241
    },
    {
      "epoch": 0.004871322604345945,
      "grad_norm": 3.140496482956223e-05,
      "learning_rate": 0.00018452899621439182,
      "loss": 46.0,
      "step": 242
    },
    {
      "epoch": 0.004891452036595308,
      "grad_norm": 2.7846319426316768e-05,
      "learning_rate": 0.00018439892644946722,
      "loss": 46.0,
      "step": 243
    },
    {
      "epoch": 0.004911581468844671,
      "grad_norm": 2.935269549197983e-05,
      "learning_rate": 0.00018426835844360929,
      "loss": 46.0,
      "step": 244
    },
    {
      "epoch": 0.004931710901094035,
      "grad_norm": 2.9461683880072087e-05,
      "learning_rate": 0.00018413729296761364,
      "loss": 46.0,
      "step": 245
    },
    {
      "epoch": 0.004951840333343398,
      "grad_norm": 3.557924719643779e-05,
      "learning_rate": 0.00018400573079521278,
      "loss": 46.0,
      "step": 246
    },
    {
      "epoch": 0.004971969765592762,
      "grad_norm": 3.282381294411607e-05,
      "learning_rate": 0.0001838736727030712,
      "loss": 46.0,
      "step": 247
    },
    {
      "epoch": 0.0049920991978421245,
      "grad_norm": 4.159653326496482e-05,
      "learning_rate": 0.00018374111947078124,
      "loss": 46.0,
      "step": 248
    },
    {
      "epoch": 0.005012228630091488,
      "grad_norm": 3.4549964766483754e-05,
      "learning_rate": 0.00018360807188085807,
      "loss": 46.0,
      "step": 249
    },
    {
      "epoch": 0.005032358062340852,
      "grad_norm": 4.0204184188041836e-05,
      "learning_rate": 0.00018347453071873536,
      "loss": 46.0,
      "step": 250
    },
    {
      "epoch": 0.005052487494590215,
      "grad_norm": 8.349636482307687e-05,
      "learning_rate": 0.00018334049677276045,
      "loss": 46.0,
      "step": 251
    },
    {
      "epoch": 0.0050726169268395785,
      "grad_norm": 3.3643322240095586e-05,
      "learning_rate": 0.0001832059708341899,
      "loss": 46.0,
      "step": 252
    },
    {
      "epoch": 0.005092746359088942,
      "grad_norm": 3.255937190260738e-05,
      "learning_rate": 0.00018307095369718456,
      "loss": 46.0,
      "step": 253
    },
    {
      "epoch": 0.005112875791338305,
      "grad_norm": 3.45467560691759e-05,
      "learning_rate": 0.00018293544615880517,
      "loss": 46.0,
      "step": 254
    },
    {
      "epoch": 0.005133005223587669,
      "grad_norm": 6.099267557146959e-05,
      "learning_rate": 0.00018279944901900737,
      "loss": 46.0,
      "step": 255
    },
    {
      "epoch": 0.0051531346558370324,
      "grad_norm": 3.314892455819063e-05,
      "learning_rate": 0.00018266296308063718,
      "loss": 46.0,
      "step": 256
    },
    {
      "epoch": 0.005173264088086395,
      "grad_norm": 2.7799773306469433e-05,
      "learning_rate": 0.00018252598914942622,
      "loss": 46.0,
      "step": 257
    },
    {
      "epoch": 0.005193393520335759,
      "grad_norm": 4.2107418266823515e-05,
      "learning_rate": 0.00018238852803398689,
      "loss": 46.0,
      "step": 258
    },
    {
      "epoch": 0.005213522952585123,
      "grad_norm": 6.404446321539581e-05,
      "learning_rate": 0.00018225058054580765,
      "loss": 46.0,
      "step": 259
    },
    {
      "epoch": 0.0052336523848344856,
      "grad_norm": 5.3031737479614094e-05,
      "learning_rate": 0.0001821121474992482,
      "loss": 46.0,
      "step": 260
    },
    {
      "epoch": 0.005253781817083849,
      "grad_norm": 4.130045635974966e-05,
      "learning_rate": 0.00018197322971153467,
      "loss": 46.0,
      "step": 261
    },
    {
      "epoch": 0.005273911249333213,
      "grad_norm": 4.748915307573043e-05,
      "learning_rate": 0.0001818338280027549,
      "loss": 46.0,
      "step": 262
    },
    {
      "epoch": 0.005294040681582576,
      "grad_norm": 2.8563030355144292e-05,
      "learning_rate": 0.00018169394319585345,
      "loss": 46.0,
      "step": 263
    },
    {
      "epoch": 0.0053141701138319395,
      "grad_norm": 4.959934449288994e-05,
      "learning_rate": 0.00018155357611662672,
      "loss": 46.0,
      "step": 264
    },
    {
      "epoch": 0.005334299546081302,
      "grad_norm": 4.6712710172869265e-05,
      "learning_rate": 0.0001814127275937183,
      "loss": 46.0,
      "step": 265
    },
    {
      "epoch": 0.005354428978330666,
      "grad_norm": 0.00011124753655167297,
      "learning_rate": 0.0001812713984586139,
      "loss": 46.0,
      "step": 266
    },
    {
      "epoch": 0.00537455841058003,
      "grad_norm": 4.563620314002037e-05,
      "learning_rate": 0.00018112958954563646,
      "loss": 46.0,
      "step": 267
    },
    {
      "epoch": 0.005394687842829393,
      "grad_norm": 5.554988456424326e-05,
      "learning_rate": 0.00018098730169194117,
      "loss": 46.0,
      "step": 268
    },
    {
      "epoch": 0.005414817275078756,
      "grad_norm": 4.447490573511459e-05,
      "learning_rate": 0.00018084453573751072,
      "loss": 46.0,
      "step": 269
    },
    {
      "epoch": 0.00543494670732812,
      "grad_norm": 3.21212355629541e-05,
      "learning_rate": 0.00018070129252515014,
      "loss": 46.0,
      "step": 270
    },
    {
      "epoch": 0.005455076139577483,
      "grad_norm": 3.499364902381785e-05,
      "learning_rate": 0.00018055757290048202,
      "loss": 46.0,
      "step": 271
    },
    {
      "epoch": 0.005475205571826847,
      "grad_norm": 4.179975076112896e-05,
      "learning_rate": 0.00018041337771194121,
      "loss": 46.0,
      "step": 272
    },
    {
      "epoch": 0.00549533500407621,
      "grad_norm": 5.2844952733721584e-05,
      "learning_rate": 0.0001802687078107702,
      "loss": 46.0,
      "step": 273
    },
    {
      "epoch": 0.005515464436325573,
      "grad_norm": 2.9436003387672827e-05,
      "learning_rate": 0.0001801235640510138,
      "loss": 46.0,
      "step": 274
    },
    {
      "epoch": 0.005535593868574937,
      "grad_norm": 0.00010626760922605172,
      "learning_rate": 0.0001799779472895142,
      "loss": 46.0,
      "step": 275
    },
    {
      "epoch": 0.005555723300824301,
      "grad_norm": 7.006096711847931e-05,
      "learning_rate": 0.00017983185838590587,
      "loss": 46.0,
      "step": 276
    },
    {
      "epoch": 0.0055758527330736635,
      "grad_norm": 4.731449007522315e-05,
      "learning_rate": 0.0001796852982026107,
      "loss": 46.0,
      "step": 277
    },
    {
      "epoch": 0.005595982165323027,
      "grad_norm": 2.740498530329205e-05,
      "learning_rate": 0.00017953826760483255,
      "loss": 46.0,
      "step": 278
    },
    {
      "epoch": 0.005616111597572391,
      "grad_norm": 2.5784778699744493e-05,
      "learning_rate": 0.00017939076746055239,
      "loss": 46.0,
      "step": 279
    },
    {
      "epoch": 0.005636241029821754,
      "grad_norm": 3.0875242373440415e-05,
      "learning_rate": 0.00017924279864052313,
      "loss": 46.0,
      "step": 280
    },
    {
      "epoch": 0.0056563704620711175,
      "grad_norm": 2.555253195168916e-05,
      "learning_rate": 0.00017909436201826444,
      "loss": 46.0,
      "step": 281
    },
    {
      "epoch": 0.00567649989432048,
      "grad_norm": 3.1929652323015034e-05,
      "learning_rate": 0.00017894545847005764,
      "loss": 46.0,
      "step": 282
    },
    {
      "epoch": 0.005696629326569844,
      "grad_norm": 5.2126772061455995e-05,
      "learning_rate": 0.00017879608887494045,
      "loss": 46.0,
      "step": 283
    },
    {
      "epoch": 0.005716758758819208,
      "grad_norm": 2.7905460228794254e-05,
      "learning_rate": 0.00017864625411470193,
      "loss": 46.0,
      "step": 284
    },
    {
      "epoch": 0.005736888191068571,
      "grad_norm": 5.273651913739741e-05,
      "learning_rate": 0.00017849595507387714,
      "loss": 46.0,
      "step": 285
    },
    {
      "epoch": 0.005757017623317934,
      "grad_norm": 2.429057531116996e-05,
      "learning_rate": 0.00017834519263974197,
      "loss": 46.0,
      "step": 286
    },
    {
      "epoch": 0.005777147055567298,
      "grad_norm": 3.3973785320995376e-05,
      "learning_rate": 0.00017819396770230793,
      "loss": 46.0,
      "step": 287
    },
    {
      "epoch": 0.005797276487816661,
      "grad_norm": 3.730989556061104e-05,
      "learning_rate": 0.0001780422811543169,
      "loss": 46.0,
      "step": 288
    },
    {
      "epoch": 0.0058174059200660246,
      "grad_norm": 5.928779864916578e-05,
      "learning_rate": 0.00017789013389123582,
      "loss": 46.0,
      "step": 289
    },
    {
      "epoch": 0.005837535352315388,
      "grad_norm": 3.284361446276307e-05,
      "learning_rate": 0.00017773752681125133,
      "loss": 46.0,
      "step": 290
    },
    {
      "epoch": 0.005857664784564751,
      "grad_norm": 2.5975041353376582e-05,
      "learning_rate": 0.00017758446081526472,
      "loss": 46.0,
      "step": 291
    },
    {
      "epoch": 0.005877794216814115,
      "grad_norm": 4.9675658374326304e-05,
      "learning_rate": 0.00017743093680688628,
      "loss": 46.0,
      "step": 292
    },
    {
      "epoch": 0.0058979236490634785,
      "grad_norm": 3.443100649747066e-05,
      "learning_rate": 0.00017727695569243025,
      "loss": 46.0,
      "step": 293
    },
    {
      "epoch": 0.005918053081312841,
      "grad_norm": 4.2306735849706456e-05,
      "learning_rate": 0.00017712251838090929,
      "loss": 46.0,
      "step": 294
    },
    {
      "epoch": 0.005938182513562205,
      "grad_norm": 5.587004852714017e-05,
      "learning_rate": 0.00017696762578402918,
      "loss": 46.0,
      "step": 295
    },
    {
      "epoch": 0.005958311945811569,
      "grad_norm": 4.021718632429838e-05,
      "learning_rate": 0.0001768122788161835,
      "loss": 46.0,
      "step": 296
    },
    {
      "epoch": 0.005978441378060932,
      "grad_norm": 3.435139296925627e-05,
      "learning_rate": 0.00017665647839444808,
      "loss": 46.0,
      "step": 297
    },
    {
      "epoch": 0.005998570810310295,
      "grad_norm": 4.693563096225262e-05,
      "learning_rate": 0.0001765002254385757,
      "loss": 46.0,
      "step": 298
    },
    {
      "epoch": 0.006018700242559658,
      "grad_norm": 3.511687464197166e-05,
      "learning_rate": 0.0001763435208709906,
      "loss": 46.0,
      "step": 299
    },
    {
      "epoch": 0.006038829674809022,
      "grad_norm": 5.281609992380254e-05,
      "learning_rate": 0.00017618636561678316,
      "loss": 46.0,
      "step": 300
    },
    {
      "epoch": 0.006058959107058386,
      "grad_norm": 6.96783245075494e-05,
      "learning_rate": 0.0001760287606037043,
      "loss": 46.0,
      "step": 301
    },
    {
      "epoch": 0.0060790885393077485,
      "grad_norm": 3.3282187359873205e-05,
      "learning_rate": 0.00017587070676215993,
      "loss": 46.0,
      "step": 302
    },
    {
      "epoch": 0.006099217971557112,
      "grad_norm": 7.593463669763878e-05,
      "learning_rate": 0.0001757122050252058,
      "loss": 46.0,
      "step": 303
    },
    {
      "epoch": 0.006119347403806476,
      "grad_norm": 6.294970808085054e-05,
      "learning_rate": 0.0001755532563285416,
      "loss": 46.0,
      "step": 304
    },
    {
      "epoch": 0.006139476836055839,
      "grad_norm": 3.691632446134463e-05,
      "learning_rate": 0.0001753938616105056,
      "loss": 46.0,
      "step": 305
    },
    {
      "epoch": 0.0061596062683052025,
      "grad_norm": 4.616468140739016e-05,
      "learning_rate": 0.0001752340218120693,
      "loss": 46.0,
      "step": 306
    },
    {
      "epoch": 0.006179735700554566,
      "grad_norm": 2.737195791269187e-05,
      "learning_rate": 0.00017507373787683142,
      "loss": 46.0,
      "step": 307
    },
    {
      "epoch": 0.006199865132803929,
      "grad_norm": 6.505291094072163e-05,
      "learning_rate": 0.00017491301075101278,
      "loss": 46.0,
      "step": 308
    },
    {
      "epoch": 0.006219994565053293,
      "grad_norm": 5.131972284289077e-05,
      "learning_rate": 0.0001747518413834505,
      "loss": 46.0,
      "step": 309
    },
    {
      "epoch": 0.0062401239973026565,
      "grad_norm": 4.8223384510492906e-05,
      "learning_rate": 0.0001745902307255924,
      "loss": 46.0,
      "step": 310
    },
    {
      "epoch": 0.006260253429552019,
      "grad_norm": 3.8179550756467506e-05,
      "learning_rate": 0.00017442817973149145,
      "loss": 46.0,
      "step": 311
    },
    {
      "epoch": 0.006280382861801383,
      "grad_norm": 7.28157683624886e-05,
      "learning_rate": 0.0001742656893578001,
      "loss": 46.0,
      "step": 312
    },
    {
      "epoch": 0.006300512294050747,
      "grad_norm": 4.902153159491718e-05,
      "learning_rate": 0.00017410276056376456,
      "loss": 46.0,
      "step": 313
    },
    {
      "epoch": 0.00632064172630011,
      "grad_norm": 6.659854261670262e-05,
      "learning_rate": 0.00017393939431121933,
      "loss": 46.0,
      "step": 314
    },
    {
      "epoch": 0.006340771158549473,
      "grad_norm": 5.896111542824656e-05,
      "learning_rate": 0.00017377559156458132,
      "loss": 46.0,
      "step": 315
    },
    {
      "epoch": 0.006360900590798836,
      "grad_norm": 3.361068957019597e-05,
      "learning_rate": 0.00017361135329084428,
      "loss": 46.0,
      "step": 316
    },
    {
      "epoch": 0.0063810300230482,
      "grad_norm": 8.01550195319578e-05,
      "learning_rate": 0.00017344668045957305,
      "loss": 46.0,
      "step": 317
    },
    {
      "epoch": 0.0064011594552975636,
      "grad_norm": 7.291202200576663e-05,
      "learning_rate": 0.0001732815740428978,
      "loss": 46.0,
      "step": 318
    },
    {
      "epoch": 0.006421288887546926,
      "grad_norm": 4.988636646885425e-05,
      "learning_rate": 0.00017311603501550838,
      "loss": 46.0,
      "step": 319
    },
    {
      "epoch": 0.00644141831979629,
      "grad_norm": 4.8562131269136444e-05,
      "learning_rate": 0.00017295006435464848,
      "loss": 46.0,
      "step": 320
    },
    {
      "epoch": 0.006461547752045654,
      "grad_norm": 3.899990770150907e-05,
      "learning_rate": 0.00017278366304010993,
      "loss": 46.0,
      "step": 321
    },
    {
      "epoch": 0.006481677184295017,
      "grad_norm": 8.76895574037917e-05,
      "learning_rate": 0.00017261683205422687,
      "loss": 46.0,
      "step": 322
    },
    {
      "epoch": 0.00650180661654438,
      "grad_norm": 6.916802522027865e-05,
      "learning_rate": 0.00017244957238186993,
      "loss": 46.0,
      "step": 323
    },
    {
      "epoch": 0.006521936048793744,
      "grad_norm": 7.918164919828996e-05,
      "learning_rate": 0.00017228188501044043,
      "loss": 46.0,
      "step": 324
    },
    {
      "epoch": 0.006542065481043107,
      "grad_norm": 0.00010430561087559909,
      "learning_rate": 0.00017211377092986476,
      "loss": 46.0,
      "step": 325
    },
    {
      "epoch": 0.006562194913292471,
      "grad_norm": 3.571771958377212e-05,
      "learning_rate": 0.00017194523113258804,
      "loss": 46.0,
      "step": 326
    },
    {
      "epoch": 0.006562194913292471,
      "eval_loss": 11.5,
      "eval_runtime": 125.9586,
      "eval_samples_per_second": 166.07,
      "eval_steps_per_second": 83.035,
      "step": 326
    },
    {
      "epoch": 0.006582324345541834,
      "grad_norm": 7.556305354228243e-05,
      "learning_rate": 0.00017177626661356884,
      "loss": 46.0,
      "step": 327
    },
    {
      "epoch": 0.006602453777791197,
      "grad_norm": 7.451939745806158e-05,
      "learning_rate": 0.0001716068783702729,
      "loss": 46.0,
      "step": 328
    },
    {
      "epoch": 0.006622583210040561,
      "grad_norm": 9.252296149497852e-05,
      "learning_rate": 0.00017143706740266733,
      "loss": 46.0,
      "step": 329
    },
    {
      "epoch": 0.006642712642289925,
      "grad_norm": 7.886350795160979e-05,
      "learning_rate": 0.00017126683471321494,
      "loss": 46.0,
      "step": 330
    },
    {
      "epoch": 0.0066628420745392875,
      "grad_norm": 7.060460484353825e-05,
      "learning_rate": 0.00017109618130686793,
      "loss": 46.0,
      "step": 331
    },
    {
      "epoch": 0.006682971506788651,
      "grad_norm": 9.136456355918199e-05,
      "learning_rate": 0.00017092510819106228,
      "loss": 46.0,
      "step": 332
    },
    {
      "epoch": 0.006703100939038014,
      "grad_norm": 0.00014541424752678722,
      "learning_rate": 0.00017075361637571164,
      "loss": 46.0,
      "step": 333
    },
    {
      "epoch": 0.006723230371287378,
      "grad_norm": 5.236260767560452e-05,
      "learning_rate": 0.00017058170687320144,
      "loss": 46.0,
      "step": 334
    },
    {
      "epoch": 0.0067433598035367415,
      "grad_norm": 3.249632572988048e-05,
      "learning_rate": 0.00017040938069838284,
      "loss": 46.0,
      "step": 335
    },
    {
      "epoch": 0.006763489235786104,
      "grad_norm": 0.00012241276272106916,
      "learning_rate": 0.00017023663886856681,
      "loss": 46.0,
      "step": 336
    },
    {
      "epoch": 0.006783618668035468,
      "grad_norm": 7.044512312859297e-05,
      "learning_rate": 0.0001700634824035182,
      "loss": 46.0,
      "step": 337
    },
    {
      "epoch": 0.006803748100284832,
      "grad_norm": 3.4949163818964735e-05,
      "learning_rate": 0.00016988991232544943,
      "loss": 46.0,
      "step": 338
    },
    {
      "epoch": 0.006823877532534195,
      "grad_norm": 5.8312176406616345e-05,
      "learning_rate": 0.00016971592965901472,
      "loss": 46.0,
      "step": 339
    },
    {
      "epoch": 0.006844006964783558,
      "grad_norm": 6.132174894446507e-05,
      "learning_rate": 0.00016954153543130405,
      "loss": 46.0,
      "step": 340
    },
    {
      "epoch": 0.006864136397032922,
      "grad_norm": 7.451802957803011e-05,
      "learning_rate": 0.00016936673067183695,
      "loss": 46.0,
      "step": 341
    },
    {
      "epoch": 0.006884265829282285,
      "grad_norm": 4.202104901196435e-05,
      "learning_rate": 0.00016919151641255642,
      "loss": 46.0,
      "step": 342
    },
    {
      "epoch": 0.006904395261531649,
      "grad_norm": 5.8602174249244854e-05,
      "learning_rate": 0.00016901589368782303,
      "loss": 46.0,
      "step": 343
    },
    {
      "epoch": 0.006924524693781012,
      "grad_norm": 6.12097283010371e-05,
      "learning_rate": 0.00016883986353440856,
      "loss": 46.0,
      "step": 344
    },
    {
      "epoch": 0.006944654126030375,
      "grad_norm": 7.694535452174023e-05,
      "learning_rate": 0.0001686634269914901,
      "loss": 46.0,
      "step": 345
    },
    {
      "epoch": 0.006964783558279739,
      "grad_norm": 4.796484427060932e-05,
      "learning_rate": 0.00016848658510064377,
      "loss": 46.0,
      "step": 346
    },
    {
      "epoch": 0.0069849129905291026,
      "grad_norm": 3.562847996363416e-05,
      "learning_rate": 0.00016830933890583865,
      "loss": 46.0,
      "step": 347
    },
    {
      "epoch": 0.007005042422778465,
      "grad_norm": 5.831445741932839e-05,
      "learning_rate": 0.00016813168945343062,
      "loss": 46.0,
      "step": 348
    },
    {
      "epoch": 0.007025171855027829,
      "grad_norm": 5.701630288967863e-05,
      "learning_rate": 0.000167953637792156,
      "loss": 46.0,
      "step": 349
    },
    {
      "epoch": 0.007045301287277192,
      "grad_norm": 6.599428888875991e-05,
      "learning_rate": 0.00016777518497312576,
      "loss": 46.0,
      "step": 350
    },
    {
      "epoch": 0.007065430719526556,
      "grad_norm": 7.63636635383591e-05,
      "learning_rate": 0.00016759633204981885,
      "loss": 46.0,
      "step": 351
    },
    {
      "epoch": 0.007085560151775919,
      "grad_norm": 5.485086148837581e-05,
      "learning_rate": 0.00016741708007807625,
      "loss": 46.0,
      "step": 352
    },
    {
      "epoch": 0.007105689584025282,
      "grad_norm": 8.1733385741245e-05,
      "learning_rate": 0.0001672374301160948,
      "loss": 46.0,
      "step": 353
    },
    {
      "epoch": 0.007125819016274646,
      "grad_norm": 7.260946586029604e-05,
      "learning_rate": 0.00016705738322442067,
      "loss": 46.0,
      "step": 354
    },
    {
      "epoch": 0.00714594844852401,
      "grad_norm": 0.00012448117195162922,
      "learning_rate": 0.0001668769404659434,
      "loss": 46.0,
      "step": 355
    },
    {
      "epoch": 0.0071660778807733725,
      "grad_norm": 0.00018412985082250088,
      "learning_rate": 0.00016669610290588938,
      "loss": 46.0,
      "step": 356
    },
    {
      "epoch": 0.007186207313022736,
      "grad_norm": 0.00010343602480133995,
      "learning_rate": 0.00016651487161181575,
      "loss": 46.0,
      "step": 357
    },
    {
      "epoch": 0.0072063367452721,
      "grad_norm": 7.606980216223747e-05,
      "learning_rate": 0.00016633324765360404,
      "loss": 46.0,
      "step": 358
    },
    {
      "epoch": 0.007226466177521463,
      "grad_norm": 4.61212002846878e-05,
      "learning_rate": 0.00016615123210345374,
      "loss": 46.0,
      "step": 359
    },
    {
      "epoch": 0.0072465956097708265,
      "grad_norm": 3.344099968671799e-05,
      "learning_rate": 0.00016596882603587613,
      "loss": 46.0,
      "step": 360
    },
    {
      "epoch": 0.00726672504202019,
      "grad_norm": 6.0584614402614534e-05,
      "learning_rate": 0.00016578603052768787,
      "loss": 46.0,
      "step": 361
    },
    {
      "epoch": 0.007286854474269553,
      "grad_norm": 0.00010081299842568114,
      "learning_rate": 0.00016560284665800463,
      "loss": 46.0,
      "step": 362
    },
    {
      "epoch": 0.007306983906518917,
      "grad_norm": 0.00018100201850757003,
      "learning_rate": 0.00016541927550823475,
      "loss": 46.0,
      "step": 363
    },
    {
      "epoch": 0.0073271133387682805,
      "grad_norm": 6.115916767157614e-05,
      "learning_rate": 0.00016523531816207285,
      "loss": 46.0,
      "step": 364
    },
    {
      "epoch": 0.007347242771017643,
      "grad_norm": 0.0001454094162909314,
      "learning_rate": 0.00016505097570549334,
      "loss": 46.0,
      "step": 365
    },
    {
      "epoch": 0.007367372203267007,
      "grad_norm": 7.579627708764747e-05,
      "learning_rate": 0.00016486624922674423,
      "loss": 46.0,
      "step": 366
    },
    {
      "epoch": 0.00738750163551637,
      "grad_norm": 5.6147979194065556e-05,
      "learning_rate": 0.0001646811398163405,
      "loss": 46.0,
      "step": 367
    },
    {
      "epoch": 0.007407631067765734,
      "grad_norm": 2.967609543702565e-05,
      "learning_rate": 0.00016449564856705763,
      "loss": 46.0,
      "step": 368
    },
    {
      "epoch": 0.007427760500015097,
      "grad_norm": 4.6177185140550137e-05,
      "learning_rate": 0.00016430977657392543,
      "loss": 46.0,
      "step": 369
    },
    {
      "epoch": 0.00744788993226446,
      "grad_norm": 6.124021456344053e-05,
      "learning_rate": 0.00016412352493422132,
      "loss": 46.0,
      "step": 370
    },
    {
      "epoch": 0.007468019364513824,
      "grad_norm": 6.325580761767924e-05,
      "learning_rate": 0.00016393689474746383,
      "loss": 46.0,
      "step": 371
    },
    {
      "epoch": 0.007488148796763188,
      "grad_norm": 4.645885928766802e-05,
      "learning_rate": 0.00016374988711540634,
      "loss": 46.0,
      "step": 372
    },
    {
      "epoch": 0.00750827822901255,
      "grad_norm": 6.079759623389691e-05,
      "learning_rate": 0.00016356250314203044,
      "loss": 46.0,
      "step": 373
    },
    {
      "epoch": 0.007528407661261914,
      "grad_norm": 6.65177867631428e-05,
      "learning_rate": 0.00016337474393353932,
      "loss": 46.0,
      "step": 374
    },
    {
      "epoch": 0.007548537093511278,
      "grad_norm": 6.509361992357299e-05,
      "learning_rate": 0.00016318661059835135,
      "loss": 46.0,
      "step": 375
    },
    {
      "epoch": 0.007568666525760641,
      "grad_norm": 6.14354939898476e-05,
      "learning_rate": 0.0001629981042470936,
      "loss": 46.0,
      "step": 376
    },
    {
      "epoch": 0.007588795958010004,
      "grad_norm": 0.00011426959827076644,
      "learning_rate": 0.00016280922599259517,
      "loss": 46.0,
      "step": 377
    },
    {
      "epoch": 0.007608925390259368,
      "grad_norm": 5.5513559345854446e-05,
      "learning_rate": 0.00016261997694988064,
      "loss": 46.0,
      "step": 378
    },
    {
      "epoch": 0.007629054822508731,
      "grad_norm": 5.053329368820414e-05,
      "learning_rate": 0.00016243035823616347,
      "loss": 46.0,
      "step": 379
    },
    {
      "epoch": 0.007649184254758095,
      "grad_norm": 4.8892205086303875e-05,
      "learning_rate": 0.0001622403709708395,
      "loss": 46.0,
      "step": 380
    },
    {
      "epoch": 0.007669313687007458,
      "grad_norm": 6.474481051554903e-05,
      "learning_rate": 0.00016205001627548019,
      "loss": 46.0,
      "step": 381
    },
    {
      "epoch": 0.007689443119256821,
      "grad_norm": 6.014668906573206e-05,
      "learning_rate": 0.0001618592952738263,
      "loss": 46.0,
      "step": 382
    },
    {
      "epoch": 0.007709572551506185,
      "grad_norm": 7.018409087322652e-05,
      "learning_rate": 0.00016166820909178074,
      "loss": 46.0,
      "step": 383
    },
    {
      "epoch": 0.007729701983755548,
      "grad_norm": 0.00011436323984526098,
      "learning_rate": 0.00016147675885740242,
      "loss": 46.0,
      "step": 384
    },
    {
      "epoch": 0.0077498314160049115,
      "grad_norm": 7.127400749595836e-05,
      "learning_rate": 0.00016128494570089944,
      "loss": 46.0,
      "step": 385
    },
    {
      "epoch": 0.007769960848254275,
      "grad_norm": 8.55454636621289e-05,
      "learning_rate": 0.0001610927707546222,
      "loss": 46.0,
      "step": 386
    },
    {
      "epoch": 0.007790090280503638,
      "grad_norm": 6.892836972838268e-05,
      "learning_rate": 0.00016090023515305703,
      "loss": 46.0,
      "step": 387
    },
    {
      "epoch": 0.007810219712753002,
      "grad_norm": 0.0001008848994388245,
      "learning_rate": 0.0001607073400328193,
      "loss": 46.0,
      "step": 388
    },
    {
      "epoch": 0.007830349145002365,
      "grad_norm": 5.973876977805048e-05,
      "learning_rate": 0.00016051408653264675,
      "loss": 46.0,
      "step": 389
    },
    {
      "epoch": 0.007850478577251728,
      "grad_norm": 9.112283441936597e-05,
      "learning_rate": 0.00016032047579339287,
      "loss": 46.0,
      "step": 390
    },
    {
      "epoch": 0.007870608009501092,
      "grad_norm": 9.579762991052121e-05,
      "learning_rate": 0.00016012650895801995,
      "loss": 46.0,
      "step": 391
    },
    {
      "epoch": 0.007890737441750456,
      "grad_norm": 6.637965998379514e-05,
      "learning_rate": 0.00015993218717159254,
      "loss": 46.0,
      "step": 392
    },
    {
      "epoch": 0.00791086687399982,
      "grad_norm": 3.44514446624089e-05,
      "learning_rate": 0.00015973751158127058,
      "loss": 46.0,
      "step": 393
    },
    {
      "epoch": 0.007930996306249181,
      "grad_norm": 3.686073250719346e-05,
      "learning_rate": 0.00015954248333630266,
      "loss": 46.0,
      "step": 394
    },
    {
      "epoch": 0.007951125738498545,
      "grad_norm": 5.8047575294040143e-05,
      "learning_rate": 0.0001593471035880193,
      "loss": 46.0,
      "step": 395
    },
    {
      "epoch": 0.007971255170747909,
      "grad_norm": 0.0001278682757401839,
      "learning_rate": 0.00015915137348982596,
      "loss": 46.0,
      "step": 396
    },
    {
      "epoch": 0.007991384602997273,
      "grad_norm": 5.004106424166821e-05,
      "learning_rate": 0.00015895529419719643,
      "loss": 46.0,
      "step": 397
    },
    {
      "epoch": 0.008011514035246636,
      "grad_norm": 0.00018534505215939134,
      "learning_rate": 0.00015875886686766597,
      "loss": 46.0,
      "step": 398
    },
    {
      "epoch": 0.008031643467496,
      "grad_norm": 7.75425141910091e-05,
      "learning_rate": 0.00015856209266082436,
      "loss": 46.0,
      "step": 399
    },
    {
      "epoch": 0.008051772899745362,
      "grad_norm": 0.00016450489056296647,
      "learning_rate": 0.0001583649727383092,
      "loss": 46.0,
      "step": 400
    },
    {
      "epoch": 0.008071902331994726,
      "grad_norm": 0.00011991400242550299,
      "learning_rate": 0.00015816750826379896,
      "loss": 46.0,
      "step": 401
    },
    {
      "epoch": 0.00809203176424409,
      "grad_norm": 7.743191963527352e-05,
      "learning_rate": 0.00015796970040300612,
      "loss": 46.0,
      "step": 402
    },
    {
      "epoch": 0.008112161196493453,
      "grad_norm": 5.860636883880943e-05,
      "learning_rate": 0.0001577715503236704,
      "loss": 46.0,
      "step": 403
    },
    {
      "epoch": 0.008132290628742817,
      "grad_norm": 6.259889778448269e-05,
      "learning_rate": 0.00015757305919555164,
      "loss": 46.0,
      "step": 404
    },
    {
      "epoch": 0.00815242006099218,
      "grad_norm": 0.0001673314836807549,
      "learning_rate": 0.00015737422819042313,
      "loss": 46.0,
      "step": 405
    },
    {
      "epoch": 0.008172549493241543,
      "grad_norm": 0.00013351505913306028,
      "learning_rate": 0.00015717505848206455,
      "loss": 46.0,
      "step": 406
    },
    {
      "epoch": 0.008192678925490906,
      "grad_norm": 5.856342249899171e-05,
      "learning_rate": 0.00015697555124625508,
      "loss": 46.0,
      "step": 407
    },
    {
      "epoch": 0.00821280835774027,
      "grad_norm": 8.595505642006174e-05,
      "learning_rate": 0.00015677570766076652,
      "loss": 46.0,
      "step": 408
    },
    {
      "epoch": 0.008232937789989634,
      "grad_norm": 8.992596121970564e-05,
      "learning_rate": 0.0001565755289053562,
      "loss": 46.0,
      "step": 409
    },
    {
      "epoch": 0.008253067222238997,
      "grad_norm": 0.00011127449397463351,
      "learning_rate": 0.00015637501616176005,
      "loss": 46.0,
      "step": 410
    },
    {
      "epoch": 0.00827319665448836,
      "grad_norm": 7.977043424034491e-05,
      "learning_rate": 0.00015617417061368586,
      "loss": 46.0,
      "step": 411
    },
    {
      "epoch": 0.008293326086737723,
      "grad_norm": 7.366786303464323e-05,
      "learning_rate": 0.0001559729934468059,
      "loss": 46.0,
      "step": 412
    },
    {
      "epoch": 0.008313455518987087,
      "grad_norm": 6.224372191354632e-05,
      "learning_rate": 0.0001557714858487502,
      "loss": 46.0,
      "step": 413
    },
    {
      "epoch": 0.00833358495123645,
      "grad_norm": 0.00012246175901964307,
      "learning_rate": 0.00015556964900909952,
      "loss": 46.0,
      "step": 414
    },
    {
      "epoch": 0.008353714383485814,
      "grad_norm": 9.144249634118751e-05,
      "learning_rate": 0.00015536748411937814,
      "loss": 46.0,
      "step": 415
    },
    {
      "epoch": 0.008373843815735178,
      "grad_norm": 4.544908370007761e-05,
      "learning_rate": 0.00015516499237304703,
      "loss": 46.0,
      "step": 416
    },
    {
      "epoch": 0.00839397324798454,
      "grad_norm": 7.032406574580818e-05,
      "learning_rate": 0.00015496217496549673,
      "loss": 46.0,
      "step": 417
    },
    {
      "epoch": 0.008414102680233904,
      "grad_norm": 0.00028849008958786726,
      "learning_rate": 0.00015475903309404023,
      "loss": 46.0,
      "step": 418
    },
    {
      "epoch": 0.008434232112483267,
      "grad_norm": 7.347687642322853e-05,
      "learning_rate": 0.00015455556795790603,
      "loss": 46.0,
      "step": 419
    },
    {
      "epoch": 0.008454361544732631,
      "grad_norm": 0.0001396266306983307,
      "learning_rate": 0.000154351780758231,
      "loss": 46.0,
      "step": 420
    },
    {
      "epoch": 0.008474490976981995,
      "grad_norm": 7.422738417517394e-05,
      "learning_rate": 0.00015414767269805317,
      "loss": 46.0,
      "step": 421
    },
    {
      "epoch": 0.008494620409231358,
      "grad_norm": 0.00010193362686550245,
      "learning_rate": 0.00015394324498230487,
      "loss": 46.0,
      "step": 422
    },
    {
      "epoch": 0.00851474984148072,
      "grad_norm": 3.995158476755023e-05,
      "learning_rate": 0.00015373849881780542,
      "loss": 46.0,
      "step": 423
    },
    {
      "epoch": 0.008534879273730084,
      "grad_norm": 0.00010771408415166661,
      "learning_rate": 0.00015353343541325406,
      "loss": 46.0,
      "step": 424
    },
    {
      "epoch": 0.008555008705979448,
      "grad_norm": 9.801267879083753e-05,
      "learning_rate": 0.00015332805597922285,
      "loss": 46.0,
      "step": 425
    },
    {
      "epoch": 0.008575138138228812,
      "grad_norm": 5.4972933867247775e-05,
      "learning_rate": 0.00015312236172814955,
      "loss": 46.0,
      "step": 426
    },
    {
      "epoch": 0.008595267570478175,
      "grad_norm": 0.00011087340681115165,
      "learning_rate": 0.0001529163538743303,
      "loss": 46.0,
      "step": 427
    },
    {
      "epoch": 0.008615397002727537,
      "grad_norm": 9.032541129272431e-05,
      "learning_rate": 0.00015271003363391268,
      "loss": 46.0,
      "step": 428
    },
    {
      "epoch": 0.008635526434976901,
      "grad_norm": 9.607595711713657e-05,
      "learning_rate": 0.00015250340222488826,
      "loss": 46.0,
      "step": 429
    },
    {
      "epoch": 0.008655655867226265,
      "grad_norm": 0.00015448669728357345,
      "learning_rate": 0.00015229646086708574,
      "loss": 46.0,
      "step": 430
    },
    {
      "epoch": 0.008675785299475628,
      "grad_norm": 4.9507445510244e-05,
      "learning_rate": 0.0001520892107821635,
      "loss": 46.0,
      "step": 431
    },
    {
      "epoch": 0.008695914731724992,
      "grad_norm": 0.0001763905311236158,
      "learning_rate": 0.0001518816531936024,
      "loss": 46.0,
      "step": 432
    },
    {
      "epoch": 0.008716044163974356,
      "grad_norm": 0.0001318747381446883,
      "learning_rate": 0.0001516737893266987,
      "loss": 46.0,
      "step": 433
    },
    {
      "epoch": 0.008736173596223718,
      "grad_norm": 0.00010619282693369314,
      "learning_rate": 0.00015146562040855676,
      "loss": 46.0,
      "step": 434
    },
    {
      "epoch": 0.008756303028473082,
      "grad_norm": 8.555618114769459e-05,
      "learning_rate": 0.00015125714766808167,
      "loss": 46.0,
      "step": 435
    },
    {
      "epoch": 0.008776432460722445,
      "grad_norm": 0.00016039168986026198,
      "learning_rate": 0.00015104837233597223,
      "loss": 46.0,
      "step": 436
    },
    {
      "epoch": 0.008796561892971809,
      "grad_norm": 0.00014670997916255146,
      "learning_rate": 0.00015083929564471343,
      "loss": 46.0,
      "step": 437
    },
    {
      "epoch": 0.008816691325221173,
      "grad_norm": 6.258589564822614e-05,
      "learning_rate": 0.00015062991882856946,
      "loss": 46.0,
      "step": 438
    },
    {
      "epoch": 0.008836820757470536,
      "grad_norm": 7.728593482170254e-05,
      "learning_rate": 0.00015042024312357616,
      "loss": 46.0,
      "step": 439
    },
    {
      "epoch": 0.008856950189719898,
      "grad_norm": 9.296549978898838e-05,
      "learning_rate": 0.00015021026976753385,
      "loss": 46.0,
      "step": 440
    },
    {
      "epoch": 0.008877079621969262,
      "grad_norm": 9.728507575346157e-05,
      "learning_rate": 0.00015000000000000001,
      "loss": 46.0,
      "step": 441
    },
    {
      "epoch": 0.008897209054218626,
      "grad_norm": 0.00014637406275141984,
      "learning_rate": 0.000149789435062282,
      "loss": 46.0,
      "step": 442
    },
    {
      "epoch": 0.00891733848646799,
      "grad_norm": 5.648445221595466e-05,
      "learning_rate": 0.00014957857619742957,
      "loss": 46.0,
      "step": 443
    },
    {
      "epoch": 0.008937467918717353,
      "grad_norm": 0.00013621490506920964,
      "learning_rate": 0.0001493674246502278,
      "loss": 46.0,
      "step": 444
    },
    {
      "epoch": 0.008957597350966715,
      "grad_norm": 6.250360456760973e-05,
      "learning_rate": 0.00014915598166718945,
      "loss": 46.0,
      "step": 445
    },
    {
      "epoch": 0.008977726783216079,
      "grad_norm": 0.00017833786841947585,
      "learning_rate": 0.00014894424849654783,
      "loss": 46.0,
      "step": 446
    },
    {
      "epoch": 0.008997856215465443,
      "grad_norm": 6.154891161713749e-05,
      "learning_rate": 0.00014873222638824937,
      "loss": 46.0,
      "step": 447
    },
    {
      "epoch": 0.009017985647714806,
      "grad_norm": 0.0001515242620371282,
      "learning_rate": 0.0001485199165939461,
      "loss": 46.0,
      "step": 448
    },
    {
      "epoch": 0.00903811507996417,
      "grad_norm": 9.545722423354164e-05,
      "learning_rate": 0.00014830732036698845,
      "loss": 46.0,
      "step": 449
    },
    {
      "epoch": 0.009058244512213534,
      "grad_norm": 5.560795034398325e-05,
      "learning_rate": 0.0001480944389624178,
      "loss": 46.0,
      "step": 450
    },
    {
      "epoch": 0.009078373944462896,
      "grad_norm": 0.000126198137877509,
      "learning_rate": 0.00014788127363695897,
      "loss": 46.0,
      "step": 451
    },
    {
      "epoch": 0.00909850337671226,
      "grad_norm": 9.512303222436458e-05,
      "learning_rate": 0.00014766782564901298,
      "loss": 46.0,
      "step": 452
    },
    {
      "epoch": 0.009118632808961623,
      "grad_norm": 0.0001474691671319306,
      "learning_rate": 0.00014745409625864942,
      "loss": 46.0,
      "step": 453
    },
    {
      "epoch": 0.009138762241210987,
      "grad_norm": 7.026526873232797e-05,
      "learning_rate": 0.0001472400867275992,
      "loss": 46.0,
      "step": 454
    },
    {
      "epoch": 0.00915889167346035,
      "grad_norm": 0.00010350546654080972,
      "learning_rate": 0.00014702579831924698,
      "loss": 46.0,
      "step": 455
    },
    {
      "epoch": 0.009179021105709714,
      "grad_norm": 6.921013118699193e-05,
      "learning_rate": 0.00014681123229862367,
      "loss": 46.0,
      "step": 456
    },
    {
      "epoch": 0.009199150537959076,
      "grad_norm": 0.00011726860975613818,
      "learning_rate": 0.0001465963899323992,
      "loss": 46.0,
      "step": 457
    },
    {
      "epoch": 0.00921927997020844,
      "grad_norm": 8.906117000151426e-05,
      "learning_rate": 0.00014638127248887473,
      "loss": 46.0,
      "step": 458
    },
    {
      "epoch": 0.009239409402457804,
      "grad_norm": 0.00013452931307256222,
      "learning_rate": 0.00014616588123797535,
      "loss": 46.0,
      "step": 459
    },
    {
      "epoch": 0.009259538834707167,
      "grad_norm": 9.775407670531422e-05,
      "learning_rate": 0.0001459502174512426,
      "loss": 46.0,
      "step": 460
    },
    {
      "epoch": 0.009279668266956531,
      "grad_norm": 8.385746332351118e-05,
      "learning_rate": 0.0001457342824018269,
      "loss": 46.0,
      "step": 461
    },
    {
      "epoch": 0.009299797699205893,
      "grad_norm": 5.9415571740828454e-05,
      "learning_rate": 0.00014551807736447995,
      "loss": 46.0,
      "step": 462
    },
    {
      "epoch": 0.009319927131455257,
      "grad_norm": 0.00011705618089763448,
      "learning_rate": 0.0001453016036155474,
      "loss": 46.0,
      "step": 463
    },
    {
      "epoch": 0.00934005656370462,
      "grad_norm": 8.00532943685539e-05,
      "learning_rate": 0.00014508486243296122,
      "loss": 46.0,
      "step": 464
    },
    {
      "epoch": 0.009360185995953984,
      "grad_norm": 0.00010752366506494582,
      "learning_rate": 0.00014486785509623202,
      "loss": 46.0,
      "step": 465
    },
    {
      "epoch": 0.009380315428203348,
      "grad_norm": 0.00011672089749481529,
      "learning_rate": 0.00014465058288644174,
      "loss": 46.0,
      "step": 466
    },
    {
      "epoch": 0.009400444860452712,
      "grad_norm": 0.0001032515792758204,
      "learning_rate": 0.00014443304708623597,
      "loss": 46.0,
      "step": 467
    },
    {
      "epoch": 0.009420574292702074,
      "grad_norm": 7.637974340468645e-05,
      "learning_rate": 0.00014421524897981637,
      "loss": 46.0,
      "step": 468
    },
    {
      "epoch": 0.009440703724951437,
      "grad_norm": 0.00010200442193308845,
      "learning_rate": 0.00014399718985293297,
      "loss": 46.0,
      "step": 469
    },
    {
      "epoch": 0.009460833157200801,
      "grad_norm": 0.00010882026253966615,
      "learning_rate": 0.00014377887099287698,
      "loss": 46.0,
      "step": 470
    },
    {
      "epoch": 0.009480962589450165,
      "grad_norm": 0.00022409467783290893,
      "learning_rate": 0.00014356029368847264,
      "loss": 46.0,
      "step": 471
    },
    {
      "epoch": 0.009501092021699529,
      "grad_norm": 0.00014206068590283394,
      "learning_rate": 0.0001433414592300701,
      "loss": 46.0,
      "step": 472
    },
    {
      "epoch": 0.009521221453948892,
      "grad_norm": 5.281836274662055e-05,
      "learning_rate": 0.00014312236890953744,
      "loss": 46.0,
      "step": 473
    },
    {
      "epoch": 0.009541350886198254,
      "grad_norm": 0.00011217795690754429,
      "learning_rate": 0.00014290302402025334,
      "loss": 46.0,
      "step": 474
    },
    {
      "epoch": 0.009561480318447618,
      "grad_norm": 0.00011971918138442561,
      "learning_rate": 0.00014268342585709913,
      "loss": 46.0,
      "step": 475
    },
    {
      "epoch": 0.009581609750696982,
      "grad_norm": 0.0002392362366663292,
      "learning_rate": 0.00014246357571645152,
      "loss": 46.0,
      "step": 476
    },
    {
      "epoch": 0.009601739182946345,
      "grad_norm": 7.42652773624286e-05,
      "learning_rate": 0.00014224347489617456,
      "loss": 46.0,
      "step": 477
    },
    {
      "epoch": 0.009621868615195709,
      "grad_norm": 0.00019455078290775418,
      "learning_rate": 0.00014202312469561228,
      "loss": 46.0,
      "step": 478
    },
    {
      "epoch": 0.009641998047445071,
      "grad_norm": 0.00014721274783369154,
      "learning_rate": 0.00014180252641558084,
      "loss": 46.0,
      "step": 479
    },
    {
      "epoch": 0.009662127479694435,
      "grad_norm": 0.00016650428005959839,
      "learning_rate": 0.00014158168135836095,
      "loss": 46.0,
      "step": 480
    },
    {
      "epoch": 0.009682256911943798,
      "grad_norm": 0.0002557269181124866,
      "learning_rate": 0.00014136059082769017,
      "loss": 46.0,
      "step": 481
    },
    {
      "epoch": 0.009702386344193162,
      "grad_norm": 0.00013280926214065403,
      "learning_rate": 0.00014113925612875512,
      "loss": 46.0,
      "step": 482
    },
    {
      "epoch": 0.009722515776442526,
      "grad_norm": 0.00014411240408662707,
      "learning_rate": 0.00014091767856818388,
      "loss": 46.0,
      "step": 483
    },
    {
      "epoch": 0.00974264520869189,
      "grad_norm": 0.00010560146620264277,
      "learning_rate": 0.00014069585945403822,
      "loss": 46.0,
      "step": 484
    },
    {
      "epoch": 0.009762774640941252,
      "grad_norm": 0.00022722291760146618,
      "learning_rate": 0.00014047380009580594,
      "loss": 46.0,
      "step": 485
    },
    {
      "epoch": 0.009782904073190615,
      "grad_norm": 0.00011408658610889688,
      "learning_rate": 0.00014025150180439308,
      "loss": 46.0,
      "step": 486
    },
    {
      "epoch": 0.009803033505439979,
      "grad_norm": 5.5666998378001153e-05,
      "learning_rate": 0.00014002896589211618,
      "loss": 46.0,
      "step": 487
    },
    {
      "epoch": 0.009823162937689343,
      "grad_norm": 6.966435466893017e-05,
      "learning_rate": 0.00013980619367269455,
      "loss": 46.0,
      "step": 488
    },
    {
      "epoch": 0.009843292369938706,
      "grad_norm": 0.00026750058168545365,
      "learning_rate": 0.00013958318646124259,
      "loss": 46.0,
      "step": 489
    },
    {
      "epoch": 0.00986342180218807,
      "grad_norm": 7.481938519049436e-05,
      "learning_rate": 0.0001393599455742618,
      "loss": 46.0,
      "step": 490
    },
    {
      "epoch": 0.009883551234437432,
      "grad_norm": 8.790163701632991e-05,
      "learning_rate": 0.00013913647232963332,
      "loss": 46.0,
      "step": 491
    },
    {
      "epoch": 0.009903680666686796,
      "grad_norm": 0.00020705680071841925,
      "learning_rate": 0.00013891276804660991,
      "loss": 46.0,
      "step": 492
    },
    {
      "epoch": 0.00992381009893616,
      "grad_norm": 8.553229417884722e-05,
      "learning_rate": 0.00013868883404580823,
      "loss": 46.0,
      "step": 493
    },
    {
      "epoch": 0.009943939531185523,
      "grad_norm": 7.284261664608493e-05,
      "learning_rate": 0.00013846467164920116,
      "loss": 46.0,
      "step": 494
    },
    {
      "epoch": 0.009964068963434887,
      "grad_norm": 0.00010190778266405687,
      "learning_rate": 0.00013824028218010977,
      "loss": 46.0,
      "step": 495
    },
    {
      "epoch": 0.009984198395684249,
      "grad_norm": 0.00012867138138972223,
      "learning_rate": 0.00013801566696319562,
      "loss": 46.0,
      "step": 496
    },
    {
      "epoch": 0.010004327827933613,
      "grad_norm": 0.00010176874639000744,
      "learning_rate": 0.0001377908273244531,
      "loss": 46.0,
      "step": 497
    },
    {
      "epoch": 0.010024457260182976,
      "grad_norm": 0.00021709667635150254,
      "learning_rate": 0.0001375657645912014,
      "loss": 46.0,
      "step": 498
    },
    {
      "epoch": 0.01004458669243234,
      "grad_norm": 0.0002606755297165364,
      "learning_rate": 0.0001373404800920765,
      "loss": 46.0,
      "step": 499
    },
    {
      "epoch": 0.010064716124681704,
      "grad_norm": 0.00011558020196389407,
      "learning_rate": 0.00013711497515702398,
      "loss": 46.0,
      "step": 500
    },
    {
      "epoch": 0.010084845556931068,
      "grad_norm": 0.0002265808725496754,
      "learning_rate": 0.0001368892511172903,
      "loss": 46.0,
      "step": 501
    },
    {
      "epoch": 0.01010497498918043,
      "grad_norm": 0.00011339668708387762,
      "learning_rate": 0.0001366633093054157,
      "loss": 46.0,
      "step": 502
    },
    {
      "epoch": 0.010125104421429793,
      "grad_norm": 0.00012689345749095082,
      "learning_rate": 0.00013643715105522589,
      "loss": 46.0,
      "step": 503
    },
    {
      "epoch": 0.010145233853679157,
      "grad_norm": 0.0001654831285122782,
      "learning_rate": 0.0001362107777018243,
      "loss": 46.0,
      "step": 504
    },
    {
      "epoch": 0.01016536328592852,
      "grad_norm": 0.00022711421479471028,
      "learning_rate": 0.0001359841905815842,
      "loss": 46.0,
      "step": 505
    },
    {
      "epoch": 0.010185492718177884,
      "grad_norm": 0.00016627443255856633,
      "learning_rate": 0.00013575739103214088,
      "loss": 46.0,
      "step": 506
    },
    {
      "epoch": 0.010205622150427248,
      "grad_norm": 0.00012627684918697923,
      "learning_rate": 0.0001355303803923836,
      "loss": 46.0,
      "step": 507
    },
    {
      "epoch": 0.01022575158267661,
      "grad_norm": 9.957009751815349e-05,
      "learning_rate": 0.00013530316000244782,
      "loss": 46.0,
      "step": 508
    },
    {
      "epoch": 0.010245881014925974,
      "grad_norm": 0.00010302881128154695,
      "learning_rate": 0.0001350757312037072,
      "loss": 46.0,
      "step": 509
    },
    {
      "epoch": 0.010266010447175337,
      "grad_norm": 7.863016071496531e-05,
      "learning_rate": 0.00013484809533876582,
      "loss": 46.0,
      "step": 510
    },
    {
      "epoch": 0.010286139879424701,
      "grad_norm": 0.00017418930656276643,
      "learning_rate": 0.00013462025375145,
      "loss": 46.0,
      "step": 511
    },
    {
      "epoch": 0.010306269311674065,
      "grad_norm": 0.0002265576331410557,
      "learning_rate": 0.00013439220778680067,
      "loss": 46.0,
      "step": 512
    },
    {
      "epoch": 0.010326398743923427,
      "grad_norm": 9.675358887761831e-05,
      "learning_rate": 0.00013416395879106515,
      "loss": 46.0,
      "step": 513
    },
    {
      "epoch": 0.01034652817617279,
      "grad_norm": 0.00034641881939023733,
      "learning_rate": 0.00013393550811168948,
      "loss": 46.0,
      "step": 514
    },
    {
      "epoch": 0.010366657608422154,
      "grad_norm": 0.00022542629449162632,
      "learning_rate": 0.00013370685709731015,
      "loss": 46.0,
      "step": 515
    },
    {
      "epoch": 0.010386787040671518,
      "grad_norm": 8.584894385421649e-05,
      "learning_rate": 0.00013347800709774652,
      "loss": 46.0,
      "step": 516
    },
    {
      "epoch": 0.010406916472920882,
      "grad_norm": 0.0001710738433757797,
      "learning_rate": 0.0001332489594639924,
      "loss": 46.0,
      "step": 517
    },
    {
      "epoch": 0.010427045905170245,
      "grad_norm": 0.00018284583347849548,
      "learning_rate": 0.00013301971554820853,
      "loss": 46.0,
      "step": 518
    },
    {
      "epoch": 0.010447175337419607,
      "grad_norm": 6.281906826188788e-05,
      "learning_rate": 0.00013279027670371426,
      "loss": 46.0,
      "step": 519
    },
    {
      "epoch": 0.010467304769668971,
      "grad_norm": 0.00013591159950010478,
      "learning_rate": 0.00013256064428497966,
      "loss": 46.0,
      "step": 520
    },
    {
      "epoch": 0.010487434201918335,
      "grad_norm": 0.00013636577932629734,
      "learning_rate": 0.00013233081964761766,
      "loss": 46.0,
      "step": 521
    },
    {
      "epoch": 0.010507563634167699,
      "grad_norm": 0.00017571232456248254,
      "learning_rate": 0.0001321008041483758,
      "loss": 46.0,
      "step": 522
    },
    {
      "epoch": 0.010527693066417062,
      "grad_norm": 6.699233199469745e-05,
      "learning_rate": 0.0001318705991451285,
      "loss": 46.0,
      "step": 523
    },
    {
      "epoch": 0.010547822498666426,
      "grad_norm": 0.00018198716861661524,
      "learning_rate": 0.00013164020599686882,
      "loss": 46.0,
      "step": 524
    },
    {
      "epoch": 0.010567951930915788,
      "grad_norm": 0.000168314523762092,
      "learning_rate": 0.00013140962606370048,
      "loss": 46.0,
      "step": 525
    },
    {
      "epoch": 0.010588081363165152,
      "grad_norm": 0.00014153076335787773,
      "learning_rate": 0.0001311788607068299,
      "loss": 46.0,
      "step": 526
    },
    {
      "epoch": 0.010608210795414515,
      "grad_norm": 0.00012689942377619445,
      "learning_rate": 0.00013094791128855814,
      "loss": 46.0,
      "step": 527
    },
    {
      "epoch": 0.010628340227663879,
      "grad_norm": 9.956786379916593e-05,
      "learning_rate": 0.0001307167791722729,
      "loss": 46.0,
      "step": 528
    },
    {
      "epoch": 0.010648469659913243,
      "grad_norm": 8.192278619389981e-05,
      "learning_rate": 0.00013048546572244036,
      "loss": 46.0,
      "step": 529
    },
    {
      "epoch": 0.010668599092162605,
      "grad_norm": 0.00021154977730475366,
      "learning_rate": 0.0001302539723045971,
      "loss": 46.0,
      "step": 530
    },
    {
      "epoch": 0.010688728524411968,
      "grad_norm": 0.00013896448945160955,
      "learning_rate": 0.00013002230028534234,
      "loss": 46.0,
      "step": 531
    },
    {
      "epoch": 0.010708857956661332,
      "grad_norm": 0.0001234956580447033,
      "learning_rate": 0.00012979045103232945,
      "loss": 46.0,
      "step": 532
    },
    {
      "epoch": 0.010728987388910696,
      "grad_norm": 0.0001562229444971308,
      "learning_rate": 0.00012955842591425818,
      "loss": 46.0,
      "step": 533
    },
    {
      "epoch": 0.01074911682116006,
      "grad_norm": 0.0003348892496433109,
      "learning_rate": 0.00012932622630086648,
      "loss": 46.0,
      "step": 534
    },
    {
      "epoch": 0.010769246253409423,
      "grad_norm": 8.87279020389542e-05,
      "learning_rate": 0.0001290938535629224,
      "loss": 46.0,
      "step": 535
    },
    {
      "epoch": 0.010789375685658785,
      "grad_norm": 8.013709157239646e-05,
      "learning_rate": 0.00012886130907221603,
      "loss": 46.0,
      "step": 536
    },
    {
      "epoch": 0.010809505117908149,
      "grad_norm": 0.00012092996621504426,
      "learning_rate": 0.00012862859420155134,
      "loss": 46.0,
      "step": 537
    },
    {
      "epoch": 0.010829634550157513,
      "grad_norm": 9.32335969991982e-05,
      "learning_rate": 0.00012839571032473814,
      "loss": 46.0,
      "step": 538
    },
    {
      "epoch": 0.010849763982406876,
      "grad_norm": 0.00016681026318110526,
      "learning_rate": 0.00012816265881658405,
      "loss": 46.0,
      "step": 539
    },
    {
      "epoch": 0.01086989341465624,
      "grad_norm": 0.00014514310169033706,
      "learning_rate": 0.00012792944105288612,
      "loss": 46.0,
      "step": 540
    },
    {
      "epoch": 0.010890022846905604,
      "grad_norm": 0.00012650150165427476,
      "learning_rate": 0.000127696058410423,
      "loss": 46.0,
      "step": 541
    },
    {
      "epoch": 0.010910152279154966,
      "grad_norm": 0.00029365395312197506,
      "learning_rate": 0.00012746251226694662,
      "loss": 46.0,
      "step": 542
    },
    {
      "epoch": 0.01093028171140433,
      "grad_norm": 0.00012223645171616226,
      "learning_rate": 0.00012722880400117413,
      "loss": 46.0,
      "step": 543
    },
    {
      "epoch": 0.010950411143653693,
      "grad_norm": 0.0004023347864858806,
      "learning_rate": 0.00012699493499277983,
      "loss": 46.0,
      "step": 544
    },
    {
      "epoch": 0.010970540575903057,
      "grad_norm": 0.00011891735630342737,
      "learning_rate": 0.00012676090662238682,
      "loss": 46.0,
      "step": 545
    },
    {
      "epoch": 0.01099067000815242,
      "grad_norm": 0.00016821158351376653,
      "learning_rate": 0.00012652672027155904,
      "loss": 46.0,
      "step": 546
    },
    {
      "epoch": 0.011010799440401783,
      "grad_norm": 7.64864671509713e-05,
      "learning_rate": 0.00012629237732279314,
      "loss": 46.0,
      "step": 547
    },
    {
      "epoch": 0.011030928872651146,
      "grad_norm": 0.00015364130376838148,
      "learning_rate": 0.0001260578791595101,
      "loss": 46.0,
      "step": 548
    },
    {
      "epoch": 0.01105105830490051,
      "grad_norm": 0.0001618131500435993,
      "learning_rate": 0.00012582322716604718,
      "loss": 46.0,
      "step": 549
    },
    {
      "epoch": 0.011071187737149874,
      "grad_norm": 0.0001929528807522729,
      "learning_rate": 0.0001255884227276499,
      "loss": 46.0,
      "step": 550
    },
    {
      "epoch": 0.011091317169399238,
      "grad_norm": 0.00011355496098985896,
      "learning_rate": 0.0001253534672304636,
      "loss": 46.0,
      "step": 551
    },
    {
      "epoch": 0.011111446601648601,
      "grad_norm": 0.00011806943803094327,
      "learning_rate": 0.00012511836206152545,
      "loss": 46.0,
      "step": 552
    },
    {
      "epoch": 0.011131576033897963,
      "grad_norm": 0.00016547176346648484,
      "learning_rate": 0.00012488310860875622,
      "loss": 46.0,
      "step": 553
    },
    {
      "epoch": 0.011151705466147327,
      "grad_norm": 0.00012969633098691702,
      "learning_rate": 0.0001246477082609519,
      "loss": 46.0,
      "step": 554
    },
    {
      "epoch": 0.01117183489839669,
      "grad_norm": 9.5839895948302e-05,
      "learning_rate": 0.00012441216240777585,
      "loss": 46.0,
      "step": 555
    },
    {
      "epoch": 0.011191964330646054,
      "grad_norm": 0.00026142006390728056,
      "learning_rate": 0.0001241764724397503,
      "loss": 46.0,
      "step": 556
    },
    {
      "epoch": 0.011212093762895418,
      "grad_norm": 5.916105510550551e-05,
      "learning_rate": 0.00012394063974824828,
      "loss": 46.0,
      "step": 557
    },
    {
      "epoch": 0.011232223195144782,
      "grad_norm": 0.00010269715858157724,
      "learning_rate": 0.00012370466572548538,
      "loss": 46.0,
      "step": 558
    },
    {
      "epoch": 0.011252352627394144,
      "grad_norm": 0.00017692089022602886,
      "learning_rate": 0.0001234685517645115,
      "loss": 46.0,
      "step": 559
    },
    {
      "epoch": 0.011272482059643507,
      "grad_norm": 0.00013197977386880666,
      "learning_rate": 0.00012323229925920273,
      "loss": 46.0,
      "step": 560
    },
    {
      "epoch": 0.011292611491892871,
      "grad_norm": 0.00019733706722036004,
      "learning_rate": 0.00012299590960425288,
      "loss": 46.0,
      "step": 561
    },
    {
      "epoch": 0.011312740924142235,
      "grad_norm": 0.0001352672406937927,
      "learning_rate": 0.00012275938419516552,
      "loss": 46.0,
      "step": 562
    },
    {
      "epoch": 0.011332870356391599,
      "grad_norm": 0.00016101048095151782,
      "learning_rate": 0.0001225227244282457,
      "loss": 46.0,
      "step": 563
    },
    {
      "epoch": 0.01135299978864096,
      "grad_norm": 0.0002455017529428005,
      "learning_rate": 0.00012228593170059151,
      "loss": 46.0,
      "step": 564
    },
    {
      "epoch": 0.011373129220890324,
      "grad_norm": 0.00036364022525958717,
      "learning_rate": 0.000122049007410086,
      "loss": 46.0,
      "step": 565
    },
    {
      "epoch": 0.011393258653139688,
      "grad_norm": 0.00016836596478242427,
      "learning_rate": 0.00012181195295538895,
      "loss": 46.0,
      "step": 566
    },
    {
      "epoch": 0.011413388085389052,
      "grad_norm": 0.00024714317987672985,
      "learning_rate": 0.00012157476973592842,
      "loss": 46.0,
      "step": 567
    },
    {
      "epoch": 0.011433517517638415,
      "grad_norm": 0.0002926415763795376,
      "learning_rate": 0.00012133745915189278,
      "loss": 46.0,
      "step": 568
    },
    {
      "epoch": 0.01145364694988778,
      "grad_norm": 0.00012063339818269014,
      "learning_rate": 0.00012110002260422218,
      "loss": 46.0,
      "step": 569
    },
    {
      "epoch": 0.011473776382137141,
      "grad_norm": 0.00014082356938160956,
      "learning_rate": 0.00012086246149460038,
      "loss": 46.0,
      "step": 570
    },
    {
      "epoch": 0.011493905814386505,
      "grad_norm": 0.0002749360864982009,
      "learning_rate": 0.00012062477722544656,
      "loss": 46.0,
      "step": 571
    },
    {
      "epoch": 0.011514035246635869,
      "grad_norm": 0.00013284625310916454,
      "learning_rate": 0.00012038697119990687,
      "loss": 46.0,
      "step": 572
    },
    {
      "epoch": 0.011534164678885232,
      "grad_norm": 8.731486741453409e-05,
      "learning_rate": 0.00012014904482184633,
      "loss": 46.0,
      "step": 573
    },
    {
      "epoch": 0.011554294111134596,
      "grad_norm": 7.719992572674528e-05,
      "learning_rate": 0.00011991099949584032,
      "loss": 46.0,
      "step": 574
    },
    {
      "epoch": 0.01157442354338396,
      "grad_norm": 0.00010548291902523488,
      "learning_rate": 0.00011967283662716653,
      "loss": 46.0,
      "step": 575
    },
    {
      "epoch": 0.011594552975633322,
      "grad_norm": 0.0002630742092151195,
      "learning_rate": 0.00011943455762179654,
      "loss": 46.0,
      "step": 576
    },
    {
      "epoch": 0.011614682407882685,
      "grad_norm": 0.00016908656107261777,
      "learning_rate": 0.00011919616388638748,
      "loss": 46.0,
      "step": 577
    },
    {
      "epoch": 0.011634811840132049,
      "grad_norm": 0.00010908886906690896,
      "learning_rate": 0.0001189576568282738,
      "loss": 46.0,
      "step": 578
    },
    {
      "epoch": 0.011654941272381413,
      "grad_norm": 8.737723692320287e-05,
      "learning_rate": 0.00011871903785545897,
      "loss": 46.0,
      "step": 579
    },
    {
      "epoch": 0.011675070704630777,
      "grad_norm": 0.00011381749209249392,
      "learning_rate": 0.00011848030837660709,
      "loss": 46.0,
      "step": 580
    },
    {
      "epoch": 0.011695200136880139,
      "grad_norm": 0.00023508115555159748,
      "learning_rate": 0.00011824146980103467,
      "loss": 46.0,
      "step": 581
    },
    {
      "epoch": 0.011715329569129502,
      "grad_norm": 0.0002138228010153398,
      "learning_rate": 0.00011800252353870224,
      "loss": 46.0,
      "step": 582
    },
    {
      "epoch": 0.011735459001378866,
      "grad_norm": 0.0002100839774357155,
      "learning_rate": 0.00011776347100020602,
      "loss": 46.0,
      "step": 583
    },
    {
      "epoch": 0.01175558843362823,
      "grad_norm": 0.00025784672470763326,
      "learning_rate": 0.00011752431359676968,
      "loss": 46.0,
      "step": 584
    },
    {
      "epoch": 0.011775717865877593,
      "grad_norm": 9.872866212390363e-05,
      "learning_rate": 0.00011728505274023584,
      "loss": 46.0,
      "step": 585
    },
    {
      "epoch": 0.011795847298126957,
      "grad_norm": 8.426361455349252e-05,
      "learning_rate": 0.00011704568984305802,
      "loss": 46.0,
      "step": 586
    },
    {
      "epoch": 0.011815976730376319,
      "grad_norm": 0.0003703351248987019,
      "learning_rate": 0.00011680622631829197,
      "loss": 46.0,
      "step": 587
    },
    {
      "epoch": 0.011836106162625683,
      "grad_norm": 0.00012765347491949797,
      "learning_rate": 0.00011656666357958751,
      "loss": 46.0,
      "step": 588
    },
    {
      "epoch": 0.011856235594875046,
      "grad_norm": 0.00010474120790604502,
      "learning_rate": 0.00011632700304118032,
      "loss": 46.0,
      "step": 589
    },
    {
      "epoch": 0.01187636502712441,
      "grad_norm": 0.00026702586910687387,
      "learning_rate": 0.0001160872461178832,
      "loss": 46.0,
      "step": 590
    },
    {
      "epoch": 0.011896494459373774,
      "grad_norm": 0.00018060579895973206,
      "learning_rate": 0.00011584739422507804,
      "loss": 46.0,
      "step": 591
    },
    {
      "epoch": 0.011916623891623138,
      "grad_norm": 0.0004400400212034583,
      "learning_rate": 0.00011560744877870748,
      "loss": 46.0,
      "step": 592
    },
    {
      "epoch": 0.0119367533238725,
      "grad_norm": 0.00011154530511703342,
      "learning_rate": 0.00011536741119526628,
      "loss": 46.0,
      "step": 593
    },
    {
      "epoch": 0.011956882756121863,
      "grad_norm": 9.707292338134721e-05,
      "learning_rate": 0.00011512728289179323,
      "loss": 46.0,
      "step": 594
    },
    {
      "epoch": 0.011977012188371227,
      "grad_norm": 0.00012266647536307573,
      "learning_rate": 0.00011488706528586261,
      "loss": 46.0,
      "step": 595
    },
    {
      "epoch": 0.01199714162062059,
      "grad_norm": 6.54510804452002e-05,
      "learning_rate": 0.00011464675979557593,
      "loss": 46.0,
      "step": 596
    },
    {
      "epoch": 0.012017271052869954,
      "grad_norm": 0.00019303473527543247,
      "learning_rate": 0.00011440636783955356,
      "loss": 46.0,
      "step": 597
    },
    {
      "epoch": 0.012037400485119316,
      "grad_norm": 0.00021508029021788388,
      "learning_rate": 0.00011416589083692619,
      "loss": 46.0,
      "step": 598
    },
    {
      "epoch": 0.01205752991736868,
      "grad_norm": 0.00014299601025413722,
      "learning_rate": 0.00011392533020732666,
      "loss": 46.0,
      "step": 599
    },
    {
      "epoch": 0.012077659349618044,
      "grad_norm": 0.00017883341934066266,
      "learning_rate": 0.00011368468737088148,
      "loss": 46.0,
      "step": 600
    },
    {
      "epoch": 0.012097788781867408,
      "grad_norm": 0.0002254635328426957,
      "learning_rate": 0.00011344396374820244,
      "loss": 46.0,
      "step": 601
    },
    {
      "epoch": 0.012117918214116771,
      "grad_norm": 0.0002371317968936637,
      "learning_rate": 0.0001132031607603783,
      "loss": 46.0,
      "step": 602
    },
    {
      "epoch": 0.012138047646366135,
      "grad_norm": 0.00012665463145822287,
      "learning_rate": 0.0001129622798289663,
      "loss": 46.0,
      "step": 603
    },
    {
      "epoch": 0.012158177078615497,
      "grad_norm": 0.00019802236056420952,
      "learning_rate": 0.00011272132237598376,
      "loss": 46.0,
      "step": 604
    },
    {
      "epoch": 0.01217830651086486,
      "grad_norm": 0.00011026608990505338,
      "learning_rate": 0.00011248028982389989,
      "loss": 46.0,
      "step": 605
    },
    {
      "epoch": 0.012198435943114224,
      "grad_norm": 9.928762301569805e-05,
      "learning_rate": 0.00011223918359562708,
      "loss": 46.0,
      "step": 606
    },
    {
      "epoch": 0.012218565375363588,
      "grad_norm": 0.00023735944705549628,
      "learning_rate": 0.00011199800511451273,
      "loss": 46.0,
      "step": 607
    },
    {
      "epoch": 0.012238694807612952,
      "grad_norm": 0.00011722726048901677,
      "learning_rate": 0.0001117567558043308,
      "loss": 46.0,
      "step": 608
    },
    {
      "epoch": 0.012258824239862316,
      "grad_norm": 0.0003526516375131905,
      "learning_rate": 0.00011151543708927335,
      "loss": 46.0,
      "step": 609
    },
    {
      "epoch": 0.012278953672111678,
      "grad_norm": 0.00022850584355182946,
      "learning_rate": 0.00011127405039394216,
      "loss": 46.0,
      "step": 610
    },
    {
      "epoch": 0.012299083104361041,
      "grad_norm": 0.0005510961636900902,
      "learning_rate": 0.00011103259714334034,
      "loss": 46.0,
      "step": 611
    },
    {
      "epoch": 0.012319212536610405,
      "grad_norm": 0.00013431145634967834,
      "learning_rate": 0.00011079107876286387,
      "loss": 46.0,
      "step": 612
    },
    {
      "epoch": 0.012339341968859769,
      "grad_norm": 0.0001544607657706365,
      "learning_rate": 0.0001105494966782933,
      "loss": 46.0,
      "step": 613
    },
    {
      "epoch": 0.012359471401109132,
      "grad_norm": 8.791110303718597e-05,
      "learning_rate": 0.0001103078523157852,
      "loss": 46.0,
      "step": 614
    },
    {
      "epoch": 0.012379600833358494,
      "grad_norm": 0.00023833720479160547,
      "learning_rate": 0.00011006614710186372,
      "loss": 46.0,
      "step": 615
    },
    {
      "epoch": 0.012399730265607858,
      "grad_norm": 0.00016108158160932362,
      "learning_rate": 0.00010982438246341238,
      "loss": 46.0,
      "step": 616
    },
    {
      "epoch": 0.012419859697857222,
      "grad_norm": 0.00022613555483985692,
      "learning_rate": 0.00010958255982766538,
      "loss": 46.0,
      "step": 617
    },
    {
      "epoch": 0.012439989130106585,
      "grad_norm": 0.00022462922788690776,
      "learning_rate": 0.00010934068062219945,
      "loss": 46.0,
      "step": 618
    },
    {
      "epoch": 0.01246011856235595,
      "grad_norm": 0.00031467695953324437,
      "learning_rate": 0.0001090987462749251,
      "loss": 46.0,
      "step": 619
    },
    {
      "epoch": 0.012480247994605313,
      "grad_norm": 0.0002814480976667255,
      "learning_rate": 0.00010885675821407844,
      "loss": 46.0,
      "step": 620
    },
    {
      "epoch": 0.012500377426854675,
      "grad_norm": 0.0001427562237950042,
      "learning_rate": 0.00010861471786821275,
      "loss": 46.0,
      "step": 621
    },
    {
      "epoch": 0.012520506859104039,
      "grad_norm": 0.00010559640941210091,
      "learning_rate": 0.00010837262666618983,
      "loss": 46.0,
      "step": 622
    },
    {
      "epoch": 0.012540636291353402,
      "grad_norm": 0.00022459396859630942,
      "learning_rate": 0.00010813048603717182,
      "loss": 46.0,
      "step": 623
    },
    {
      "epoch": 0.012560765723602766,
      "grad_norm": 0.0003838833072222769,
      "learning_rate": 0.0001078882974106126,
      "loss": 46.0,
      "step": 624
    },
    {
      "epoch": 0.01258089515585213,
      "grad_norm": 0.00013236599625088274,
      "learning_rate": 0.00010764606221624933,
      "loss": 46.0,
      "step": 625
    },
    {
      "epoch": 0.012601024588101493,
      "grad_norm": 0.0002815214393194765,
      "learning_rate": 0.00010740378188409426,
      "loss": 46.0,
      "step": 626
    },
    {
      "epoch": 0.012621154020350855,
      "grad_norm": 9.716377826407552e-05,
      "learning_rate": 0.00010716145784442593,
      "loss": 46.0,
      "step": 627
    },
    {
      "epoch": 0.01264128345260022,
      "grad_norm": 0.00029817328322678804,
      "learning_rate": 0.00010691909152778094,
      "loss": 46.0,
      "step": 628
    },
    {
      "epoch": 0.012661412884849583,
      "grad_norm": 0.00011512849596329033,
      "learning_rate": 0.00010667668436494558,
      "loss": 46.0,
      "step": 629
    },
    {
      "epoch": 0.012681542317098947,
      "grad_norm": 0.00021800924150738865,
      "learning_rate": 0.00010643423778694712,
      "loss": 46.0,
      "step": 630
    },
    {
      "epoch": 0.01270167174934831,
      "grad_norm": 0.00012208014959469438,
      "learning_rate": 0.0001061917532250456,
      "loss": 46.0,
      "step": 631
    },
    {
      "epoch": 0.012721801181597672,
      "grad_norm": 0.00015742589312139899,
      "learning_rate": 0.00010594923211072532,
      "loss": 46.0,
      "step": 632
    },
    {
      "epoch": 0.012741930613847036,
      "grad_norm": 0.00029806559905409813,
      "learning_rate": 0.00010570667587568626,
      "loss": 46.0,
      "step": 633
    },
    {
      "epoch": 0.0127620600460964,
      "grad_norm": 0.00018120172899216413,
      "learning_rate": 0.00010546408595183578,
      "loss": 46.0,
      "step": 634
    },
    {
      "epoch": 0.012782189478345763,
      "grad_norm": 0.00016689879703335464,
      "learning_rate": 0.00010522146377128021,
      "loss": 46.0,
      "step": 635
    },
    {
      "epoch": 0.012802318910595127,
      "grad_norm": 0.000355700176442042,
      "learning_rate": 0.00010497881076631615,
      "loss": 46.0,
      "step": 636
    },
    {
      "epoch": 0.01282244834284449,
      "grad_norm": 0.0001786172651918605,
      "learning_rate": 0.00010473612836942226,
      "loss": 46.0,
      "step": 637
    },
    {
      "epoch": 0.012842577775093853,
      "grad_norm": 0.0003312894550617784,
      "learning_rate": 0.00010449341801325073,
      "loss": 46.0,
      "step": 638
    },
    {
      "epoch": 0.012862707207343217,
      "grad_norm": 0.00023194189998321235,
      "learning_rate": 0.00010425068113061873,
      "loss": 46.0,
      "step": 639
    },
    {
      "epoch": 0.01288283663959258,
      "grad_norm": 0.0004088008718099445,
      "learning_rate": 0.00010400791915450009,
      "loss": 46.0,
      "step": 640
    },
    {
      "epoch": 0.012902966071841944,
      "grad_norm": 0.0001682123402133584,
      "learning_rate": 0.00010376513351801673,
      "loss": 46.0,
      "step": 641
    },
    {
      "epoch": 0.012923095504091308,
      "grad_norm": 0.00013815666898153722,
      "learning_rate": 0.00010352232565443032,
      "loss": 46.0,
      "step": 642
    },
    {
      "epoch": 0.012943224936340671,
      "grad_norm": 0.0002450251195114106,
      "learning_rate": 0.00010327949699713366,
      "loss": 46.0,
      "step": 643
    },
    {
      "epoch": 0.012963354368590033,
      "grad_norm": 0.00019522267393767834,
      "learning_rate": 0.00010303664897964232,
      "loss": 46.0,
      "step": 644
    },
    {
      "epoch": 0.012983483800839397,
      "grad_norm": 0.00013197500084061176,
      "learning_rate": 0.00010279378303558624,
      "loss": 46.0,
      "step": 645
    },
    {
      "epoch": 0.01300361323308876,
      "grad_norm": 0.00034008765942417085,
      "learning_rate": 0.00010255090059870107,
      "loss": 46.0,
      "step": 646
    },
    {
      "epoch": 0.013023742665338124,
      "grad_norm": 0.00030950226937420666,
      "learning_rate": 0.00010230800310281992,
      "loss": 46.0,
      "step": 647
    },
    {
      "epoch": 0.013043872097587488,
      "grad_norm": 0.0002216809953097254,
      "learning_rate": 0.00010206509198186476,
      "loss": 46.0,
      "step": 648
    },
    {
      "epoch": 0.01306400152983685,
      "grad_norm": 0.0005021773395128548,
      "learning_rate": 0.00010182216866983796,
      "loss": 46.0,
      "step": 649
    },
    {
      "epoch": 0.013084130962086214,
      "grad_norm": 0.0003279381198808551,
      "learning_rate": 0.00010157923460081394,
      "loss": 46.0,
      "step": 650
    },
    {
      "epoch": 0.013104260394335578,
      "grad_norm": 0.000169211023603566,
      "learning_rate": 0.00010133629120893055,
      "loss": 46.0,
      "step": 651
    },
    {
      "epoch": 0.013124389826584941,
      "grad_norm": 0.0004348910879343748,
      "learning_rate": 0.00010109333992838072,
      "loss": 46.0,
      "step": 652
    },
    {
      "epoch": 0.013124389826584941,
      "eval_loss": 11.5,
      "eval_runtime": 126.4432,
      "eval_samples_per_second": 165.434,
      "eval_steps_per_second": 82.717,
      "step": 652
    }
  ],
  "logging_steps": 1,
  "max_steps": 1303,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 326,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 15091580436480.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}