{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0569494882799604,
  "eval_steps": 200,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002641135688345989,
      "grad_norm": 36301.09765625,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 77.7289,
      "step": 1
    },
    {
      "epoch": 0.002641135688345989,
      "eval_loss": 10.947957992553711,
      "eval_runtime": 2.8903,
      "eval_samples_per_second": 171.262,
      "eval_steps_per_second": 42.902,
      "step": 1
    },
    {
      "epoch": 0.005282271376691978,
      "grad_norm": 58047.49609375,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 73.7497,
      "step": 2
    },
    {
      "epoch": 0.007923407065037967,
      "grad_norm": 99760.890625,
      "learning_rate": 3e-06,
      "loss": 79.9203,
      "step": 3
    },
    {
      "epoch": 0.010564542753383956,
      "grad_norm": 60740.26953125,
      "learning_rate": 4.000000000000001e-06,
      "loss": 76.8553,
      "step": 4
    },
    {
      "epoch": 0.013205678441729944,
      "grad_norm": 80668.09375,
      "learning_rate": 5e-06,
      "loss": 75.6527,
      "step": 5
    },
    {
      "epoch": 0.015846814130075933,
      "grad_norm": 77119.0078125,
      "learning_rate": 6e-06,
      "loss": 77.4062,
      "step": 6
    },
    {
      "epoch": 0.01848794981842192,
      "grad_norm": 110103.203125,
      "learning_rate": 7.000000000000001e-06,
      "loss": 76.1566,
      "step": 7
    },
    {
      "epoch": 0.02112908550676791,
      "grad_norm": 46966.25390625,
      "learning_rate": 8.000000000000001e-06,
      "loss": 75.0136,
      "step": 8
    },
    {
      "epoch": 0.0237702211951139,
      "grad_norm": 52369.109375,
      "learning_rate": 9e-06,
      "loss": 75.3808,
      "step": 9
    },
    {
      "epoch": 0.02641135688345989,
      "grad_norm": 67832.140625,
      "learning_rate": 1e-05,
      "loss": 74.4742,
      "step": 10
    },
    {
      "epoch": 0.029052492571805876,
      "grad_norm": 58381.0078125,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 72.1378,
      "step": 11
    },
    {
      "epoch": 0.03169362826015187,
      "grad_norm": 32421.669921875,
      "learning_rate": 1.2e-05,
      "loss": 74.1041,
      "step": 12
    },
    {
      "epoch": 0.034334763948497854,
      "grad_norm": 53718.72265625,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 74.6332,
      "step": 13
    },
    {
      "epoch": 0.03697589963684384,
      "grad_norm": 96267.078125,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 75.1989,
      "step": 14
    },
    {
      "epoch": 0.03961703532518983,
      "grad_norm": 76299.265625,
      "learning_rate": 1.5e-05,
      "loss": 71.9961,
      "step": 15
    },
    {
      "epoch": 0.04225817101353582,
      "grad_norm": 95350.3671875,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 75.3688,
      "step": 16
    },
    {
      "epoch": 0.04489930670188181,
      "grad_norm": 27829.681640625,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 71.3448,
      "step": 17
    },
    {
      "epoch": 0.0475404423902278,
      "grad_norm": 82636.9609375,
      "learning_rate": 1.8e-05,
      "loss": 70.2817,
      "step": 18
    },
    {
      "epoch": 0.050181578078573784,
      "grad_norm": 32414.7890625,
      "learning_rate": 1.9e-05,
      "loss": 72.0135,
      "step": 19
    },
    {
      "epoch": 0.05282271376691978,
      "grad_norm": 47665.40234375,
      "learning_rate": 2e-05,
      "loss": 69.6301,
      "step": 20
    },
    {
      "epoch": 0.055463849455265765,
      "grad_norm": 32801.06640625,
      "learning_rate": 2.1e-05,
      "loss": 69.1858,
      "step": 21
    },
    {
      "epoch": 0.05810498514361175,
      "grad_norm": 57841.734375,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 74.4269,
      "step": 22
    },
    {
      "epoch": 0.06074612083195774,
      "grad_norm": 977927.5,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 374.1096,
      "step": 23
    },
    {
      "epoch": 0.06338725652030373,
      "grad_norm": 822052.8125,
      "learning_rate": 2.4e-05,
      "loss": 593.3242,
      "step": 24
    },
    {
      "epoch": 0.06602839220864971,
      "grad_norm": 1799951.0,
      "learning_rate": 2.5e-05,
      "loss": 679.3867,
      "step": 25
    },
    {
      "epoch": 0.06866952789699571,
      "grad_norm": 1745750.875,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 576.8527,
      "step": 26
    },
    {
      "epoch": 0.0713106635853417,
      "grad_norm": 1711292.125,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 607.4575,
      "step": 27
    },
    {
      "epoch": 0.07395179927368768,
      "grad_norm": 963344.875,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 617.1985,
      "step": 28
    },
    {
      "epoch": 0.07659293496203368,
      "grad_norm": 1535239.125,
      "learning_rate": 2.9e-05,
      "loss": 783.793,
      "step": 29
    },
    {
      "epoch": 0.07923407065037966,
      "grad_norm": 1122964.75,
      "learning_rate": 3e-05,
      "loss": 647.9023,
      "step": 30
    },
    {
      "epoch": 0.08187520633872565,
      "grad_norm": 969634.125,
      "learning_rate": 3.1e-05,
      "loss": 517.2833,
      "step": 31
    },
    {
      "epoch": 0.08451634202707164,
      "grad_norm": 889313.3125,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 533.6053,
      "step": 32
    },
    {
      "epoch": 0.08715747771541763,
      "grad_norm": 295694.34375,
      "learning_rate": 3.3e-05,
      "loss": 150.9701,
      "step": 33
    },
    {
      "epoch": 0.08979861340376362,
      "grad_norm": 17467.146484375,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 67.8817,
      "step": 34
    },
    {
      "epoch": 0.09243974909210961,
      "grad_norm": 37610.78515625,
      "learning_rate": 3.5e-05,
      "loss": 68.1266,
      "step": 35
    },
    {
      "epoch": 0.0950808847804556,
      "grad_norm": 23183.30859375,
      "learning_rate": 3.6e-05,
      "loss": 66.7708,
      "step": 36
    },
    {
      "epoch": 0.09772202046880159,
      "grad_norm": 21793.3984375,
      "learning_rate": 3.7e-05,
      "loss": 69.4378,
      "step": 37
    },
    {
      "epoch": 0.10036315615714757,
      "grad_norm": 25680.82421875,
      "learning_rate": 3.8e-05,
      "loss": 67.6288,
      "step": 38
    },
    {
      "epoch": 0.10300429184549356,
      "grad_norm": 20375.560546875,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 68.1002,
      "step": 39
    },
    {
      "epoch": 0.10564542753383956,
      "grad_norm": 20276.283203125,
      "learning_rate": 4e-05,
      "loss": 64.9515,
      "step": 40
    },
    {
      "epoch": 0.10828656322218554,
      "grad_norm": 22337.115234375,
      "learning_rate": 4.1e-05,
      "loss": 66.2982,
      "step": 41
    },
    {
      "epoch": 0.11092769891053153,
      "grad_norm": 36014.4765625,
      "learning_rate": 4.2e-05,
      "loss": 67.0856,
      "step": 42
    },
    {
      "epoch": 0.11356883459887751,
      "grad_norm": 55459.51171875,
      "learning_rate": 4.3e-05,
      "loss": 64.725,
      "step": 43
    },
    {
      "epoch": 0.1162099702872235,
      "grad_norm": 28144.5546875,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 66.0296,
      "step": 44
    },
    {
      "epoch": 0.1188511059755695,
      "grad_norm": 27595.615234375,
      "learning_rate": 4.5e-05,
      "loss": 64.3844,
      "step": 45
    },
    {
      "epoch": 0.12149224166391548,
      "grad_norm": 35889.7265625,
      "learning_rate": 4.600000000000001e-05,
      "loss": 66.3218,
      "step": 46
    },
    {
      "epoch": 0.12413337735226147,
      "grad_norm": 26046.734375,
      "learning_rate": 4.7e-05,
      "loss": 66.0898,
      "step": 47
    },
    {
      "epoch": 0.12677451304060747,
      "grad_norm": 34353.89453125,
      "learning_rate": 4.8e-05,
      "loss": 67.0278,
      "step": 48
    },
    {
      "epoch": 0.12941564872895345,
      "grad_norm": 43143.78515625,
      "learning_rate": 4.9e-05,
      "loss": 71.7618,
      "step": 49
    },
    {
      "epoch": 0.13205678441729943,
      "grad_norm": 71989.6796875,
      "learning_rate": 5e-05,
      "loss": 79.8577,
      "step": 50
    },
    {
      "epoch": 0.13469792010564544,
      "grad_norm": 8369.36328125,
      "learning_rate": 5.1000000000000006e-05,
      "loss": 68.7658,
      "step": 51
    },
    {
      "epoch": 0.13733905579399142,
      "grad_norm": 18901.203125,
      "learning_rate": 5.2000000000000004e-05,
      "loss": 68.0294,
      "step": 52
    },
    {
      "epoch": 0.1399801914823374,
      "grad_norm": 21011.810546875,
      "learning_rate": 5.300000000000001e-05,
      "loss": 65.6121,
      "step": 53
    },
    {
      "epoch": 0.1426213271706834,
      "grad_norm": 50907.6875,
      "learning_rate": 5.4000000000000005e-05,
      "loss": 67.7626,
      "step": 54
    },
    {
      "epoch": 0.14526246285902938,
      "grad_norm": 18672.953125,
      "learning_rate": 5.500000000000001e-05,
      "loss": 67.0266,
      "step": 55
    },
    {
      "epoch": 0.14790359854737536,
      "grad_norm": 21917.009765625,
      "learning_rate": 5.6000000000000006e-05,
      "loss": 67.1658,
      "step": 56
    },
    {
      "epoch": 0.15054473423572137,
      "grad_norm": 15709.1328125,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 66.1013,
      "step": 57
    },
    {
      "epoch": 0.15318586992406735,
      "grad_norm": 14906.9873046875,
      "learning_rate": 5.8e-05,
      "loss": 65.4285,
      "step": 58
    },
    {
      "epoch": 0.15582700561241333,
      "grad_norm": 14021.7392578125,
      "learning_rate": 5.9e-05,
      "loss": 67.0967,
      "step": 59
    },
    {
      "epoch": 0.1584681413007593,
      "grad_norm": 19881.90234375,
      "learning_rate": 6e-05,
      "loss": 62.4191,
      "step": 60
    },
    {
      "epoch": 0.16110927698910532,
      "grad_norm": 15729.5654296875,
      "learning_rate": 6.1e-05,
      "loss": 65.3837,
      "step": 61
    },
    {
      "epoch": 0.1637504126774513,
      "grad_norm": 15976.841796875,
      "learning_rate": 6.2e-05,
      "loss": 63.9247,
      "step": 62
    },
    {
      "epoch": 0.16639154836579728,
      "grad_norm": 17226.25390625,
      "learning_rate": 6.3e-05,
      "loss": 63.7733,
      "step": 63
    },
    {
      "epoch": 0.1690326840541433,
      "grad_norm": 12932.412109375,
      "learning_rate": 6.400000000000001e-05,
      "loss": 63.3991,
      "step": 64
    },
    {
      "epoch": 0.17167381974248927,
      "grad_norm": 11609.3994140625,
      "learning_rate": 6.500000000000001e-05,
      "loss": 62.8542,
      "step": 65
    },
    {
      "epoch": 0.17431495543083525,
      "grad_norm": 16818.75390625,
      "learning_rate": 6.6e-05,
      "loss": 62.5173,
      "step": 66
    },
    {
      "epoch": 0.17695609111918126,
      "grad_norm": 12031.3447265625,
      "learning_rate": 6.7e-05,
      "loss": 62.8865,
      "step": 67
    },
    {
      "epoch": 0.17959722680752724,
      "grad_norm": 17571.72265625,
      "learning_rate": 6.800000000000001e-05,
      "loss": 61.6707,
      "step": 68
    },
    {
      "epoch": 0.18223836249587322,
      "grad_norm": 15332.890625,
      "learning_rate": 6.9e-05,
      "loss": 62.2125,
      "step": 69
    },
    {
      "epoch": 0.18487949818421923,
      "grad_norm": 9654.8876953125,
      "learning_rate": 7e-05,
      "loss": 62.2438,
      "step": 70
    },
    {
      "epoch": 0.1875206338725652,
      "grad_norm": 14719.578125,
      "learning_rate": 7.1e-05,
      "loss": 62.446,
      "step": 71
    },
    {
      "epoch": 0.1901617695609112,
      "grad_norm": 130687.6328125,
      "learning_rate": 7.2e-05,
      "loss": 142.5886,
      "step": 72
    },
    {
      "epoch": 0.19280290524925717,
      "grad_norm": 940455.125,
      "learning_rate": 7.3e-05,
      "loss": 648.629,
      "step": 73
    },
    {
      "epoch": 0.19544404093760318,
      "grad_norm": 902928.3125,
      "learning_rate": 7.4e-05,
      "loss": 667.6523,
      "step": 74
    },
    {
      "epoch": 0.19808517662594916,
      "grad_norm": 666524.25,
      "learning_rate": 7.500000000000001e-05,
      "loss": 532.2306,
      "step": 75
    },
    {
      "epoch": 0.20072631231429514,
      "grad_norm": 988706.125,
      "learning_rate": 7.6e-05,
      "loss": 576.9766,
      "step": 76
    },
    {
      "epoch": 0.20336744800264114,
      "grad_norm": 883775.5625,
      "learning_rate": 7.7e-05,
      "loss": 546.8032,
      "step": 77
    },
    {
      "epoch": 0.20600858369098712,
      "grad_norm": 2083634.75,
      "learning_rate": 7.800000000000001e-05,
      "loss": 611.6584,
      "step": 78
    },
    {
      "epoch": 0.2086497193793331,
      "grad_norm": 775611.5625,
      "learning_rate": 7.900000000000001e-05,
      "loss": 548.3682,
      "step": 79
    },
    {
      "epoch": 0.2112908550676791,
      "grad_norm": 562781.5625,
      "learning_rate": 8e-05,
      "loss": 523.7821,
      "step": 80
    },
    {
      "epoch": 0.2139319907560251,
      "grad_norm": 421653.0625,
      "learning_rate": 8.1e-05,
      "loss": 449.1597,
      "step": 81
    },
    {
      "epoch": 0.21657312644437107,
      "grad_norm": 579641.8125,
      "learning_rate": 8.2e-05,
      "loss": 360.1368,
      "step": 82
    },
    {
      "epoch": 0.21921426213271708,
      "grad_norm": 230648.234375,
      "learning_rate": 8.3e-05,
      "loss": 72.1037,
      "step": 83
    },
    {
      "epoch": 0.22185539782106306,
      "grad_norm": 25170.8203125,
      "learning_rate": 8.4e-05,
      "loss": 63.1604,
      "step": 84
    },
    {
      "epoch": 0.22449653350940904,
      "grad_norm": 60256.33984375,
      "learning_rate": 8.5e-05,
      "loss": 66.941,
      "step": 85
    },
    {
      "epoch": 0.22713766919775502,
      "grad_norm": 27881.91015625,
      "learning_rate": 8.6e-05,
      "loss": 63.0213,
      "step": 86
    },
    {
      "epoch": 0.22977880488610103,
      "grad_norm": 14699.3232421875,
      "learning_rate": 8.7e-05,
      "loss": 63.4355,
      "step": 87
    },
    {
      "epoch": 0.232419940574447,
      "grad_norm": 27491.953125,
      "learning_rate": 8.800000000000001e-05,
      "loss": 60.2028,
      "step": 88
    },
    {
      "epoch": 0.235061076262793,
      "grad_norm": 15658.068359375,
      "learning_rate": 8.900000000000001e-05,
      "loss": 58.5889,
      "step": 89
    },
    {
      "epoch": 0.237702211951139,
      "grad_norm": 16560.603515625,
      "learning_rate": 9e-05,
      "loss": 60.2038,
      "step": 90
    },
    {
      "epoch": 0.24034334763948498,
      "grad_norm": 11106.2470703125,
      "learning_rate": 9.1e-05,
      "loss": 59.1099,
      "step": 91
    },
    {
      "epoch": 0.24298448332783096,
      "grad_norm": 13895.1904296875,
      "learning_rate": 9.200000000000001e-05,
      "loss": 60.0216,
      "step": 92
    },
    {
      "epoch": 0.24562561901617697,
      "grad_norm": 13232.1796875,
      "learning_rate": 9.300000000000001e-05,
      "loss": 60.0393,
      "step": 93
    },
    {
      "epoch": 0.24826675470452295,
      "grad_norm": 16614.0703125,
      "learning_rate": 9.4e-05,
      "loss": 59.1421,
      "step": 94
    },
    {
      "epoch": 0.2509078903928689,
      "grad_norm": 17079.46484375,
      "learning_rate": 9.5e-05,
      "loss": 59.6571,
      "step": 95
    },
    {
      "epoch": 0.25354902608121493,
      "grad_norm": 10043.0849609375,
      "learning_rate": 9.6e-05,
      "loss": 58.3455,
      "step": 96
    },
    {
      "epoch": 0.2561901617695609,
      "grad_norm": 13873.9345703125,
      "learning_rate": 9.7e-05,
      "loss": 61.7211,
      "step": 97
    },
    {
      "epoch": 0.2588312974579069,
      "grad_norm": 15096.0869140625,
      "learning_rate": 9.8e-05,
      "loss": 65.4602,
      "step": 98
    },
    {
      "epoch": 0.2614724331462529,
      "grad_norm": 16339.740234375,
      "learning_rate": 9.900000000000001e-05,
      "loss": 66.4909,
      "step": 99
    },
    {
      "epoch": 0.26411356883459886,
      "grad_norm": 60479.21875,
      "learning_rate": 0.0001,
      "loss": 75.1021,
      "step": 100
    },
    {
      "epoch": 0.26675470452294486,
      "grad_norm": 6854.955078125,
      "learning_rate": 9.99999993018897e-05,
      "loss": 58.5582,
      "step": 101
    },
    {
      "epoch": 0.26939584021129087,
      "grad_norm": 7745.33740234375,
      "learning_rate": 9.999999720755877e-05,
      "loss": 56.6808,
      "step": 102
    },
    {
      "epoch": 0.2720369758996368,
      "grad_norm": 9056.62109375,
      "learning_rate": 9.99999937170073e-05,
      "loss": 56.6537,
      "step": 103
    },
    {
      "epoch": 0.27467811158798283,
      "grad_norm": 9596.931640625,
      "learning_rate": 9.999998883023537e-05,
      "loss": 59.4572,
      "step": 104
    },
    {
      "epoch": 0.27731924727632884,
      "grad_norm": 9967.4287109375,
      "learning_rate": 9.999998254724313e-05,
      "loss": 60.9963,
      "step": 105
    },
    {
      "epoch": 0.2799603829646748,
      "grad_norm": 7881.37158203125,
      "learning_rate": 9.999997486803075e-05,
      "loss": 59.1903,
      "step": 106
    },
    {
      "epoch": 0.2826015186530208,
      "grad_norm": 7984.412109375,
      "learning_rate": 9.999996579259843e-05,
      "loss": 57.3962,
      "step": 107
    },
    {
      "epoch": 0.2852426543413668,
      "grad_norm": 8951.9453125,
      "learning_rate": 9.999995532094644e-05,
      "loss": 60.8434,
      "step": 108
    },
    {
      "epoch": 0.28788379002971276,
      "grad_norm": 9131.03515625,
      "learning_rate": 9.999994345307508e-05,
      "loss": 58.7974,
      "step": 109
    },
    {
      "epoch": 0.29052492571805877,
      "grad_norm": 7934.9453125,
      "learning_rate": 9.999993018898466e-05,
      "loss": 57.2941,
      "step": 110
    },
    {
      "epoch": 0.2931660614064048,
      "grad_norm": 7639.3134765625,
      "learning_rate": 9.999991552867558e-05,
      "loss": 57.9149,
      "step": 111
    },
    {
      "epoch": 0.29580719709475073,
      "grad_norm": 9613.30078125,
      "learning_rate": 9.99998994721482e-05,
      "loss": 59.5527,
      "step": 112
    },
    {
      "epoch": 0.29844833278309674,
      "grad_norm": 9338.255859375,
      "learning_rate": 9.999988201940302e-05,
      "loss": 59.147,
      "step": 113
    },
    {
      "epoch": 0.30108946847144274,
      "grad_norm": 7751.587890625,
      "learning_rate": 9.999986317044051e-05,
      "loss": 56.4785,
      "step": 114
    },
    {
      "epoch": 0.3037306041597887,
      "grad_norm": 10206.54296875,
      "learning_rate": 9.999984292526118e-05,
      "loss": 57.9974,
      "step": 115
    },
    {
      "epoch": 0.3063717398481347,
      "grad_norm": 8300.5419921875,
      "learning_rate": 9.999982128386562e-05,
      "loss": 58.3521,
      "step": 116
    },
    {
      "epoch": 0.3090128755364807,
      "grad_norm": 10024.880859375,
      "learning_rate": 9.99997982462544e-05,
      "loss": 57.092,
      "step": 117
    },
    {
      "epoch": 0.31165401122482667,
      "grad_norm": 11154.408203125,
      "learning_rate": 9.999977381242821e-05,
      "loss": 58.9941,
      "step": 118
    },
    {
      "epoch": 0.3142951469131727,
      "grad_norm": 9249.49609375,
      "learning_rate": 9.999974798238769e-05,
      "loss": 56.6213,
      "step": 119
    },
    {
      "epoch": 0.3169362826015186,
      "grad_norm": 8185.81689453125,
      "learning_rate": 9.99997207561336e-05,
      "loss": 58.972,
      "step": 120
    },
    {
      "epoch": 0.31957741828986463,
      "grad_norm": 8558.0712890625,
      "learning_rate": 9.999969213366667e-05,
      "loss": 57.1556,
      "step": 121
    },
    {
      "epoch": 0.32221855397821064,
      "grad_norm": 22493.716796875,
      "learning_rate": 9.99996621149877e-05,
      "loss": 72.2707,
      "step": 122
    },
    {
      "epoch": 0.3248596896665566,
      "grad_norm": 398594.625,
      "learning_rate": 9.999963070009755e-05,
      "loss": 406.1104,
      "step": 123
    },
    {
      "epoch": 0.3275008253549026,
      "grad_norm": 361898.625,
      "learning_rate": 9.999959788899706e-05,
      "loss": 667.9355,
      "step": 124
    },
    {
      "epoch": 0.3301419610432486,
      "grad_norm": 437867.09375,
      "learning_rate": 9.999956368168719e-05,
      "loss": 615.7256,
      "step": 125
    },
    {
      "epoch": 0.33278309673159456,
      "grad_norm": 301105.25,
      "learning_rate": 9.999952807816888e-05,
      "loss": 594.6784,
      "step": 126
    },
    {
      "epoch": 0.33542423241994057,
      "grad_norm": 792771.375,
      "learning_rate": 9.99994910784431e-05,
      "loss": 595.7666,
      "step": 127
    },
    {
      "epoch": 0.3380653681082866,
      "grad_norm": 329489.96875,
      "learning_rate": 9.999945268251092e-05,
      "loss": 508.584,
      "step": 128
    },
    {
      "epoch": 0.34070650379663253,
      "grad_norm": 470539.6875,
      "learning_rate": 9.999941289037338e-05,
      "loss": 558.1961,
      "step": 129
    },
    {
      "epoch": 0.34334763948497854,
      "grad_norm": 1048945.0,
      "learning_rate": 9.999937170203162e-05,
      "loss": 474.5325,
      "step": 130
    },
    {
      "epoch": 0.34598877517332455,
      "grad_norm": 778740.3125,
      "learning_rate": 9.999932911748678e-05,
      "loss": 475.9576,
      "step": 131
    },
    {
      "epoch": 0.3486299108616705,
      "grad_norm": 596922.1875,
      "learning_rate": 9.999928513674004e-05,
      "loss": 228.0436,
      "step": 132
    },
    {
      "epoch": 0.3512710465500165,
      "grad_norm": 14506.12890625,
      "learning_rate": 9.999923975979262e-05,
      "loss": 61.4294,
      "step": 133
    },
    {
      "epoch": 0.3539121822383625,
      "grad_norm": 18508.80859375,
      "learning_rate": 9.999919298664582e-05,
      "loss": 60.2299,
      "step": 134
    },
    {
      "epoch": 0.35655331792670847,
      "grad_norm": 24954.515625,
      "learning_rate": 9.999914481730092e-05,
      "loss": 60.3748,
      "step": 135
    },
    {
      "epoch": 0.3591944536150545,
      "grad_norm": 28892.380859375,
      "learning_rate": 9.999909525175927e-05,
      "loss": 59.6711,
      "step": 136
    },
    {
      "epoch": 0.3618355893034005,
      "grad_norm": 11845.759765625,
      "learning_rate": 9.999904429002225e-05,
      "loss": 59.5442,
      "step": 137
    },
    {
      "epoch": 0.36447672499174644,
      "grad_norm": 12252.9384765625,
      "learning_rate": 9.99989919320913e-05,
      "loss": 59.1238,
      "step": 138
    },
    {
      "epoch": 0.36711786068009244,
      "grad_norm": 14152.0126953125,
      "learning_rate": 9.999893817796786e-05,
      "loss": 57.509,
      "step": 139
    },
    {
      "epoch": 0.36975899636843845,
      "grad_norm": 18928.748046875,
      "learning_rate": 9.999888302765345e-05,
      "loss": 58.0275,
      "step": 140
    },
    {
      "epoch": 0.3724001320567844,
      "grad_norm": 15042.6201171875,
      "learning_rate": 9.99988264811496e-05,
      "loss": 57.775,
      "step": 141
    },
    {
      "epoch": 0.3750412677451304,
      "grad_norm": 38463.7265625,
      "learning_rate": 9.99987685384579e-05,
      "loss": 57.786,
      "step": 142
    },
    {
      "epoch": 0.3776824034334764,
      "grad_norm": 15558.212890625,
      "learning_rate": 9.999870919957996e-05,
      "loss": 57.7509,
      "step": 143
    },
    {
      "epoch": 0.3803235391218224,
      "grad_norm": 12991.3076171875,
      "learning_rate": 9.999864846451744e-05,
      "loss": 59.5253,
      "step": 144
    },
    {
      "epoch": 0.3829646748101684,
      "grad_norm": 23788.37890625,
      "learning_rate": 9.999858633327201e-05,
      "loss": 61.2206,
      "step": 145
    },
    {
      "epoch": 0.38560581049851433,
      "grad_norm": 22398.08203125,
      "learning_rate": 9.999852280584544e-05,
      "loss": 60.5845,
      "step": 146
    },
    {
      "epoch": 0.38824694618686034,
      "grad_norm": 14377.44921875,
      "learning_rate": 9.999845788223949e-05,
      "loss": 62.4098,
      "step": 147
    },
    {
      "epoch": 0.39088808187520635,
      "grad_norm": 27776.720703125,
      "learning_rate": 9.999839156245598e-05,
      "loss": 65.2689,
      "step": 148
    },
    {
      "epoch": 0.3935292175635523,
      "grad_norm": 51893.64453125,
      "learning_rate": 9.999832384649674e-05,
      "loss": 68.9281,
      "step": 149
    },
    {
      "epoch": 0.3961703532518983,
      "grad_norm": 52230.5078125,
      "learning_rate": 9.999825473436369e-05,
      "loss": 80.9858,
      "step": 150
    },
    {
      "epoch": 0.3988114889402443,
      "grad_norm": 5408.37353515625,
      "learning_rate": 9.999818422605875e-05,
      "loss": 62.4323,
      "step": 151
    },
    {
      "epoch": 0.40145262462859027,
      "grad_norm": 10959.0517578125,
      "learning_rate": 9.999811232158389e-05,
      "loss": 58.8699,
      "step": 152
    },
    {
      "epoch": 0.4040937603169363,
      "grad_norm": 8163.58935546875,
      "learning_rate": 9.999803902094109e-05,
      "loss": 60.9293,
      "step": 153
    },
    {
      "epoch": 0.4067348960052823,
      "grad_norm": 9621.8291015625,
      "learning_rate": 9.999796432413244e-05,
      "loss": 62.2098,
      "step": 154
    },
    {
      "epoch": 0.40937603169362824,
      "grad_norm": 11912.89453125,
      "learning_rate": 9.999788823116001e-05,
      "loss": 63.1052,
      "step": 155
    },
    {
      "epoch": 0.41201716738197425,
      "grad_norm": 8239.365234375,
      "learning_rate": 9.999781074202592e-05,
      "loss": 62.9719,
      "step": 156
    },
    {
      "epoch": 0.41465830307032026,
      "grad_norm": 26177.796875,
      "learning_rate": 9.999773185673232e-05,
      "loss": 66.0002,
      "step": 157
    },
    {
      "epoch": 0.4172994387586662,
      "grad_norm": 9830.423828125,
      "learning_rate": 9.999765157528145e-05,
      "loss": 65.7361,
      "step": 158
    },
    {
      "epoch": 0.4199405744470122,
      "grad_norm": 8552.87109375,
      "learning_rate": 9.99975698976755e-05,
      "loss": 64.1891,
      "step": 159
    },
    {
      "epoch": 0.4225817101353582,
      "grad_norm": 10444.751953125,
      "learning_rate": 9.99974868239168e-05,
      "loss": 65.8855,
      "step": 160
    },
    {
      "epoch": 0.4252228458237042,
      "grad_norm": 12173.095703125,
      "learning_rate": 9.999740235400765e-05,
      "loss": 63.3443,
      "step": 161
    },
    {
      "epoch": 0.4278639815120502,
      "grad_norm": 11087.4599609375,
      "learning_rate": 9.999731648795041e-05,
      "loss": 65.6896,
      "step": 162
    },
    {
      "epoch": 0.4305051172003962,
      "grad_norm": 10908.625,
      "learning_rate": 9.999722922574749e-05,
      "loss": 65.4028,
      "step": 163
    },
    {
      "epoch": 0.43314625288874214,
      "grad_norm": 7291.02001953125,
      "learning_rate": 9.999714056740129e-05,
      "loss": 63.5922,
      "step": 164
    },
    {
      "epoch": 0.43578738857708815,
      "grad_norm": 6860.20458984375,
      "learning_rate": 9.999705051291432e-05,
      "loss": 60.2327,
      "step": 165
    },
    {
      "epoch": 0.43842852426543416,
      "grad_norm": 7382.8486328125,
      "learning_rate": 9.999695906228908e-05,
      "loss": 61.5298,
      "step": 166
    },
    {
      "epoch": 0.4410696599537801,
      "grad_norm": 8748.15625,
      "learning_rate": 9.999686621552813e-05,
      "loss": 60.3499,
      "step": 167
    },
    {
      "epoch": 0.4437107956421261,
      "grad_norm": 7557.123046875,
      "learning_rate": 9.999677197263406e-05,
      "loss": 61.2833,
      "step": 168
    },
    {
      "epoch": 0.44635193133047213,
      "grad_norm": 9785.4970703125,
      "learning_rate": 9.999667633360952e-05,
      "loss": 59.1488,
      "step": 169
    },
    {
      "epoch": 0.4489930670188181,
      "grad_norm": 6642.07568359375,
      "learning_rate": 9.999657929845714e-05,
      "loss": 60.2657,
      "step": 170
    },
    {
      "epoch": 0.4516342027071641,
      "grad_norm": 7288.35791015625,
      "learning_rate": 9.999648086717966e-05,
      "loss": 58.5977,
      "step": 171
    },
    {
      "epoch": 0.45427533839551004,
      "grad_norm": 9205.5859375,
      "learning_rate": 9.999638103977982e-05,
      "loss": 60.8046,
      "step": 172
    },
    {
      "epoch": 0.45691647408385605,
      "grad_norm": 205730.28125,
      "learning_rate": 9.999627981626041e-05,
      "loss": 253.837,
      "step": 173
    },
    {
      "epoch": 0.45955760977220206,
      "grad_norm": 292243.1875,
      "learning_rate": 9.999617719662426e-05,
      "loss": 577.5921,
      "step": 174
    },
    {
      "epoch": 0.462198745460548,
      "grad_norm": 277600.3125,
      "learning_rate": 9.999607318087423e-05,
      "loss": 472.6887,
      "step": 175
    },
    {
      "epoch": 0.464839881148894,
      "grad_norm": 338165.75,
      "learning_rate": 9.999596776901322e-05,
      "loss": 514.7128,
      "step": 176
    },
    {
      "epoch": 0.46748101683724,
      "grad_norm": 315665.3125,
      "learning_rate": 9.999586096104419e-05,
      "loss": 483.1053,
      "step": 177
    },
    {
      "epoch": 0.470122152525586,
      "grad_norm": 571927.125,
      "learning_rate": 9.99957527569701e-05,
      "loss": 511.9148,
      "step": 178
    },
    {
      "epoch": 0.472763288213932,
      "grad_norm": 454109.53125,
      "learning_rate": 9.999564315679398e-05,
      "loss": 492.4402,
      "step": 179
    },
    {
      "epoch": 0.475404423902278,
      "grad_norm": 706091.5,
      "learning_rate": 9.99955321605189e-05,
      "loss": 368.7538,
      "step": 180
    },
    {
      "epoch": 0.47804555959062395,
      "grad_norm": 348701.1875,
      "learning_rate": 9.999541976814796e-05,
      "loss": 388.6287,
      "step": 181
    },
    {
      "epoch": 0.48068669527896996,
      "grad_norm": 230977.109375,
      "learning_rate": 9.999530597968428e-05,
      "loss": 256.7187,
      "step": 182
    },
    {
      "epoch": 0.48332783096731596,
      "grad_norm": 18771.59375,
      "learning_rate": 9.999519079513107e-05,
      "loss": 66.906,
      "step": 183
    },
    {
      "epoch": 0.4859689666556619,
      "grad_norm": 24637.7421875,
      "learning_rate": 9.999507421449151e-05,
      "loss": 72.0359,
      "step": 184
    },
    {
      "epoch": 0.4886101023440079,
      "grad_norm": 31083.162109375,
      "learning_rate": 9.999495623776886e-05,
      "loss": 68.0093,
      "step": 185
    },
    {
      "epoch": 0.49125123803235393,
      "grad_norm": 30000.046875,
      "learning_rate": 9.999483686496645e-05,
      "loss": 66.7047,
      "step": 186
    },
    {
      "epoch": 0.4938923737206999,
      "grad_norm": 18476.466796875,
      "learning_rate": 9.999471609608757e-05,
      "loss": 62.4154,
      "step": 187
    },
    {
      "epoch": 0.4965335094090459,
      "grad_norm": 19716.6640625,
      "learning_rate": 9.999459393113561e-05,
      "loss": 63.3046,
      "step": 188
    },
    {
      "epoch": 0.4991746450973919,
      "grad_norm": 20434.39453125,
      "learning_rate": 9.9994470370114e-05,
      "loss": 60.0479,
      "step": 189
    },
    {
      "epoch": 0.5018157807857379,
      "grad_norm": 36585.4140625,
      "learning_rate": 9.999434541302616e-05,
      "loss": 59.0921,
      "step": 190
    },
    {
      "epoch": 0.5044569164740839,
      "grad_norm": 9018.53125,
      "learning_rate": 9.99942190598756e-05,
      "loss": 58.4702,
      "step": 191
    },
    {
      "epoch": 0.5070980521624299,
      "grad_norm": 12309.4326171875,
      "learning_rate": 9.999409131066583e-05,
      "loss": 59.0886,
      "step": 192
    },
    {
      "epoch": 0.5097391878507759,
      "grad_norm": 12166.2783203125,
      "learning_rate": 9.999396216540044e-05,
      "loss": 59.2468,
      "step": 193
    },
    {
      "epoch": 0.5123803235391218,
      "grad_norm": 14935.9521484375,
      "learning_rate": 9.999383162408304e-05,
      "loss": 60.0897,
      "step": 194
    },
    {
      "epoch": 0.5150214592274678,
      "grad_norm": 8938.1298828125,
      "learning_rate": 9.999369968671723e-05,
      "loss": 60.3347,
      "step": 195
    },
    {
      "epoch": 0.5176625949158138,
      "grad_norm": 17657.203125,
      "learning_rate": 9.999356635330674e-05,
      "loss": 58.8355,
      "step": 196
    },
    {
      "epoch": 0.5203037306041598,
      "grad_norm": 11906.60546875,
      "learning_rate": 9.999343162385529e-05,
      "loss": 62.4666,
      "step": 197
    },
    {
      "epoch": 0.5229448662925058,
      "grad_norm": 16041.3076171875,
      "learning_rate": 9.99932954983666e-05,
      "loss": 62.736,
      "step": 198
    },
    {
      "epoch": 0.5255860019808518,
      "grad_norm": 17839.142578125,
      "learning_rate": 9.999315797684451e-05,
      "loss": 66.5862,
      "step": 199
    },
    {
      "epoch": 0.5282271376691977,
      "grad_norm": 38838.1328125,
      "learning_rate": 9.999301905929286e-05,
      "loss": 88.0897,
      "step": 200
    },
    {
      "epoch": 0.5282271376691977,
      "eval_loss": 10.59700870513916,
      "eval_runtime": 2.1454,
      "eval_samples_per_second": 230.732,
      "eval_steps_per_second": 57.799,
      "step": 200
    },
    {
      "epoch": 0.5308682733575437,
      "grad_norm": 3694.95458984375,
      "learning_rate": 9.999287874571552e-05,
      "loss": 70.7912,
      "step": 201
    },
    {
      "epoch": 0.5335094090458897,
      "grad_norm": 7569.90283203125,
      "learning_rate": 9.99927370361164e-05,
      "loss": 70.1254,
      "step": 202
    },
    {
      "epoch": 0.5361505447342357,
      "grad_norm": 11925.9208984375,
      "learning_rate": 9.999259393049947e-05,
      "loss": 67.0008,
      "step": 203
    },
    {
      "epoch": 0.5387916804225817,
      "grad_norm": 11617.2470703125,
      "learning_rate": 9.999244942886871e-05,
      "loss": 68.452,
      "step": 204
    },
    {
      "epoch": 0.5414328161109278,
      "grad_norm": 10854.8876953125,
      "learning_rate": 9.999230353122819e-05,
      "loss": 73.5345,
      "step": 205
    },
    {
      "epoch": 0.5440739517992736,
      "grad_norm": 10908.919921875,
      "learning_rate": 9.999215623758194e-05,
      "loss": 73.0862,
      "step": 206
    },
    {
      "epoch": 0.5467150874876197,
      "grad_norm": 11733.8857421875,
      "learning_rate": 9.99920075479341e-05,
      "loss": 67.9017,
      "step": 207
    },
    {
      "epoch": 0.5493562231759657,
      "grad_norm": 11104.685546875,
      "learning_rate": 9.999185746228882e-05,
      "loss": 70.7617,
      "step": 208
    },
    {
      "epoch": 0.5519973588643117,
      "grad_norm": 11203.22265625,
      "learning_rate": 9.999170598065028e-05,
      "loss": 70.7774,
      "step": 209
    },
    {
      "epoch": 0.5546384945526577,
      "grad_norm": 11004.7236328125,
      "learning_rate": 9.999155310302273e-05,
      "loss": 71.0292,
      "step": 210
    },
    {
      "epoch": 0.5572796302410036,
      "grad_norm": 19437.9375,
      "learning_rate": 9.999139882941043e-05,
      "loss": 67.4517,
      "step": 211
    },
    {
      "epoch": 0.5599207659293496,
      "grad_norm": 10864.544921875,
      "learning_rate": 9.999124315981766e-05,
      "loss": 66.7299,
      "step": 212
    },
    {
      "epoch": 0.5625619016176956,
      "grad_norm": 9301.4072265625,
      "learning_rate": 9.999108609424881e-05,
      "loss": 66.4239,
      "step": 213
    },
    {
      "epoch": 0.5652030373060416,
      "grad_norm": 10588.080078125,
      "learning_rate": 9.999092763270823e-05,
      "loss": 66.0725,
      "step": 214
    },
    {
      "epoch": 0.5678441729943876,
      "grad_norm": 8979.6298828125,
      "learning_rate": 9.999076777520037e-05,
      "loss": 65.9684,
      "step": 215
    },
    {
      "epoch": 0.5704853086827336,
      "grad_norm": 11648.29296875,
      "learning_rate": 9.99906065217297e-05,
      "loss": 64.9926,
      "step": 216
    },
    {
      "epoch": 0.5731264443710795,
      "grad_norm": 8562.33984375,
      "learning_rate": 9.99904438723007e-05,
      "loss": 63.8293,
      "step": 217
    },
    {
      "epoch": 0.5757675800594255,
      "grad_norm": 9085.8671875,
      "learning_rate": 9.999027982691793e-05,
      "loss": 64.2146,
      "step": 218
    },
    {
      "epoch": 0.5784087157477715,
      "grad_norm": 11899.927734375,
      "learning_rate": 9.999011438558595e-05,
      "loss": 66.3891,
      "step": 219
    },
    {
      "epoch": 0.5810498514361175,
      "grad_norm": 9598.9765625,
      "learning_rate": 9.99899475483094e-05,
      "loss": 64.4793,
      "step": 220
    },
    {
      "epoch": 0.5836909871244635,
      "grad_norm": 25579.998046875,
      "learning_rate": 9.998977931509291e-05,
      "loss": 81.3959,
      "step": 221
    },
    {
      "epoch": 0.5863321228128096,
      "grad_norm": 245254.65625,
      "learning_rate": 9.998960968594121e-05,
      "loss": 284.9948,
      "step": 222
    },
    {
      "epoch": 0.5889732585011554,
      "grad_norm": 461914.90625,
      "learning_rate": 9.998943866085903e-05,
      "loss": 593.3946,
      "step": 223
    },
    {
      "epoch": 0.5916143941895015,
      "grad_norm": 585288.625,
      "learning_rate": 9.998926623985114e-05,
      "loss": 503.4478,
      "step": 224
    },
    {
      "epoch": 0.5942555298778475,
      "grad_norm": 269043.96875,
      "learning_rate": 9.998909242292235e-05,
      "loss": 707.6039,
      "step": 225
    },
    {
      "epoch": 0.5968966655661935,
      "grad_norm": 381116.90625,
      "learning_rate": 9.998891721007752e-05,
      "loss": 658.0789,
      "step": 226
    },
    {
      "epoch": 0.5995378012545395,
      "grad_norm": 337170.28125,
      "learning_rate": 9.998874060132155e-05,
      "loss": 471.6391,
      "step": 227
    },
    {
      "epoch": 0.6021789369428855,
      "grad_norm": 825105.6875,
      "learning_rate": 9.998856259665936e-05,
      "loss": 563.7874,
      "step": 228
    },
    {
      "epoch": 0.6048200726312314,
      "grad_norm": 796742.5625,
      "learning_rate": 9.998838319609591e-05,
      "loss": 596.4635,
      "step": 229
    },
    {
      "epoch": 0.6074612083195774,
      "grad_norm": 948548.125,
      "learning_rate": 9.998820239963624e-05,
      "loss": 609.4591,
      "step": 230
    },
    {
      "epoch": 0.6101023440079234,
      "grad_norm": 808582.0,
      "learning_rate": 9.998802020728537e-05,
      "loss": 401.162,
      "step": 231
    },
    {
      "epoch": 0.6127434796962694,
      "grad_norm": 13525.0390625,
      "learning_rate": 9.998783661904843e-05,
      "loss": 69.3578,
      "step": 232
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 20728.669921875,
      "learning_rate": 9.99876516349305e-05,
      "loss": 71.1247,
      "step": 233
    },
    {
      "epoch": 0.6180257510729614,
      "grad_norm": 15068.5966796875,
      "learning_rate": 9.998746525493674e-05,
      "loss": 65.7083,
      "step": 234
    },
    {
      "epoch": 0.6206668867613073,
      "grad_norm": 14315.1669921875,
      "learning_rate": 9.99872774790724e-05,
      "loss": 65.8457,
      "step": 235
    },
    {
      "epoch": 0.6233080224496533,
      "grad_norm": 19398.673828125,
      "learning_rate": 9.99870883073427e-05,
      "loss": 64.2142,
      "step": 236
    },
    {
      "epoch": 0.6259491581379993,
      "grad_norm": 13164.232421875,
      "learning_rate": 9.998689773975291e-05,
      "loss": 62.7163,
      "step": 237
    },
    {
      "epoch": 0.6285902938263453,
      "grad_norm": 12071.3203125,
      "learning_rate": 9.998670577630838e-05,
      "loss": 63.4349,
      "step": 238
    },
    {
      "epoch": 0.6312314295146914,
      "grad_norm": 14491.6279296875,
      "learning_rate": 9.998651241701445e-05,
      "loss": 63.4186,
      "step": 239
    },
    {
      "epoch": 0.6338725652030373,
      "grad_norm": 14329.0244140625,
      "learning_rate": 9.998631766187651e-05,
      "loss": 63.8988,
      "step": 240
    },
    {
      "epoch": 0.6365137008913833,
      "grad_norm": 13378.42578125,
      "learning_rate": 9.998612151090003e-05,
      "loss": 64.8519,
      "step": 241
    },
    {
      "epoch": 0.6391548365797293,
      "grad_norm": 17472.20703125,
      "learning_rate": 9.998592396409047e-05,
      "loss": 65.1649,
      "step": 242
    },
    {
      "epoch": 0.6417959722680753,
      "grad_norm": 14112.044921875,
      "learning_rate": 9.998572502145334e-05,
      "loss": 63.5169,
      "step": 243
    },
    {
      "epoch": 0.6444371079564213,
      "grad_norm": 12317.0458984375,
      "learning_rate": 9.998552468299421e-05,
      "loss": 64.896,
      "step": 244
    },
    {
      "epoch": 0.6470782436447673,
      "grad_norm": 14267.3935546875,
      "learning_rate": 9.998532294871866e-05,
      "loss": 63.8178,
      "step": 245
    },
    {
      "epoch": 0.6497193793331132,
      "grad_norm": 11890.05859375,
      "learning_rate": 9.998511981863232e-05,
      "loss": 61.3388,
      "step": 246
    },
    {
      "epoch": 0.6523605150214592,
      "grad_norm": 16452.38671875,
      "learning_rate": 9.998491529274089e-05,
      "loss": 62.4636,
      "step": 247
    },
    {
      "epoch": 0.6550016507098052,
      "grad_norm": 18463.275390625,
      "learning_rate": 9.998470937105006e-05,
      "loss": 64.5606,
      "step": 248
    },
    {
      "epoch": 0.6576427863981512,
      "grad_norm": 16050.0419921875,
      "learning_rate": 9.998450205356557e-05,
      "loss": 67.6247,
      "step": 249
    },
    {
      "epoch": 0.6602839220864972,
      "grad_norm": 43525.80859375,
      "learning_rate": 9.998429334029323e-05,
      "loss": 74.6141,
      "step": 250
    },
    {
      "epoch": 0.6629250577748432,
      "grad_norm": 3725.85693359375,
      "learning_rate": 9.998408323123887e-05,
      "loss": 68.5792,
      "step": 251
    },
    {
      "epoch": 0.6655661934631891,
      "grad_norm": 9637.2275390625,
      "learning_rate": 9.998387172640834e-05,
      "loss": 68.4554,
      "step": 252
    },
    {
      "epoch": 0.6682073291515351,
      "grad_norm": 14481.005859375,
      "learning_rate": 9.998365882580756e-05,
      "loss": 68.1712,
      "step": 253
    },
    {
      "epoch": 0.6708484648398811,
      "grad_norm": 11797.9658203125,
      "learning_rate": 9.998344452944247e-05,
      "loss": 65.2306,
      "step": 254
    },
    {
      "epoch": 0.6734896005282272,
      "grad_norm": 10886.556640625,
      "learning_rate": 9.998322883731903e-05,
      "loss": 66.0697,
      "step": 255
    },
    {
      "epoch": 0.6761307362165732,
      "grad_norm": 9600.83203125,
      "learning_rate": 9.998301174944332e-05,
      "loss": 65.1392,
      "step": 256
    },
    {
      "epoch": 0.6787718719049192,
      "grad_norm": 9407.5732421875,
      "learning_rate": 9.998279326582134e-05,
      "loss": 66.4946,
      "step": 257
    },
    {
      "epoch": 0.6814130075932651,
      "grad_norm": 9613.078125,
      "learning_rate": 9.998257338645924e-05,
      "loss": 66.5279,
      "step": 258
    },
    {
      "epoch": 0.6840541432816111,
      "grad_norm": 11849.9658203125,
      "learning_rate": 9.998235211136312e-05,
      "loss": 62.42,
      "step": 259
    },
    {
      "epoch": 0.6866952789699571,
      "grad_norm": 7529.81298828125,
      "learning_rate": 9.99821294405392e-05,
      "loss": 63.2745,
      "step": 260
    },
    {
      "epoch": 0.6893364146583031,
      "grad_norm": 8242.2734375,
      "learning_rate": 9.998190537399366e-05,
      "loss": 62.0032,
      "step": 261
    },
    {
      "epoch": 0.6919775503466491,
      "grad_norm": 8303.287109375,
      "learning_rate": 9.998167991173277e-05,
      "loss": 61.1192,
      "step": 262
    },
    {
      "epoch": 0.6946186860349951,
      "grad_norm": 8776.1552734375,
      "learning_rate": 9.998145305376286e-05,
      "loss": 61.8228,
      "step": 263
    },
    {
      "epoch": 0.697259821723341,
      "grad_norm": 8703.177734375,
      "learning_rate": 9.99812248000902e-05,
      "loss": 58.9814,
      "step": 264
    },
    {
      "epoch": 0.699900957411687,
      "grad_norm": 5833.73291015625,
      "learning_rate": 9.998099515072122e-05,
      "loss": 59.393,
      "step": 265
    },
    {
      "epoch": 0.702542093100033,
      "grad_norm": 7563.53955078125,
      "learning_rate": 9.998076410566229e-05,
      "loss": 59.9513,
      "step": 266
    },
    {
      "epoch": 0.705183228788379,
      "grad_norm": 6206.10302734375,
      "learning_rate": 9.99805316649199e-05,
      "loss": 56.7019,
      "step": 267
    },
    {
      "epoch": 0.707824364476725,
      "grad_norm": 10631.1572265625,
      "learning_rate": 9.998029782850051e-05,
      "loss": 57.3627,
      "step": 268
    },
    {
      "epoch": 0.7104655001650709,
      "grad_norm": 9288.6162109375,
      "learning_rate": 9.998006259641068e-05,
      "loss": 57.3989,
      "step": 269
    },
    {
      "epoch": 0.7131066358534169,
      "grad_norm": 6667.482421875,
      "learning_rate": 9.997982596865695e-05,
      "loss": 57.6789,
      "step": 270
    },
    {
      "epoch": 0.715747771541763,
      "grad_norm": 17684.41796875,
      "learning_rate": 9.997958794524594e-05,
      "loss": 62.7689,
      "step": 271
    },
    {
      "epoch": 0.718388907230109,
      "grad_norm": 252370.53125,
      "learning_rate": 9.99793485261843e-05,
      "loss": 305.7854,
      "step": 272
    },
    {
      "epoch": 0.721030042918455,
      "grad_norm": 664039.5,
      "learning_rate": 9.997910771147872e-05,
      "loss": 555.3836,
      "step": 273
    },
    {
      "epoch": 0.723671178606801,
      "grad_norm": 580103.3125,
      "learning_rate": 9.99788655011359e-05,
      "loss": 510.4261,
      "step": 274
    },
    {
      "epoch": 0.7263123142951469,
      "grad_norm": 580392.125,
      "learning_rate": 9.997862189516263e-05,
      "loss": 611.9569,
      "step": 275
    },
    {
      "epoch": 0.7289534499834929,
      "grad_norm": 400392.0,
      "learning_rate": 9.99783768935657e-05,
      "loss": 430.9034,
      "step": 276
    },
    {
      "epoch": 0.7315945856718389,
      "grad_norm": 478446.125,
      "learning_rate": 9.997813049635195e-05,
      "loss": 414.0167,
      "step": 277
    },
    {
      "epoch": 0.7342357213601849,
      "grad_norm": 808013.3125,
      "learning_rate": 9.997788270352827e-05,
      "loss": 480.0751,
      "step": 278
    },
    {
      "epoch": 0.7368768570485309,
      "grad_norm": 705417.6875,
      "learning_rate": 9.997763351510157e-05,
      "loss": 438.6093,
      "step": 279
    },
    {
      "epoch": 0.7395179927368769,
      "grad_norm": 465065.15625,
      "learning_rate": 9.997738293107881e-05,
      "loss": 402.4464,
      "step": 280
    },
    {
      "epoch": 0.7421591284252228,
      "grad_norm": 1029938.5,
      "learning_rate": 9.9977130951467e-05,
      "loss": 325.2719,
      "step": 281
    },
    {
      "epoch": 0.7448002641135688,
      "grad_norm": 438944.9375,
      "learning_rate": 9.997687757627316e-05,
      "loss": 133.4326,
      "step": 282
    },
    {
      "epoch": 0.7474413998019148,
      "grad_norm": 11383.103515625,
      "learning_rate": 9.997662280550437e-05,
      "loss": 59.436,
      "step": 283
    },
    {
      "epoch": 0.7500825354902608,
      "grad_norm": 12389.4365234375,
      "learning_rate": 9.997636663916776e-05,
      "loss": 59.0242,
      "step": 284
    },
    {
      "epoch": 0.7527236711786068,
      "grad_norm": 17077.525390625,
      "learning_rate": 9.997610907727046e-05,
      "loss": 62.5651,
      "step": 285
    },
    {
      "epoch": 0.7553648068669528,
      "grad_norm": 13895.0234375,
      "learning_rate": 9.997585011981966e-05,
      "loss": 59.2132,
      "step": 286
    },
    {
      "epoch": 0.7580059425552987,
      "grad_norm": 15847.7353515625,
      "learning_rate": 9.997558976682262e-05,
      "loss": 57.9522,
      "step": 287
    },
    {
      "epoch": 0.7606470782436447,
      "grad_norm": 11588.943359375,
      "learning_rate": 9.997532801828658e-05,
      "loss": 57.9217,
      "step": 288
    },
    {
      "epoch": 0.7632882139319908,
      "grad_norm": 16579.208984375,
      "learning_rate": 9.997506487421888e-05,
      "loss": 60.2787,
      "step": 289
    },
    {
      "epoch": 0.7659293496203368,
      "grad_norm": 14254.7177734375,
      "learning_rate": 9.997480033462683e-05,
      "loss": 59.4413,
      "step": 290
    },
    {
      "epoch": 0.7685704853086828,
      "grad_norm": 17540.08984375,
      "learning_rate": 9.997453439951784e-05,
      "loss": 59.8224,
      "step": 291
    },
    {
      "epoch": 0.7712116209970287,
      "grad_norm": 9918.6962890625,
      "learning_rate": 9.997426706889935e-05,
      "loss": 59.8017,
      "step": 292
    },
    {
      "epoch": 0.7738527566853747,
      "grad_norm": 13995.48828125,
      "learning_rate": 9.997399834277878e-05,
      "loss": 60.269,
      "step": 293
    },
    {
      "epoch": 0.7764938923737207,
      "grad_norm": 8614.5107421875,
      "learning_rate": 9.997372822116368e-05,
      "loss": 59.3231,
      "step": 294
    },
    {
      "epoch": 0.7791350280620667,
      "grad_norm": 13204.427734375,
      "learning_rate": 9.99734567040616e-05,
      "loss": 56.924,
      "step": 295
    },
    {
      "epoch": 0.7817761637504127,
      "grad_norm": 16248.548828125,
      "learning_rate": 9.997318379148007e-05,
      "loss": 61.0552,
      "step": 296
    },
    {
      "epoch": 0.7844172994387587,
      "grad_norm": 14133.9208984375,
      "learning_rate": 9.997290948342673e-05,
      "loss": 59.6736,
      "step": 297
    },
    {
      "epoch": 0.7870584351271046,
      "grad_norm": 15652.419921875,
      "learning_rate": 9.997263377990926e-05,
      "loss": 60.1692,
      "step": 298
    },
    {
      "epoch": 0.7896995708154506,
      "grad_norm": 18741.619140625,
      "learning_rate": 9.997235668093535e-05,
      "loss": 66.0071,
      "step": 299
    },
    {
      "epoch": 0.7923407065037966,
      "grad_norm": 21825.05078125,
      "learning_rate": 9.997207818651274e-05,
      "loss": 67.6062,
      "step": 300
    },
    {
      "epoch": 0.7949818421921426,
      "grad_norm": 2637.73046875,
      "learning_rate": 9.997179829664918e-05,
      "loss": 64.2331,
      "step": 301
    },
    {
      "epoch": 0.7976229778804886,
      "grad_norm": 8206.5966796875,
      "learning_rate": 9.997151701135253e-05,
      "loss": 63.1637,
      "step": 302
    },
    {
      "epoch": 0.8002641135688346,
      "grad_norm": 9712.4833984375,
      "learning_rate": 9.997123433063062e-05,
      "loss": 61.4383,
      "step": 303
    },
    {
      "epoch": 0.8029052492571805,
      "grad_norm": 8519.5078125,
      "learning_rate": 9.997095025449134e-05,
      "loss": 65.2138,
      "step": 304
    },
    {
      "epoch": 0.8055463849455266,
      "grad_norm": 9691.27734375,
      "learning_rate": 9.997066478294262e-05,
      "loss": 66.0385,
      "step": 305
    },
    {
      "epoch": 0.8081875206338726,
      "grad_norm": 7133.42822265625,
      "learning_rate": 9.997037791599245e-05,
      "loss": 63.5754,
      "step": 306
    },
    {
      "epoch": 0.8108286563222186,
      "grad_norm": 11070.7421875,
      "learning_rate": 9.997008965364884e-05,
      "loss": 62.8546,
      "step": 307
    },
    {
      "epoch": 0.8134697920105646,
      "grad_norm": 17131.470703125,
      "learning_rate": 9.996979999591983e-05,
      "loss": 64.5126,
      "step": 308
    },
    {
      "epoch": 0.8161109276989106,
      "grad_norm": 8100.720703125,
      "learning_rate": 9.996950894281349e-05,
      "loss": 62.2825,
      "step": 309
    },
    {
      "epoch": 0.8187520633872565,
      "grad_norm": 8409.66015625,
      "learning_rate": 9.996921649433796e-05,
      "loss": 63.2592,
      "step": 310
    },
    {
      "epoch": 0.8213931990756025,
      "grad_norm": 13785.3310546875,
      "learning_rate": 9.996892265050144e-05,
      "loss": 62.3268,
      "step": 311
    },
    {
      "epoch": 0.8240343347639485,
      "grad_norm": 8336.591796875,
      "learning_rate": 9.99686274113121e-05,
      "loss": 62.088,
      "step": 312
    },
    {
      "epoch": 0.8266754704522945,
      "grad_norm": 10653.974609375,
      "learning_rate": 9.996833077677819e-05,
      "loss": 63.5181,
      "step": 313
    },
    {
      "epoch": 0.8293166061406405,
      "grad_norm": 12778.6669921875,
      "learning_rate": 9.9968032746908e-05,
      "loss": 59.519,
      "step": 314
    },
    {
      "epoch": 0.8319577418289865,
      "grad_norm": 7400.33642578125,
      "learning_rate": 9.996773332170983e-05,
      "loss": 58.8288,
      "step": 315
    },
    {
      "epoch": 0.8345988775173324,
      "grad_norm": 9944.3662109375,
      "learning_rate": 9.996743250119209e-05,
      "loss": 59.9352,
      "step": 316
    },
    {
      "epoch": 0.8372400132056784,
      "grad_norm": 13972.748046875,
      "learning_rate": 9.996713028536313e-05,
      "loss": 59.4545,
      "step": 317
    },
    {
      "epoch": 0.8398811488940244,
      "grad_norm": 18110.81640625,
      "learning_rate": 9.99668266742314e-05,
      "loss": 59.069,
      "step": 318
    },
    {
      "epoch": 0.8425222845823704,
      "grad_norm": 15435.197265625,
      "learning_rate": 9.99665216678054e-05,
      "loss": 58.4697,
      "step": 319
    },
    {
      "epoch": 0.8451634202707164,
      "grad_norm": 13905.0234375,
      "learning_rate": 9.996621526609364e-05,
      "loss": 58.9704,
      "step": 320
    },
    {
      "epoch": 0.8478045559590623,
      "grad_norm": 8557.2861328125,
      "learning_rate": 9.996590746910467e-05,
      "loss": 58.9029,
      "step": 321
    },
    {
      "epoch": 0.8504456916474084,
      "grad_norm": 148880.8125,
      "learning_rate": 9.996559827684709e-05,
      "loss": 99.4343,
      "step": 322
    },
    {
      "epoch": 0.8530868273357544,
      "grad_norm": 393529.59375,
      "learning_rate": 9.996528768932951e-05,
      "loss": 350.0454,
      "step": 323
    },
    {
      "epoch": 0.8557279630241004,
      "grad_norm": 1061575.0,
      "learning_rate": 9.996497570656062e-05,
      "loss": 439.9771,
      "step": 324
    },
    {
      "epoch": 0.8583690987124464,
      "grad_norm": 552709.625,
      "learning_rate": 9.996466232854915e-05,
      "loss": 467.0348,
      "step": 325
    },
    {
      "epoch": 0.8610102344007924,
      "grad_norm": 767159.625,
      "learning_rate": 9.996434755530384e-05,
      "loss": 426.5998,
      "step": 326
    },
    {
      "epoch": 0.8636513700891383,
      "grad_norm": 1236165.875,
      "learning_rate": 9.996403138683347e-05,
      "loss": 499.8257,
      "step": 327
    },
    {
      "epoch": 0.8662925057774843,
      "grad_norm": 541820.5,
      "learning_rate": 9.996371382314686e-05,
      "loss": 493.8622,
      "step": 328
    },
    {
      "epoch": 0.8689336414658303,
      "grad_norm": 289596.21875,
      "learning_rate": 9.996339486425291e-05,
      "loss": 424.9042,
      "step": 329
    },
    {
      "epoch": 0.8715747771541763,
      "grad_norm": 575659.1875,
      "learning_rate": 9.99630745101605e-05,
      "loss": 383.0528,
      "step": 330
    },
    {
      "epoch": 0.8742159128425223,
      "grad_norm": 1122850.75,
      "learning_rate": 9.996275276087859e-05,
      "loss": 381.5712,
      "step": 331
    },
    {
      "epoch": 0.8768570485308683,
      "grad_norm": 510877.03125,
      "learning_rate": 9.996242961641615e-05,
      "loss": 305.4172,
      "step": 332
    },
    {
      "epoch": 0.8794981842192142,
      "grad_norm": 23915.0078125,
      "learning_rate": 9.996210507678223e-05,
      "loss": 66.8374,
      "step": 333
    },
    {
      "epoch": 0.8821393199075602,
      "grad_norm": 15597.9814453125,
      "learning_rate": 9.996177914198586e-05,
      "loss": 62.5703,
      "step": 334
    },
    {
      "epoch": 0.8847804555959062,
      "grad_norm": 16045.9091796875,
      "learning_rate": 9.996145181203615e-05,
      "loss": 59.8236,
      "step": 335
    },
    {
      "epoch": 0.8874215912842522,
      "grad_norm": 11153.94921875,
      "learning_rate": 9.996112308694225e-05,
      "loss": 59.7523,
      "step": 336
    },
    {
      "epoch": 0.8900627269725983,
      "grad_norm": 24600.546875,
      "learning_rate": 9.996079296671334e-05,
      "loss": 59.103,
      "step": 337
    },
    {
      "epoch": 0.8927038626609443,
      "grad_norm": 15846.4345703125,
      "learning_rate": 9.996046145135865e-05,
      "loss": 57.7033,
      "step": 338
    },
    {
      "epoch": 0.8953449983492902,
      "grad_norm": 14696.9482421875,
      "learning_rate": 9.99601285408874e-05,
      "loss": 58.9927,
      "step": 339
    },
    {
      "epoch": 0.8979861340376362,
      "grad_norm": 18041.802734375,
      "learning_rate": 9.995979423530892e-05,
      "loss": 58.9629,
      "step": 340
    },
    {
      "epoch": 0.9006272697259822,
      "grad_norm": 14364.46484375,
      "learning_rate": 9.995945853463253e-05,
      "loss": 58.5847,
      "step": 341
    },
    {
      "epoch": 0.9032684054143282,
      "grad_norm": 9606.1572265625,
      "learning_rate": 9.995912143886763e-05,
      "loss": 57.8905,
      "step": 342
    },
    {
      "epoch": 0.9059095411026742,
      "grad_norm": 18811.689453125,
      "learning_rate": 9.995878294802357e-05,
      "loss": 58.0623,
      "step": 343
    },
    {
      "epoch": 0.9085506767910201,
      "grad_norm": 11506.2353515625,
      "learning_rate": 9.995844306210988e-05,
      "loss": 58.0829,
      "step": 344
    },
    {
      "epoch": 0.9111918124793661,
      "grad_norm": 14010.29296875,
      "learning_rate": 9.995810178113599e-05,
      "loss": 59.2473,
      "step": 345
    },
    {
      "epoch": 0.9138329481677121,
      "grad_norm": 14964.6474609375,
      "learning_rate": 9.995775910511147e-05,
      "loss": 61.7464,
      "step": 346
    },
    {
      "epoch": 0.9164740838560581,
      "grad_norm": 19705.8671875,
      "learning_rate": 9.995741503404587e-05,
      "loss": 59.3706,
      "step": 347
    },
    {
      "epoch": 0.9191152195444041,
      "grad_norm": 52520.546875,
      "learning_rate": 9.995706956794879e-05,
      "loss": 64.7237,
      "step": 348
    },
    {
      "epoch": 0.9217563552327501,
      "grad_norm": 22547.396484375,
      "learning_rate": 9.99567227068299e-05,
      "loss": 66.6127,
      "step": 349
    },
    {
      "epoch": 0.924397490921096,
      "grad_norm": 46974.98046875,
      "learning_rate": 9.995637445069887e-05,
      "loss": 73.9882,
      "step": 350
    },
    {
      "epoch": 0.927038626609442,
      "grad_norm": 6136.3505859375,
      "learning_rate": 9.995602479956545e-05,
      "loss": 62.4233,
      "step": 351
    },
    {
      "epoch": 0.929679762297788,
      "grad_norm": 8587.3564453125,
      "learning_rate": 9.995567375343937e-05,
      "loss": 61.321,
      "step": 352
    },
    {
      "epoch": 0.932320897986134,
      "grad_norm": 10655.9970703125,
      "learning_rate": 9.995532131233044e-05,
      "loss": 66.1859,
      "step": 353
    },
    {
      "epoch": 0.93496203367448,
      "grad_norm": 8629.3466796875,
      "learning_rate": 9.99549674762485e-05,
      "loss": 65.6821,
      "step": 354
    },
    {
      "epoch": 0.9376031693628261,
      "grad_norm": 12914.33984375,
      "learning_rate": 9.995461224520345e-05,
      "loss": 63.7299,
      "step": 355
    },
    {
      "epoch": 0.940244305051172,
      "grad_norm": 8047.43408203125,
      "learning_rate": 9.995425561920519e-05,
      "loss": 63.5199,
      "step": 356
    },
    {
      "epoch": 0.942885440739518,
      "grad_norm": 10055.4541015625,
      "learning_rate": 9.99538975982637e-05,
      "loss": 62.5686,
      "step": 357
    },
    {
      "epoch": 0.945526576427864,
      "grad_norm": 7842.205078125,
      "learning_rate": 9.995353818238895e-05,
      "loss": 60.4935,
      "step": 358
    },
    {
      "epoch": 0.94816771211621,
      "grad_norm": 11816.7744140625,
      "learning_rate": 9.9953177371591e-05,
      "loss": 60.5945,
      "step": 359
    },
    {
      "epoch": 0.950808847804556,
      "grad_norm": 9103.77734375,
      "learning_rate": 9.995281516587991e-05,
      "loss": 58.469,
      "step": 360
    },
    {
      "epoch": 0.953449983492902,
      "grad_norm": 9220.1435546875,
      "learning_rate": 9.99524515652658e-05,
      "loss": 60.1234,
      "step": 361
    },
    {
      "epoch": 0.9560911191812479,
      "grad_norm": 12009.244140625,
      "learning_rate": 9.995208656975884e-05,
      "loss": 62.1523,
      "step": 362
    },
    {
      "epoch": 0.9587322548695939,
      "grad_norm": 229421.28125,
      "learning_rate": 9.995172017936919e-05,
      "loss": 300.6131,
      "step": 363
    },
    {
      "epoch": 0.9613733905579399,
      "grad_norm": 245295.8125,
      "learning_rate": 9.99513523941071e-05,
      "loss": 419.0695,
      "step": 364
    },
    {
      "epoch": 0.9640145262462859,
      "grad_norm": 410617.90625,
      "learning_rate": 9.995098321398284e-05,
      "loss": 378.4255,
      "step": 365
    },
    {
      "epoch": 0.9666556619346319,
      "grad_norm": 421334.40625,
      "learning_rate": 9.995061263900671e-05,
      "loss": 336.8766,
      "step": 366
    },
    {
      "epoch": 0.9692967976229779,
      "grad_norm": 493650.0625,
      "learning_rate": 9.995024066918908e-05,
      "loss": 285.4703,
      "step": 367
    },
    {
      "epoch": 0.9719379333113238,
      "grad_norm": 341138.4375,
      "learning_rate": 9.994986730454031e-05,
      "loss": 327.6716,
      "step": 368
    },
    {
      "epoch": 0.9745790689996698,
      "grad_norm": 29870.67578125,
      "learning_rate": 9.994949254507084e-05,
      "loss": 68.203,
      "step": 369
    },
    {
      "epoch": 0.9772202046880158,
      "grad_norm": 11504.2099609375,
      "learning_rate": 9.994911639079112e-05,
      "loss": 59.4822,
      "step": 370
    },
    {
      "epoch": 0.9798613403763619,
      "grad_norm": 13730.798828125,
      "learning_rate": 9.994873884171167e-05,
      "loss": 61.4645,
      "step": 371
    },
    {
      "epoch": 0.9825024760647079,
      "grad_norm": 13915.8955078125,
      "learning_rate": 9.994835989784305e-05,
      "loss": 61.7707,
      "step": 372
    },
    {
      "epoch": 0.9851436117530538,
      "grad_norm": 11192.7958984375,
      "learning_rate": 9.994797955919581e-05,
      "loss": 60.4613,
      "step": 373
    },
    {
      "epoch": 0.9877847474413998,
      "grad_norm": 16333.625,
      "learning_rate": 9.994759782578058e-05,
      "loss": 61.5988,
      "step": 374
    },
    {
      "epoch": 0.9904258831297458,
      "grad_norm": 7811.99169921875,
      "learning_rate": 9.994721469760801e-05,
      "loss": 61.6461,
      "step": 375
    },
    {
      "epoch": 0.9930670188180918,
      "grad_norm": 20771.388671875,
      "learning_rate": 9.994683017468883e-05,
      "loss": 60.9048,
      "step": 376
    },
    {
      "epoch": 0.9957081545064378,
      "grad_norm": 40759.0625,
      "learning_rate": 9.994644425703374e-05,
      "loss": 63.0121,
      "step": 377
    },
    {
      "epoch": 0.9983492901947838,
      "grad_norm": 18481.259765625,
      "learning_rate": 9.994605694465355e-05,
      "loss": 66.464,
      "step": 378
    },
    {
      "epoch": 1.0014856388246947,
      "grad_norm": 15701.447265625,
      "learning_rate": 9.994566823755907e-05,
      "loss": 70.2724,
      "step": 379
    },
    {
      "epoch": 1.0041267745130407,
      "grad_norm": 5057.27294921875,
      "learning_rate": 9.99452781357611e-05,
      "loss": 63.1513,
      "step": 380
    },
    {
      "epoch": 1.0067679102013867,
      "grad_norm": 9864.3193359375,
      "learning_rate": 9.994488663927062e-05,
      "loss": 61.9906,
      "step": 381
    },
    {
      "epoch": 1.0094090458897327,
      "grad_norm": 6700.53125,
      "learning_rate": 9.994449374809851e-05,
      "loss": 62.4899,
      "step": 382
    },
    {
      "epoch": 1.0120501815780785,
      "grad_norm": 6837.01904296875,
      "learning_rate": 9.994409946225574e-05,
      "loss": 65.2269,
      "step": 383
    },
    {
      "epoch": 1.0146913172664245,
      "grad_norm": 13164.2265625,
      "learning_rate": 9.994370378175332e-05,
      "loss": 64.4564,
      "step": 384
    },
    {
      "epoch": 1.0173324529547705,
      "grad_norm": 6737.4931640625,
      "learning_rate": 9.994330670660235e-05,
      "loss": 66.8069,
      "step": 385
    },
    {
      "epoch": 1.0199735886431165,
      "grad_norm": 7182.29052734375,
      "learning_rate": 9.994290823681385e-05,
      "loss": 63.7669,
      "step": 386
    },
    {
      "epoch": 1.0226147243314625,
      "grad_norm": 6725.6865234375,
      "learning_rate": 9.994250837239897e-05,
      "loss": 64.2153,
      "step": 387
    },
    {
      "epoch": 1.0252558600198085,
      "grad_norm": 8369.416015625,
      "learning_rate": 9.994210711336891e-05,
      "loss": 64.0927,
      "step": 388
    },
    {
      "epoch": 1.0278969957081545,
      "grad_norm": 9409.310546875,
      "learning_rate": 9.994170445973483e-05,
      "loss": 64.6209,
      "step": 389
    },
    {
      "epoch": 1.0305381313965005,
      "grad_norm": 9622.2392578125,
      "learning_rate": 9.994130041150798e-05,
      "loss": 63.6005,
      "step": 390
    },
    {
      "epoch": 1.0331792670848465,
      "grad_norm": 7618.46533203125,
      "learning_rate": 9.994089496869968e-05,
      "loss": 63.3025,
      "step": 391
    },
    {
      "epoch": 1.0358204027731925,
      "grad_norm": 12586.142578125,
      "learning_rate": 9.994048813132119e-05,
      "loss": 61.8642,
      "step": 392
    },
    {
      "epoch": 1.0384615384615385,
      "grad_norm": 9250.41796875,
      "learning_rate": 9.994007989938392e-05,
      "loss": 61.8174,
      "step": 393
    },
    {
      "epoch": 1.0411026741498846,
      "grad_norm": 8754.533203125,
      "learning_rate": 9.993967027289927e-05,
      "loss": 62.1932,
      "step": 394
    },
    {
      "epoch": 1.0437438098382303,
      "grad_norm": 8648.9921875,
      "learning_rate": 9.993925925187865e-05,
      "loss": 60.8662,
      "step": 395
    },
    {
      "epoch": 1.0463849455265763,
      "grad_norm": 9864.1015625,
      "learning_rate": 9.993884683633354e-05,
      "loss": 61.4257,
      "step": 396
    },
    {
      "epoch": 1.0490260812149224,
      "grad_norm": 9742.0888671875,
      "learning_rate": 9.993843302627549e-05,
      "loss": 60.0106,
      "step": 397
    },
    {
      "epoch": 1.0516672169032684,
      "grad_norm": 9846.623046875,
      "learning_rate": 9.993801782171603e-05,
      "loss": 60.2374,
      "step": 398
    },
    {
      "epoch": 1.0543083525916144,
      "grad_norm": 6269.61376953125,
      "learning_rate": 9.993760122266676e-05,
      "loss": 60.5703,
      "step": 399
    },
    {
      "epoch": 1.0569494882799604,
      "grad_norm": 35210.05078125,
      "learning_rate": 9.99371832291393e-05,
      "loss": 87.2034,
      "step": 400
    },
    {
      "epoch": 1.0569494882799604,
      "eval_loss": 8.187799453735352,
      "eval_runtime": 2.2268,
      "eval_samples_per_second": 222.293,
      "eval_steps_per_second": 55.686,
      "step": 400
    }
  ],
  "logging_steps": 1,
  "max_steps": 18900,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1043707151253504.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}