Training in progress, step 200, checkpoint

3dbd56d verified 6 days ago

36.4 kB

	{
	"best_metric": 0.36728447675704956,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.1568627450980392,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.000784313725490196,
	"grad_norm": 12.951228141784668,
	"learning_rate": 9e-06,
	"loss": 4.2676,
	"step": 1
	},
	{
	"epoch": 0.000784313725490196,
	"eval_loss": 1.2241708040237427,
	"eval_runtime": 170.1958,
	"eval_samples_per_second": 12.621,
	"eval_steps_per_second": 3.155,
	"step": 1
	},
	{
	"epoch": 0.001568627450980392,
	"grad_norm": 15.065213203430176,
	"learning_rate": 1.8e-05,
	"loss": 2.7549,
	"step": 2
	},
	{
	"epoch": 0.002352941176470588,
	"grad_norm": 13.755888938903809,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 2.7658,
	"step": 3
	},
	{
	"epoch": 0.003137254901960784,
	"grad_norm": 11.931817054748535,
	"learning_rate": 3.6e-05,
	"loss": 2.2277,
	"step": 4
	},
	{
	"epoch": 0.00392156862745098,
	"grad_norm": 8.542208671569824,
	"learning_rate": 4.5e-05,
	"loss": 1.8974,
	"step": 5
	},
	{
	"epoch": 0.004705882352941176,
	"grad_norm": 7.989168643951416,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 2.0913,
	"step": 6
	},
	{
	"epoch": 0.005490196078431373,
	"grad_norm": 6.630977630615234,
	"learning_rate": 6.3e-05,
	"loss": 1.6821,
	"step": 7
	},
	{
	"epoch": 0.006274509803921568,
	"grad_norm": 6.496756553649902,
	"learning_rate": 7.2e-05,
	"loss": 1.6665,
	"step": 8
	},
	{
	"epoch": 0.007058823529411765,
	"grad_norm": 7.982497215270996,
	"learning_rate": 8.1e-05,
	"loss": 2.0694,
	"step": 9
	},
	{
	"epoch": 0.00784313725490196,
	"grad_norm": 6.226460933685303,
	"learning_rate": 9e-05,
	"loss": 1.6821,
	"step": 10
	},
	{
	"epoch": 0.008627450980392156,
	"grad_norm": 6.819662570953369,
	"learning_rate": 8.999384872466111e-05,
	"loss": 1.73,
	"step": 11
	},
	{
	"epoch": 0.009411764705882352,
	"grad_norm": 8.317466735839844,
	"learning_rate": 8.997539658034168e-05,
	"loss": 1.7702,
	"step": 12
	},
	{
	"epoch": 0.01019607843137255,
	"grad_norm": 7.111891269683838,
	"learning_rate": 8.994464861167372e-05,
	"loss": 1.6366,
	"step": 13
	},
	{
	"epoch": 0.010980392156862745,
	"grad_norm": 7.476611614227295,
	"learning_rate": 8.990161322484486e-05,
	"loss": 1.6355,
	"step": 14
	},
	{
	"epoch": 0.011764705882352941,
	"grad_norm": 6.031744480133057,
	"learning_rate": 8.984630218530015e-05,
	"loss": 1.4807,
	"step": 15
	},
	{
	"epoch": 0.012549019607843137,
	"grad_norm": 6.812473773956299,
	"learning_rate": 8.977873061452552e-05,
	"loss": 1.6878,
	"step": 16
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 8.05068588256836,
	"learning_rate": 8.969891698591372e-05,
	"loss": 1.828,
	"step": 17
	},
	{
	"epoch": 0.01411764705882353,
	"grad_norm": 12.39442253112793,
	"learning_rate": 8.96068831197139e-05,
	"loss": 1.5053,
	"step": 18
	},
	{
	"epoch": 0.014901960784313726,
	"grad_norm": 10.175419807434082,
	"learning_rate": 8.950265417706609e-05,
	"loss": 1.7489,
	"step": 19
	},
	{
	"epoch": 0.01568627450980392,
	"grad_norm": 8.073866844177246,
	"learning_rate": 8.938625865312251e-05,
	"loss": 1.9391,
	"step": 20
	},
	{
	"epoch": 0.01647058823529412,
	"grad_norm": 7.202723026275635,
	"learning_rate": 8.925772836925722e-05,
	"loss": 1.3958,
	"step": 21
	},
	{
	"epoch": 0.017254901960784313,
	"grad_norm": 8.959539413452148,
	"learning_rate": 8.911709846436643e-05,
	"loss": 1.6471,
	"step": 22
	},
	{
	"epoch": 0.01803921568627451,
	"grad_norm": 9.780714988708496,
	"learning_rate": 8.896440738526198e-05,
	"loss": 1.3311,
	"step": 23
	},
	{
	"epoch": 0.018823529411764704,
	"grad_norm": 9.363273620605469,
	"learning_rate": 8.879969687616027e-05,
	"loss": 1.5693,
	"step": 24
	},
	{
	"epoch": 0.0196078431372549,
	"grad_norm": 11.106522560119629,
	"learning_rate": 8.862301196726988e-05,
	"loss": 1.3139,
	"step": 25
	},
	{
	"epoch": 0.0203921568627451,
	"grad_norm": 9.613574028015137,
	"learning_rate": 8.84344009624807e-05,
	"loss": 1.0847,
	"step": 26
	},
	{
	"epoch": 0.021176470588235293,
	"grad_norm": 9.658738136291504,
	"learning_rate": 8.823391542615818e-05,
	"loss": 1.432,
	"step": 27
	},
	{
	"epoch": 0.02196078431372549,
	"grad_norm": 7.206670761108398,
	"learning_rate": 8.80216101690461e-05,
	"loss": 1.0293,
	"step": 28
	},
	{
	"epoch": 0.022745098039215685,
	"grad_norm": 11.575990676879883,
	"learning_rate": 8.779754323328193e-05,
	"loss": 1.3784,
	"step": 29
	},
	{
	"epoch": 0.023529411764705882,
	"grad_norm": 9.105690956115723,
	"learning_rate": 8.756177587652856e-05,
	"loss": 0.9299,
	"step": 30
	},
	{
	"epoch": 0.02431372549019608,
	"grad_norm": 11.146190643310547,
	"learning_rate": 8.731437255522727e-05,
	"loss": 1.127,
	"step": 31
	},
	{
	"epoch": 0.025098039215686273,
	"grad_norm": 13.225046157836914,
	"learning_rate": 8.705540090697575e-05,
	"loss": 1.3228,
	"step": 32
	},
	{
	"epoch": 0.02588235294117647,
	"grad_norm": 12.464346885681152,
	"learning_rate": 8.678493173203682e-05,
	"loss": 1.9641,
	"step": 33
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 10.996861457824707,
	"learning_rate": 8.650303897398232e-05,
	"loss": 1.6458,
	"step": 34
	},
	{
	"epoch": 0.027450980392156862,
	"grad_norm": 11.745558738708496,
	"learning_rate": 8.620979969947759e-05,
	"loss": 1.6805,
	"step": 35
	},
	{
	"epoch": 0.02823529411764706,
	"grad_norm": 10.623291015625,
	"learning_rate": 8.590529407721231e-05,
	"loss": 1.594,
	"step": 36
	},
	{
	"epoch": 0.029019607843137254,
	"grad_norm": 9.937420845031738,
	"learning_rate": 8.558960535598317e-05,
	"loss": 1.4287,
	"step": 37
	},
	{
	"epoch": 0.02980392156862745,
	"grad_norm": 12.139042854309082,
	"learning_rate": 8.526281984193436e-05,
	"loss": 1.7026,
	"step": 38
	},
	{
	"epoch": 0.03058823529411765,
	"grad_norm": 12.166768074035645,
	"learning_rate": 8.492502687496253e-05,
	"loss": 2.1068,
	"step": 39
	},
	{
	"epoch": 0.03137254901960784,
	"grad_norm": 12.726622581481934,
	"learning_rate": 8.4576318804292e-05,
	"loss": 1.583,
	"step": 40
	},
	{
	"epoch": 0.03215686274509804,
	"grad_norm": 21.52069854736328,
	"learning_rate": 8.421679096322747e-05,
	"loss": 1.7145,
	"step": 41
	},
	{
	"epoch": 0.03294117647058824,
	"grad_norm": 13.835341453552246,
	"learning_rate": 8.384654164309084e-05,
	"loss": 2.445,
	"step": 42
	},
	{
	"epoch": 0.03372549019607843,
	"grad_norm": 16.390380859375,
	"learning_rate": 8.346567206634926e-05,
	"loss": 1.6284,
	"step": 43
	},
	{
	"epoch": 0.034509803921568626,
	"grad_norm": 19.605005264282227,
	"learning_rate": 8.307428635894209e-05,
	"loss": 2.1787,
	"step": 44
	},
	{
	"epoch": 0.03529411764705882,
	"grad_norm": 12.839860916137695,
	"learning_rate": 8.26724915218138e-05,
	"loss": 1.6432,
	"step": 45
	},
	{
	"epoch": 0.03607843137254902,
	"grad_norm": 17.19524383544922,
	"learning_rate": 8.226039740166091e-05,
	"loss": 2.6786,
	"step": 46
	},
	{
	"epoch": 0.03686274509803922,
	"grad_norm": 22.435400009155273,
	"learning_rate": 8.183811666090117e-05,
	"loss": 2.043,
	"step": 47
	},
	{
	"epoch": 0.03764705882352941,
	"grad_norm": 52.507537841796875,
	"learning_rate": 8.140576474687264e-05,
	"loss": 2.563,
	"step": 48
	},
	{
	"epoch": 0.038431372549019606,
	"grad_norm": 33.50967025756836,
	"learning_rate": 8.096345986027161e-05,
	"loss": 2.8917,
	"step": 49
	},
	{
	"epoch": 0.0392156862745098,
	"grad_norm": 47.0520133972168,
	"learning_rate": 8.051132292283772e-05,
	"loss": 3.6867,
	"step": 50
	},
	{
	"epoch": 0.0392156862745098,
	"eval_loss": 0.4549524486064911,
	"eval_runtime": 171.8457,
	"eval_samples_per_second": 12.5,
	"eval_steps_per_second": 3.125,
	"step": 50
	},
	{
	"epoch": 0.04,
	"grad_norm": 14.582710266113281,
	"learning_rate": 8.004947754429507e-05,
	"loss": 4.1472,
	"step": 51
	},
	{
	"epoch": 0.0407843137254902,
	"grad_norm": 6.1638922691345215,
	"learning_rate": 7.957804998855866e-05,
	"loss": 2.2978,
	"step": 52
	},
	{
	"epoch": 0.04156862745098039,
	"grad_norm": 3.731342077255249,
	"learning_rate": 7.909716913921508e-05,
	"loss": 1.9173,
	"step": 53
	},
	{
	"epoch": 0.042352941176470586,
	"grad_norm": 3.8371353149414062,
	"learning_rate": 7.860696646428694e-05,
	"loss": 1.4256,
	"step": 54
	},
	{
	"epoch": 0.043137254901960784,
	"grad_norm": 4.627960205078125,
	"learning_rate": 7.810757598029093e-05,
	"loss": 1.6277,
	"step": 55
	},
	{
	"epoch": 0.04392156862745098,
	"grad_norm": 4.3101043701171875,
	"learning_rate": 7.759913421559902e-05,
	"loss": 1.5975,
	"step": 56
	},
	{
	"epoch": 0.04470588235294118,
	"grad_norm": 2.9555671215057373,
	"learning_rate": 7.708178017311287e-05,
	"loss": 1.0289,
	"step": 57
	},
	{
	"epoch": 0.04549019607843137,
	"grad_norm": 3.413313865661621,
	"learning_rate": 7.655565529226198e-05,
	"loss": 1.3867,
	"step": 58
	},
	{
	"epoch": 0.04627450980392157,
	"grad_norm": 3.6849825382232666,
	"learning_rate": 7.602090341033547e-05,
	"loss": 1.2773,
	"step": 59
	},
	{
	"epoch": 0.047058823529411764,
	"grad_norm": 3.837523937225342,
	"learning_rate": 7.547767072315837e-05,
	"loss": 1.4187,
	"step": 60
	},
	{
	"epoch": 0.04784313725490196,
	"grad_norm": 3.476501226425171,
	"learning_rate": 7.492610574512317e-05,
	"loss": 1.2678,
	"step": 61
	},
	{
	"epoch": 0.04862745098039216,
	"grad_norm": 3.9961957931518555,
	"learning_rate": 7.436635926858759e-05,
	"loss": 1.4783,
	"step": 62
	},
	{
	"epoch": 0.04941176470588235,
	"grad_norm": 4.245054244995117,
	"learning_rate": 7.379858432264925e-05,
	"loss": 1.5066,
	"step": 63
	},
	{
	"epoch": 0.05019607843137255,
	"grad_norm": 5.134169578552246,
	"learning_rate": 7.322293613130917e-05,
	"loss": 1.4297,
	"step": 64
	},
	{
	"epoch": 0.050980392156862744,
	"grad_norm": 4.725772380828857,
	"learning_rate": 7.263957207103507e-05,
	"loss": 1.6951,
	"step": 65
	},
	{
	"epoch": 0.05176470588235294,
	"grad_norm": 4.962766647338867,
	"learning_rate": 7.204865162773613e-05,
	"loss": 1.5281,
	"step": 66
	},
	{
	"epoch": 0.05254901960784314,
	"grad_norm": 4.3428192138671875,
	"learning_rate": 7.14503363531613e-05,
	"loss": 1.4586,
	"step": 67
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 5.0155029296875,
	"learning_rate": 7.084478982073247e-05,
	"loss": 1.5896,
	"step": 68
	},
	{
	"epoch": 0.05411764705882353,
	"grad_norm": 4.897243976593018,
	"learning_rate": 7.023217758082528e-05,
	"loss": 1.1711,
	"step": 69
	},
	{
	"epoch": 0.054901960784313725,
	"grad_norm": 5.0609612464904785,
	"learning_rate": 6.961266711550922e-05,
	"loss": 1.4897,
	"step": 70
	},
	{
	"epoch": 0.05568627450980392,
	"grad_norm": 4.689002990722656,
	"learning_rate": 6.898642779275972e-05,
	"loss": 0.9881,
	"step": 71
	},
	{
	"epoch": 0.05647058823529412,
	"grad_norm": 6.720233917236328,
	"learning_rate": 6.835363082015469e-05,
	"loss": 1.5692,
	"step": 72
	},
	{
	"epoch": 0.05725490196078432,
	"grad_norm": 5.96003532409668,
	"learning_rate": 6.771444919806798e-05,
	"loss": 1.3238,
	"step": 73
	},
	{
	"epoch": 0.05803921568627451,
	"grad_norm": 6.871821880340576,
	"learning_rate": 6.706905767237288e-05,
	"loss": 1.4878,
	"step": 74
	},
	{
	"epoch": 0.058823529411764705,
	"grad_norm": 6.003084182739258,
	"learning_rate": 6.641763268666833e-05,
	"loss": 1.5651,
	"step": 75
	},
	{
	"epoch": 0.0596078431372549,
	"grad_norm": 6.855623245239258,
	"learning_rate": 6.576035233404096e-05,
	"loss": 1.5011,
	"step": 76
	},
	{
	"epoch": 0.0603921568627451,
	"grad_norm": 6.763059616088867,
	"learning_rate": 6.509739630837631e-05,
	"loss": 1.6047,
	"step": 77
	},
	{
	"epoch": 0.0611764705882353,
	"grad_norm": 6.753271579742432,
	"learning_rate": 6.442894585523218e-05,
	"loss": 1.5268,
	"step": 78
	},
	{
	"epoch": 0.06196078431372549,
	"grad_norm": 5.556756973266602,
	"learning_rate": 6.375518372228808e-05,
	"loss": 1.0404,
	"step": 79
	},
	{
	"epoch": 0.06274509803921569,
	"grad_norm": 6.503464221954346,
	"learning_rate": 6.307629410938363e-05,
	"loss": 1.0106,
	"step": 80
	},
	{
	"epoch": 0.06352941176470588,
	"grad_norm": 4.450430870056152,
	"learning_rate": 6.239246261816035e-05,
	"loss": 0.6093,
	"step": 81
	},
	{
	"epoch": 0.06431372549019608,
	"grad_norm": 6.413719177246094,
	"learning_rate": 6.170387620131993e-05,
	"loss": 1.238,
	"step": 82
	},
	{
	"epoch": 0.06509803921568627,
	"grad_norm": 5.047544956207275,
	"learning_rate": 6.101072311151325e-05,
	"loss": 0.8442,
	"step": 83
	},
	{
	"epoch": 0.06588235294117648,
	"grad_norm": 7.372629165649414,
	"learning_rate": 6.0313192849873945e-05,
	"loss": 1.4398,
	"step": 84
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 9.576523780822754,
	"learning_rate": 5.961147611421077e-05,
	"loss": 1.4834,
	"step": 85
	},
	{
	"epoch": 0.06745098039215686,
	"grad_norm": 6.8355207443237305,
	"learning_rate": 5.890576474687264e-05,
	"loss": 1.6157,
	"step": 86
	},
	{
	"epoch": 0.06823529411764706,
	"grad_norm": 7.017658233642578,
	"learning_rate": 5.8196251682300926e-05,
	"loss": 1.6794,
	"step": 87
	},
	{
	"epoch": 0.06901960784313725,
	"grad_norm": 8.371786117553711,
	"learning_rate": 5.748313089428301e-05,
	"loss": 1.5957,
	"step": 88
	},
	{
	"epoch": 0.06980392156862746,
	"grad_norm": 10.280915260314941,
	"learning_rate": 5.676659734292189e-05,
	"loss": 2.2618,
	"step": 89
	},
	{
	"epoch": 0.07058823529411765,
	"grad_norm": 8.091904640197754,
	"learning_rate": 5.604684692133597e-05,
	"loss": 1.3325,
	"step": 90
	},
	{
	"epoch": 0.07137254901960784,
	"grad_norm": 8.49736499786377,
	"learning_rate": 5.532407640210383e-05,
	"loss": 1.4017,
	"step": 91
	},
	{
	"epoch": 0.07215686274509804,
	"grad_norm": 7.801628112792969,
	"learning_rate": 5.4598483383468616e-05,
	"loss": 1.3546,
	"step": 92
	},
	{
	"epoch": 0.07294117647058823,
	"grad_norm": 9.922377586364746,
	"learning_rate": 5.3870266235316614e-05,
	"loss": 1.8899,
	"step": 93
	},
	{
	"epoch": 0.07372549019607844,
	"grad_norm": 12.533098220825195,
	"learning_rate": 5.313962404494496e-05,
	"loss": 1.8032,
	"step": 94
	},
	{
	"epoch": 0.07450980392156863,
	"grad_norm": 13.20348072052002,
	"learning_rate": 5.240675656263303e-05,
	"loss": 1.8548,
	"step": 95
	},
	{
	"epoch": 0.07529411764705882,
	"grad_norm": 22.03706932067871,
	"learning_rate": 5.167186414703289e-05,
	"loss": 2.4985,
	"step": 96
	},
	{
	"epoch": 0.07607843137254902,
	"grad_norm": 18.293331146240234,
	"learning_rate": 5.093514771039311e-05,
	"loss": 1.9427,
	"step": 97
	},
	{
	"epoch": 0.07686274509803921,
	"grad_norm": 19.484935760498047,
	"learning_rate": 5.019680866363139e-05,
	"loss": 2.3599,
	"step": 98
	},
	{
	"epoch": 0.07764705882352942,
	"grad_norm": 19.723976135253906,
	"learning_rate": 4.9457048861270835e-05,
	"loss": 2.401,
	"step": 99
	},
	{
	"epoch": 0.0784313725490196,
	"grad_norm": 19.807950973510742,
	"learning_rate": 4.871607054625497e-05,
	"loss": 1.9219,
	"step": 100
	},
	{
	"epoch": 0.0784313725490196,
	"eval_loss": 0.423828125,
	"eval_runtime": 172.1475,
	"eval_samples_per_second": 12.478,
	"eval_steps_per_second": 3.119,
	"step": 100
	},
	{
	"epoch": 0.0792156862745098,
	"grad_norm": 6.207220077514648,
	"learning_rate": 4.797407629465648e-05,
	"loss": 3.1864,
	"step": 101
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.361649990081787,
	"learning_rate": 4.7231268960295003e-05,
	"loss": 2.0343,
	"step": 102
	},
	{
	"epoch": 0.08078431372549019,
	"grad_norm": 3.420992851257324,
	"learning_rate": 4.648785161927887e-05,
	"loss": 1.307,
	"step": 103
	},
	{
	"epoch": 0.0815686274509804,
	"grad_norm": 2.5062878131866455,
	"learning_rate": 4.574402751448614e-05,
	"loss": 1.256,
	"step": 104
	},
	{
	"epoch": 0.08235294117647059,
	"grad_norm": 2.8243720531463623,
	"learning_rate": 4.5e-05,
	"loss": 1.6743,
	"step": 105
	},
	{
	"epoch": 0.08313725490196078,
	"grad_norm": 2.8885185718536377,
	"learning_rate": 4.425597248551387e-05,
	"loss": 1.2425,
	"step": 106
	},
	{
	"epoch": 0.08392156862745098,
	"grad_norm": 3.3675057888031006,
	"learning_rate": 4.3512148380721134e-05,
	"loss": 1.2662,
	"step": 107
	},
	{
	"epoch": 0.08470588235294117,
	"grad_norm": 3.927375316619873,
	"learning_rate": 4.2768731039704995e-05,
	"loss": 1.5353,
	"step": 108
	},
	{
	"epoch": 0.08549019607843138,
	"grad_norm": 3.4482688903808594,
	"learning_rate": 4.202592370534353e-05,
	"loss": 1.5533,
	"step": 109
	},
	{
	"epoch": 0.08627450980392157,
	"grad_norm": 4.18345832824707,
	"learning_rate": 4.128392945374505e-05,
	"loss": 1.1801,
	"step": 110
	},
	{
	"epoch": 0.08705882352941176,
	"grad_norm": 3.1618025302886963,
	"learning_rate": 4.0542951138729184e-05,
	"loss": 1.1809,
	"step": 111
	},
	{
	"epoch": 0.08784313725490196,
	"grad_norm": 3.343364953994751,
	"learning_rate": 3.980319133636863e-05,
	"loss": 1.3565,
	"step": 112
	},
	{
	"epoch": 0.08862745098039215,
	"grad_norm": 3.7614049911499023,
	"learning_rate": 3.9064852289606895e-05,
	"loss": 1.2552,
	"step": 113
	},
	{
	"epoch": 0.08941176470588236,
	"grad_norm": 3.514059066772461,
	"learning_rate": 3.832813585296711e-05,
	"loss": 1.2708,
	"step": 114
	},
	{
	"epoch": 0.09019607843137255,
	"grad_norm": 3.6900923252105713,
	"learning_rate": 3.759324343736697e-05,
	"loss": 1.1696,
	"step": 115
	},
	{
	"epoch": 0.09098039215686274,
	"grad_norm": 3.7292330265045166,
	"learning_rate": 3.686037595505507e-05,
	"loss": 1.4199,
	"step": 116
	},
	{
	"epoch": 0.09176470588235294,
	"grad_norm": 4.216084957122803,
	"learning_rate": 3.612973376468339e-05,
	"loss": 1.2863,
	"step": 117
	},
	{
	"epoch": 0.09254901960784313,
	"grad_norm": 4.107268810272217,
	"learning_rate": 3.54015166165314e-05,
	"loss": 1.1495,
	"step": 118
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 5.08326530456543,
	"learning_rate": 3.4675923597896184e-05,
	"loss": 1.4167,
	"step": 119
	},
	{
	"epoch": 0.09411764705882353,
	"grad_norm": 4.708593368530273,
	"learning_rate": 3.395315307866404e-05,
	"loss": 1.3636,
	"step": 120
	},
	{
	"epoch": 0.09490196078431372,
	"grad_norm": 4.576901912689209,
	"learning_rate": 3.3233402657078116e-05,
	"loss": 1.3424,
	"step": 121
	},
	{
	"epoch": 0.09568627450980392,
	"grad_norm": 4.741860866546631,
	"learning_rate": 3.2516869105717005e-05,
	"loss": 1.2734,
	"step": 122
	},
	{
	"epoch": 0.09647058823529411,
	"grad_norm": 4.217694282531738,
	"learning_rate": 3.1803748317699093e-05,
	"loss": 0.9932,
	"step": 123
	},
	{
	"epoch": 0.09725490196078432,
	"grad_norm": 5.4652419090271,
	"learning_rate": 3.1094235253127374e-05,
	"loss": 1.1499,
	"step": 124
	},
	{
	"epoch": 0.09803921568627451,
	"grad_norm": 5.599730014801025,
	"learning_rate": 3.038852388578925e-05,
	"loss": 1.2061,
	"step": 125
	},
	{
	"epoch": 0.0988235294117647,
	"grad_norm": 5.845987319946289,
	"learning_rate": 2.9686807150126064e-05,
	"loss": 0.9805,
	"step": 126
	},
	{
	"epoch": 0.0996078431372549,
	"grad_norm": 5.0457258224487305,
	"learning_rate": 2.8989276888486755e-05,
	"loss": 0.9718,
	"step": 127
	},
	{
	"epoch": 0.1003921568627451,
	"grad_norm": 6.9256744384765625,
	"learning_rate": 2.829612379868006e-05,
	"loss": 1.0395,
	"step": 128
	},
	{
	"epoch": 0.1011764705882353,
	"grad_norm": 5.739282131195068,
	"learning_rate": 2.760753738183966e-05,
	"loss": 1.2639,
	"step": 129
	},
	{
	"epoch": 0.10196078431372549,
	"grad_norm": 5.214005947113037,
	"learning_rate": 2.6923705890616385e-05,
	"loss": 1.1527,
	"step": 130
	},
	{
	"epoch": 0.1027450980392157,
	"grad_norm": 6.843442916870117,
	"learning_rate": 2.6244816277711943e-05,
	"loss": 1.446,
	"step": 131
	},
	{
	"epoch": 0.10352941176470588,
	"grad_norm": 5.266831398010254,
	"learning_rate": 2.5571054144767825e-05,
	"loss": 1.0564,
	"step": 132
	},
	{
	"epoch": 0.10431372549019607,
	"grad_norm": 7.751642227172852,
	"learning_rate": 2.4902603691623712e-05,
	"loss": 1.1319,
	"step": 133
	},
	{
	"epoch": 0.10509803921568628,
	"grad_norm": 5.268066883087158,
	"learning_rate": 2.4239647665959058e-05,
	"loss": 0.9805,
	"step": 134
	},
	{
	"epoch": 0.10588235294117647,
	"grad_norm": 6.458575248718262,
	"learning_rate": 2.358236731333169e-05,
	"loss": 1.1729,
	"step": 135
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 7.804651260375977,
	"learning_rate": 2.293094232762715e-05,
	"loss": 1.919,
	"step": 136
	},
	{
	"epoch": 0.10745098039215686,
	"grad_norm": 7.9424052238464355,
	"learning_rate": 2.2285550801932047e-05,
	"loss": 1.468,
	"step": 137
	},
	{
	"epoch": 0.10823529411764705,
	"grad_norm": 6.931085109710693,
	"learning_rate": 2.164636917984533e-05,
	"loss": 1.5243,
	"step": 138
	},
	{
	"epoch": 0.10901960784313726,
	"grad_norm": 8.593782424926758,
	"learning_rate": 2.1013572207240293e-05,
	"loss": 1.4203,
	"step": 139
	},
	{
	"epoch": 0.10980392156862745,
	"grad_norm": 7.546792984008789,
	"learning_rate": 2.03873328844908e-05,
	"loss": 1.4472,
	"step": 140
	},
	{
	"epoch": 0.11058823529411765,
	"grad_norm": 9.1332426071167,
	"learning_rate": 1.9767822419174733e-05,
	"loss": 1.5902,
	"step": 141
	},
	{
	"epoch": 0.11137254901960784,
	"grad_norm": 10.055811882019043,
	"learning_rate": 1.915521017926754e-05,
	"loss": 2.183,
	"step": 142
	},
	{
	"epoch": 0.11215686274509803,
	"grad_norm": 9.171233177185059,
	"learning_rate": 1.8549663646838714e-05,
	"loss": 1.7493,
	"step": 143
	},
	{
	"epoch": 0.11294117647058824,
	"grad_norm": 7.260237693786621,
	"learning_rate": 1.7951348372263872e-05,
	"loss": 1.3346,
	"step": 144
	},
	{
	"epoch": 0.11372549019607843,
	"grad_norm": 12.887181282043457,
	"learning_rate": 1.7360427928964948e-05,
	"loss": 2.0163,
	"step": 145
	},
	{
	"epoch": 0.11450980392156863,
	"grad_norm": 9.76959228515625,
	"learning_rate": 1.6777063868690835e-05,
	"loss": 1.9468,
	"step": 146
	},
	{
	"epoch": 0.11529411764705882,
	"grad_norm": 12.850676536560059,
	"learning_rate": 1.6201415677350752e-05,
	"loss": 2.0807,
	"step": 147
	},
	{
	"epoch": 0.11607843137254902,
	"grad_norm": 11.191648483276367,
	"learning_rate": 1.563364073141241e-05,
	"loss": 1.9254,
	"step": 148
	},
	{
	"epoch": 0.11686274509803922,
	"grad_norm": 16.186717987060547,
	"learning_rate": 1.5073894254876825e-05,
	"loss": 2.6053,
	"step": 149
	},
	{
	"epoch": 0.11764705882352941,
	"grad_norm": 24.65969467163086,
	"learning_rate": 1.452232927684166e-05,
	"loss": 2.2168,
	"step": 150
	},
	{
	"epoch": 0.11764705882352941,
	"eval_loss": 0.37640249729156494,
	"eval_runtime": 171.5386,
	"eval_samples_per_second": 12.522,
	"eval_steps_per_second": 3.13,
	"step": 150
	},
	{
	"epoch": 0.11843137254901961,
	"grad_norm": 3.1740787029266357,
	"learning_rate": 1.397909658966454e-05,
	"loss": 3.2078,
	"step": 151
	},
	{
	"epoch": 0.1192156862745098,
	"grad_norm": 2.5368189811706543,
	"learning_rate": 1.3444344707738015e-05,
	"loss": 1.736,
	"step": 152
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.4591469764709473,
	"learning_rate": 1.2918219826887136e-05,
	"loss": 1.6981,
	"step": 153
	},
	{
	"epoch": 0.1207843137254902,
	"grad_norm": 2.356226921081543,
	"learning_rate": 1.2400865784400998e-05,
	"loss": 1.3207,
	"step": 154
	},
	{
	"epoch": 0.12156862745098039,
	"grad_norm": 2.378990888595581,
	"learning_rate": 1.189242401970908e-05,
	"loss": 1.3112,
	"step": 155
	},
	{
	"epoch": 0.1223529411764706,
	"grad_norm": 2.623610734939575,
	"learning_rate": 1.139303353571309e-05,
	"loss": 1.2035,
	"step": 156
	},
	{
	"epoch": 0.12313725490196079,
	"grad_norm": 2.538539409637451,
	"learning_rate": 1.0902830860784946e-05,
	"loss": 1.1537,
	"step": 157
	},
	{
	"epoch": 0.12392156862745098,
	"grad_norm": 2.950873613357544,
	"learning_rate": 1.0421950011441355e-05,
	"loss": 1.091,
	"step": 158
	},
	{
	"epoch": 0.12470588235294118,
	"grad_norm": 3.1460249423980713,
	"learning_rate": 9.950522455704946e-06,
	"loss": 1.4024,
	"step": 159
	},
	{
	"epoch": 0.12549019607843137,
	"grad_norm": 3.339446544647217,
	"learning_rate": 9.488677077162294e-06,
	"loss": 1.3126,
	"step": 160
	},
	{
	"epoch": 0.12627450980392158,
	"grad_norm": 3.6245152950286865,
	"learning_rate": 9.03654013972839e-06,
	"loss": 1.4356,
	"step": 161
	},
	{
	"epoch": 0.12705882352941175,
	"grad_norm": 3.8416507244110107,
	"learning_rate": 8.59423525312737e-06,
	"loss": 1.3236,
	"step": 162
	},
	{
	"epoch": 0.12784313725490196,
	"grad_norm": 4.071051120758057,
	"learning_rate": 8.161883339098845e-06,
	"loss": 1.4993,
	"step": 163
	},
	{
	"epoch": 0.12862745098039216,
	"grad_norm": 4.043711185455322,
	"learning_rate": 7.739602598339099e-06,
	"loss": 1.6008,
	"step": 164
	},
	{
	"epoch": 0.12941176470588237,
	"grad_norm": 3.690749168395996,
	"learning_rate": 7.327508478186216e-06,
	"loss": 1.1721,
	"step": 165
	},
	{
	"epoch": 0.13019607843137254,
	"grad_norm": 3.896296262741089,
	"learning_rate": 6.925713641057902e-06,
	"loss": 1.2947,
	"step": 166
	},
	{
	"epoch": 0.13098039215686275,
	"grad_norm": 3.99424409866333,
	"learning_rate": 6.53432793365074e-06,
	"loss": 1.28,
	"step": 167
	},
	{
	"epoch": 0.13176470588235295,
	"grad_norm": 4.055082321166992,
	"learning_rate": 6.153458356909174e-06,
	"loss": 1.0857,
	"step": 168
	},
	{
	"epoch": 0.13254901960784313,
	"grad_norm": 4.159709930419922,
	"learning_rate": 5.783209036772518e-06,
	"loss": 1.1397,
	"step": 169
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 4.578479290008545,
	"learning_rate": 5.423681195707997e-06,
	"loss": 1.4361,
	"step": 170
	},
	{
	"epoch": 0.13411764705882354,
	"grad_norm": 5.518746376037598,
	"learning_rate": 5.074973125037469e-06,
	"loss": 1.8645,
	"step": 171
	},
	{
	"epoch": 0.1349019607843137,
	"grad_norm": 4.65179967880249,
	"learning_rate": 4.737180158065644e-06,
	"loss": 1.2877,
	"step": 172
	},
	{
	"epoch": 0.13568627450980392,
	"grad_norm": 4.779722213745117,
	"learning_rate": 4.41039464401685e-06,
	"loss": 1.2109,
	"step": 173
	},
	{
	"epoch": 0.13647058823529412,
	"grad_norm": 4.066786289215088,
	"learning_rate": 4.094705922787687e-06,
	"loss": 1.1928,
	"step": 174
	},
	{
	"epoch": 0.13725490196078433,
	"grad_norm": 4.523605823516846,
	"learning_rate": 3.7902003005224126e-06,
	"loss": 1.1624,
	"step": 175
	},
	{
	"epoch": 0.1380392156862745,
	"grad_norm": 5.148304462432861,
	"learning_rate": 3.4969610260176865e-06,
	"loss": 1.0653,
	"step": 176
	},
	{
	"epoch": 0.1388235294117647,
	"grad_norm": 3.7846312522888184,
	"learning_rate": 3.2150682679631867e-06,
	"loss": 0.6153,
	"step": 177
	},
	{
	"epoch": 0.1396078431372549,
	"grad_norm": 4.997846603393555,
	"learning_rate": 2.9445990930242668e-06,
	"loss": 0.9906,
	"step": 178
	},
	{
	"epoch": 0.1403921568627451,
	"grad_norm": 4.470591068267822,
	"learning_rate": 2.6856274447727475e-06,
	"loss": 0.9009,
	"step": 179
	},
	{
	"epoch": 0.1411764705882353,
	"grad_norm": 4.197781085968018,
	"learning_rate": 2.4382241234714413e-06,
	"loss": 0.7853,
	"step": 180
	},
	{
	"epoch": 0.1419607843137255,
	"grad_norm": 5.868466854095459,
	"learning_rate": 2.2024567667180914e-06,
	"loss": 1.2172,
	"step": 181
	},
	{
	"epoch": 0.14274509803921567,
	"grad_norm": 7.754011154174805,
	"learning_rate": 1.978389830953906e-06,
	"loss": 1.363,
	"step": 182
	},
	{
	"epoch": 0.14352941176470588,
	"grad_norm": 4.4714884757995605,
	"learning_rate": 1.7660845738418336e-06,
	"loss": 0.8215,
	"step": 183
	},
	{
	"epoch": 0.14431372549019608,
	"grad_norm": 5.938106536865234,
	"learning_rate": 1.5655990375193147e-06,
	"loss": 1.4177,
	"step": 184
	},
	{
	"epoch": 0.1450980392156863,
	"grad_norm": 6.424489498138428,
	"learning_rate": 1.3769880327301332e-06,
	"loss": 1.4252,
	"step": 185
	},
	{
	"epoch": 0.14588235294117646,
	"grad_norm": 4.783531188964844,
	"learning_rate": 1.2003031238397417e-06,
	"loss": 0.8835,
	"step": 186
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 7.15680456161499,
	"learning_rate": 1.035592614738033e-06,
	"loss": 1.6154,
	"step": 187
	},
	{
	"epoch": 0.14745098039215687,
	"grad_norm": 7.671852111816406,
	"learning_rate": 8.829015356335791e-07,
	"loss": 1.4224,
	"step": 188
	},
	{
	"epoch": 0.14823529411764705,
	"grad_norm": 8.599688529968262,
	"learning_rate": 7.422716307427936e-07,
	"loss": 1.8422,
	"step": 189
	},
	{
	"epoch": 0.14901960784313725,
	"grad_norm": 9.633552551269531,
	"learning_rate": 6.137413468774955e-07,
	"loss": 1.9472,
	"step": 190
	},
	{
	"epoch": 0.14980392156862746,
	"grad_norm": 7.004188060760498,
	"learning_rate": 4.973458229339179e-07,
	"loss": 1.5712,
	"step": 191
	},
	{
	"epoch": 0.15058823529411763,
	"grad_norm": 8.92959976196289,
	"learning_rate": 3.9311688028611627e-07,
	"loss": 1.8607,
	"step": 192
	},
	{
	"epoch": 0.15137254901960784,
	"grad_norm": 11.083267211914062,
	"learning_rate": 3.010830140862836e-07,
	"loss": 1.9006,
	"step": 193
	},
	{
	"epoch": 0.15215686274509804,
	"grad_norm": 8.419087409973145,
	"learning_rate": 2.2126938547448627e-07,
	"loss": 1.9129,
	"step": 194
	},
	{
	"epoch": 0.15294117647058825,
	"grad_norm": 19.231441497802734,
	"learning_rate": 1.536978146998569e-07,
	"loss": 2.5608,
	"step": 195
	},
	{
	"epoch": 0.15372549019607842,
	"grad_norm": 9.949979782104492,
	"learning_rate": 9.838677515514594e-08,
	"loss": 1.9126,
	"step": 196
	},
	{
	"epoch": 0.15450980392156863,
	"grad_norm": 13.315712928771973,
	"learning_rate": 5.5351388326286834e-08,
	"loss": 2.0499,
	"step": 197
	},
	{
	"epoch": 0.15529411764705883,
	"grad_norm": 14.174652099609375,
	"learning_rate": 2.4603419658327797e-08,
	"loss": 2.4591,
	"step": 198
	},
	{
	"epoch": 0.156078431372549,
	"grad_norm": 15.293482780456543,
	"learning_rate": 6.151275338894813e-09,
	"loss": 2.6328,
	"step": 199
	},
	{
	"epoch": 0.1568627450980392,
	"grad_norm": 13.656365394592285,
	"learning_rate": 0.0,
	"loss": 1.9934,
	"step": 200
	},
	{
	"epoch": 0.1568627450980392,
	"eval_loss": 0.36728447675704956,
	"eval_runtime": 172.0542,
	"eval_samples_per_second": 12.484,
	"eval_steps_per_second": 3.121,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 4,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.030141694503813e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}