Training in progress, step 200, checkpoint

109be1f verified 18 days ago

36.8 kB

	{
	"best_metric": 0.00024003432190511376,
	"best_model_checkpoint": "miner_id_24/checkpoint-150",
	"epoch": 1.7278617710583153,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008639308855291577,
	"grad_norm": 0.7260720729827881,
	"learning_rate": 7e-06,
	"loss": 0.0407,
	"step": 1
	},
	{
	"epoch": 0.008639308855291577,
	"eval_loss": 0.15066038072109222,
	"eval_runtime": 20.6837,
	"eval_samples_per_second": 9.428,
	"eval_steps_per_second": 2.369,
	"step": 1
	},
	{
	"epoch": 0.017278617710583154,
	"grad_norm": 0.557333767414093,
	"learning_rate": 1.4e-05,
	"loss": 0.034,
	"step": 2
	},
	{
	"epoch": 0.02591792656587473,
	"grad_norm": 0.3476514518260956,
	"learning_rate": 2.1e-05,
	"loss": 0.0328,
	"step": 3
	},
	{
	"epoch": 0.03455723542116631,
	"grad_norm": 0.18027208745479584,
	"learning_rate": 2.8e-05,
	"loss": 0.0306,
	"step": 4
	},
	{
	"epoch": 0.04319654427645788,
	"grad_norm": 0.15658758580684662,
	"learning_rate": 3.5e-05,
	"loss": 0.0283,
	"step": 5
	},
	{
	"epoch": 0.05183585313174946,
	"grad_norm": 0.2384180724620819,
	"learning_rate": 4.2e-05,
	"loss": 0.0351,
	"step": 6
	},
	{
	"epoch": 0.06047516198704104,
	"grad_norm": 0.31615033745765686,
	"learning_rate": 4.899999999999999e-05,
	"loss": 0.0305,
	"step": 7
	},
	{
	"epoch": 0.06911447084233262,
	"grad_norm": 0.1833355873823166,
	"learning_rate": 5.6e-05,
	"loss": 0.03,
	"step": 8
	},
	{
	"epoch": 0.07775377969762419,
	"grad_norm": 0.24100624024868011,
	"learning_rate": 6.3e-05,
	"loss": 0.0226,
	"step": 9
	},
	{
	"epoch": 0.08639308855291576,
	"grad_norm": 0.23082295060157776,
	"learning_rate": 7e-05,
	"loss": 0.0112,
	"step": 10
	},
	{
	"epoch": 0.09503239740820735,
	"grad_norm": 0.09087604284286499,
	"learning_rate": 6.999521567473641e-05,
	"loss": 0.0045,
	"step": 11
	},
	{
	"epoch": 0.10367170626349892,
	"grad_norm": 0.5570639371871948,
	"learning_rate": 6.998086400693241e-05,
	"loss": 0.0162,
	"step": 12
	},
	{
	"epoch": 0.11231101511879049,
	"grad_norm": 0.08612176030874252,
	"learning_rate": 6.995694892019065e-05,
	"loss": 0.0043,
	"step": 13
	},
	{
	"epoch": 0.12095032397408208,
	"grad_norm": 0.062429703772068024,
	"learning_rate": 6.99234769526571e-05,
	"loss": 0.0019,
	"step": 14
	},
	{
	"epoch": 0.12958963282937366,
	"grad_norm": 0.3207145035266876,
	"learning_rate": 6.988045725523343e-05,
	"loss": 0.0064,
	"step": 15
	},
	{
	"epoch": 0.13822894168466524,
	"grad_norm": 0.11560860276222229,
	"learning_rate": 6.982790158907539e-05,
	"loss": 0.003,
	"step": 16
	},
	{
	"epoch": 0.1468682505399568,
	"grad_norm": 0.04708254709839821,
	"learning_rate": 6.976582432237733e-05,
	"loss": 0.0016,
	"step": 17
	},
	{
	"epoch": 0.15550755939524838,
	"grad_norm": 0.07981427013874054,
	"learning_rate": 6.969424242644413e-05,
	"loss": 0.0017,
	"step": 18
	},
	{
	"epoch": 0.16414686825053995,
	"grad_norm": 0.09298226237297058,
	"learning_rate": 6.961317547105138e-05,
	"loss": 0.0006,
	"step": 19
	},
	{
	"epoch": 0.17278617710583152,
	"grad_norm": 0.02390686422586441,
	"learning_rate": 6.952264561909527e-05,
	"loss": 0.0008,
	"step": 20
	},
	{
	"epoch": 0.18142548596112312,
	"grad_norm": 0.06466929614543915,
	"learning_rate": 6.942267762053337e-05,
	"loss": 0.0014,
	"step": 21
	},
	{
	"epoch": 0.1900647948164147,
	"grad_norm": 0.05321163311600685,
	"learning_rate": 6.931329880561832e-05,
	"loss": 0.001,
	"step": 22
	},
	{
	"epoch": 0.19870410367170627,
	"grad_norm": 0.02070157416164875,
	"learning_rate": 6.919453907742597e-05,
	"loss": 0.0006,
	"step": 23
	},
	{
	"epoch": 0.20734341252699784,
	"grad_norm": 0.16782431304454803,
	"learning_rate": 6.90664309036802e-05,
	"loss": 0.0049,
	"step": 24
	},
	{
	"epoch": 0.2159827213822894,
	"grad_norm": 0.14060857892036438,
	"learning_rate": 6.892900930787656e-05,
	"loss": 0.0012,
	"step": 25
	},
	{
	"epoch": 0.22462203023758098,
	"grad_norm": 0.43972817063331604,
	"learning_rate": 6.87823118597072e-05,
	"loss": 0.0071,
	"step": 26
	},
	{
	"epoch": 0.23326133909287258,
	"grad_norm": 0.05086011067032814,
	"learning_rate": 6.862637866478969e-05,
	"loss": 0.0013,
	"step": 27
	},
	{
	"epoch": 0.24190064794816415,
	"grad_norm": 0.06401721388101578,
	"learning_rate": 6.846125235370252e-05,
	"loss": 0.0013,
	"step": 28
	},
	{
	"epoch": 0.2505399568034557,
	"grad_norm": 0.09170061349868774,
	"learning_rate": 6.828697807033038e-05,
	"loss": 0.0183,
	"step": 29
	},
	{
	"epoch": 0.2591792656587473,
	"grad_norm": 0.06554131209850311,
	"learning_rate": 6.81036034595222e-05,
	"loss": 0.018,
	"step": 30
	},
	{
	"epoch": 0.2678185745140389,
	"grad_norm": 0.08401723951101303,
	"learning_rate": 6.791117865406564e-05,
	"loss": 0.0175,
	"step": 31
	},
	{
	"epoch": 0.27645788336933047,
	"grad_norm": 0.06230723112821579,
	"learning_rate": 6.770975626098112e-05,
	"loss": 0.0122,
	"step": 32
	},
	{
	"epoch": 0.28509719222462204,
	"grad_norm": 0.066391222178936,
	"learning_rate": 6.749939134713974e-05,
	"loss": 0.0137,
	"step": 33
	},
	{
	"epoch": 0.2937365010799136,
	"grad_norm": 0.01942325197160244,
	"learning_rate": 6.728014142420846e-05,
	"loss": 0.0023,
	"step": 34
	},
	{
	"epoch": 0.3023758099352052,
	"grad_norm": 0.05515532195568085,
	"learning_rate": 6.7052066432927e-05,
	"loss": 0.0023,
	"step": 35
	},
	{
	"epoch": 0.31101511879049676,
	"grad_norm": 0.038139645010232925,
	"learning_rate": 6.681522872672069e-05,
	"loss": 0.0015,
	"step": 36
	},
	{
	"epoch": 0.31965442764578833,
	"grad_norm": 0.03340466320514679,
	"learning_rate": 6.656969305465356e-05,
	"loss": 0.0016,
	"step": 37
	},
	{
	"epoch": 0.3282937365010799,
	"grad_norm": 0.04159877821803093,
	"learning_rate": 6.631552654372672e-05,
	"loss": 0.0015,
	"step": 38
	},
	{
	"epoch": 0.3369330453563715,
	"grad_norm": 0.03693181276321411,
	"learning_rate": 6.60527986805264e-05,
	"loss": 0.0017,
	"step": 39
	},
	{
	"epoch": 0.34557235421166305,
	"grad_norm": 0.034342411905527115,
	"learning_rate": 6.578158129222711e-05,
	"loss": 0.0013,
	"step": 40
	},
	{
	"epoch": 0.3542116630669546,
	"grad_norm": 0.022351600229740143,
	"learning_rate": 6.550194852695469e-05,
	"loss": 0.0013,
	"step": 41
	},
	{
	"epoch": 0.36285097192224625,
	"grad_norm": 0.07802402973175049,
	"learning_rate": 6.521397683351509e-05,
	"loss": 0.0012,
	"step": 42
	},
	{
	"epoch": 0.3714902807775378,
	"grad_norm": 0.011767297983169556,
	"learning_rate": 6.491774494049386e-05,
	"loss": 0.0004,
	"step": 43
	},
	{
	"epoch": 0.3801295896328294,
	"grad_norm": 0.0234123133122921,
	"learning_rate": 6.461333383473272e-05,
	"loss": 0.0013,
	"step": 44
	},
	{
	"epoch": 0.38876889848812096,
	"grad_norm": 0.007028356194496155,
	"learning_rate": 6.430082673918849e-05,
	"loss": 0.0004,
	"step": 45
	},
	{
	"epoch": 0.39740820734341253,
	"grad_norm": 0.011285451240837574,
	"learning_rate": 6.398030909018069e-05,
	"loss": 0.0003,
	"step": 46
	},
	{
	"epoch": 0.4060475161987041,
	"grad_norm": 0.07014564424753189,
	"learning_rate": 6.365186851403423e-05,
	"loss": 0.001,
	"step": 47
	},
	{
	"epoch": 0.4146868250539957,
	"grad_norm": 0.023154348134994507,
	"learning_rate": 6.331559480312315e-05,
	"loss": 0.0003,
	"step": 48
	},
	{
	"epoch": 0.42332613390928725,
	"grad_norm": 0.08951613306999207,
	"learning_rate": 6.297157989132236e-05,
	"loss": 0.0011,
	"step": 49
	},
	{
	"epoch": 0.4319654427645788,
	"grad_norm": 0.03926246613264084,
	"learning_rate": 6.261991782887377e-05,
	"loss": 0.0006,
	"step": 50
	},
	{
	"epoch": 0.4319654427645788,
	"eval_loss": 0.0019684885628521442,
	"eval_runtime": 20.5581,
	"eval_samples_per_second": 9.485,
	"eval_steps_per_second": 2.383,
	"step": 50
	},
	{
	"epoch": 0.4406047516198704,
	"grad_norm": 0.17613102495670319,
	"learning_rate": 6.226070475667393e-05,
	"loss": 0.0021,
	"step": 51
	},
	{
	"epoch": 0.44924406047516197,
	"grad_norm": 0.05827736854553223,
	"learning_rate": 6.189403887999006e-05,
	"loss": 0.001,
	"step": 52
	},
	{
	"epoch": 0.45788336933045354,
	"grad_norm": 0.12556667625904083,
	"learning_rate": 6.152002044161171e-05,
	"loss": 0.0015,
	"step": 53
	},
	{
	"epoch": 0.46652267818574517,
	"grad_norm": 0.07447590678930283,
	"learning_rate": 6.113875169444539e-05,
	"loss": 0.0009,
	"step": 54
	},
	{
	"epoch": 0.47516198704103674,
	"grad_norm": 0.27384987473487854,
	"learning_rate": 6.0750336873559605e-05,
	"loss": 0.01,
	"step": 55
	},
	{
	"epoch": 0.4838012958963283,
	"grad_norm": 0.005780680105090141,
	"learning_rate": 6.035488216768811e-05,
	"loss": 0.0002,
	"step": 56
	},
	{
	"epoch": 0.4924406047516199,
	"grad_norm": 0.04053672403097153,
	"learning_rate": 5.9952495690198894e-05,
	"loss": 0.0051,
	"step": 57
	},
	{
	"epoch": 0.5010799136069114,
	"grad_norm": 0.04079966992139816,
	"learning_rate": 5.954328744953709e-05,
	"loss": 0.0057,
	"step": 58
	},
	{
	"epoch": 0.509719222462203,
	"grad_norm": 0.03938170522451401,
	"learning_rate": 5.91273693191498e-05,
	"loss": 0.0049,
	"step": 59
	},
	{
	"epoch": 0.5183585313174947,
	"grad_norm": 0.06116793677210808,
	"learning_rate": 5.870485500690094e-05,
	"loss": 0.0053,
	"step": 60
	},
	{
	"epoch": 0.5269978401727862,
	"grad_norm": 0.06775252521038055,
	"learning_rate": 5.827586002398468e-05,
	"loss": 0.0034,
	"step": 61
	},
	{
	"epoch": 0.5356371490280778,
	"grad_norm": 0.04742324352264404,
	"learning_rate": 5.784050165334589e-05,
	"loss": 0.0009,
	"step": 62
	},
	{
	"epoch": 0.5442764578833693,
	"grad_norm": 0.0582570843398571,
	"learning_rate": 5.739889891761608e-05,
	"loss": 0.0021,
	"step": 63
	},
	{
	"epoch": 0.5529157667386609,
	"grad_norm": 0.024544579908251762,
	"learning_rate": 5.6951172546573794e-05,
	"loss": 0.0006,
	"step": 64
	},
	{
	"epoch": 0.5615550755939525,
	"grad_norm": 0.07139912247657776,
	"learning_rate": 5.6497444944138376e-05,
	"loss": 0.0017,
	"step": 65
	},
	{
	"epoch": 0.5701943844492441,
	"grad_norm": 0.02395671233534813,
	"learning_rate": 5.603784015490587e-05,
	"loss": 0.0005,
	"step": 66
	},
	{
	"epoch": 0.5788336933045356,
	"grad_norm": 0.004293499980121851,
	"learning_rate": 5.557248383023655e-05,
	"loss": 0.0003,
	"step": 67
	},
	{
	"epoch": 0.5874730021598272,
	"grad_norm": 0.029220029711723328,
	"learning_rate": 5.510150319390302e-05,
	"loss": 0.0005,
	"step": 68
	},
	{
	"epoch": 0.5961123110151187,
	"grad_norm": 0.037274319678545,
	"learning_rate": 5.4625027007308546e-05,
	"loss": 0.0015,
	"step": 69
	},
	{
	"epoch": 0.6047516198704104,
	"grad_norm": 0.00902900006622076,
	"learning_rate": 5.414318553428494e-05,
	"loss": 0.0003,
	"step": 70
	},
	{
	"epoch": 0.6133909287257019,
	"grad_norm": 0.01143543142825365,
	"learning_rate": 5.3656110505479776e-05,
	"loss": 0.0003,
	"step": 71
	},
	{
	"epoch": 0.6220302375809935,
	"grad_norm": 0.005858670454472303,
	"learning_rate": 5.316393508234253e-05,
	"loss": 0.0004,
	"step": 72
	},
	{
	"epoch": 0.6306695464362851,
	"grad_norm": 0.006607948802411556,
	"learning_rate": 5.266679382071953e-05,
	"loss": 0.0004,
	"step": 73
	},
	{
	"epoch": 0.6393088552915767,
	"grad_norm": 0.05994042009115219,
	"learning_rate": 5.216482263406778e-05,
	"loss": 0.0006,
	"step": 74
	},
	{
	"epoch": 0.6479481641468683,
	"grad_norm": 0.003944529686123133,
	"learning_rate": 5.1658158756297576e-05,
	"loss": 0.0002,
	"step": 75
	},
	{
	"epoch": 0.6565874730021598,
	"grad_norm": 0.005714634899049997,
	"learning_rate": 5.114694070425407e-05,
	"loss": 0.0002,
	"step": 76
	},
	{
	"epoch": 0.6652267818574514,
	"grad_norm": 0.24551953375339508,
	"learning_rate": 5.063130823984823e-05,
	"loss": 0.0005,
	"step": 77
	},
	{
	"epoch": 0.673866090712743,
	"grad_norm": 0.10831040889024734,
	"learning_rate": 5.011140233184724e-05,
	"loss": 0.0027,
	"step": 78
	},
	{
	"epoch": 0.6825053995680346,
	"grad_norm": 0.0029632514342665672,
	"learning_rate": 4.958736511733516e-05,
	"loss": 0.0002,
	"step": 79
	},
	{
	"epoch": 0.6911447084233261,
	"grad_norm": 0.007232643198221922,
	"learning_rate": 4.905933986285393e-05,
	"loss": 0.0001,
	"step": 80
	},
	{
	"epoch": 0.6997840172786177,
	"grad_norm": 0.010217340663075447,
	"learning_rate": 4.8527470925235824e-05,
	"loss": 0.0002,
	"step": 81
	},
	{
	"epoch": 0.7084233261339092,
	"grad_norm": 0.2681877613067627,
	"learning_rate": 4.799190371213772e-05,
	"loss": 0.0037,
	"step": 82
	},
	{
	"epoch": 0.7170626349892009,
	"grad_norm": 0.006039237137883902,
	"learning_rate": 4.745278464228808e-05,
	"loss": 0.0002,
	"step": 83
	},
	{
	"epoch": 0.7257019438444925,
	"grad_norm": 0.005269297398626804,
	"learning_rate": 4.69102611054575e-05,
	"loss": 0.0003,
	"step": 84
	},
	{
	"epoch": 0.734341252699784,
	"grad_norm": 0.06765911728143692,
	"learning_rate": 4.6364481422163926e-05,
	"loss": 0.0019,
	"step": 85
	},
	{
	"epoch": 0.7429805615550756,
	"grad_norm": 0.05636543780565262,
	"learning_rate": 4.581559480312316e-05,
	"loss": 0.0023,
	"step": 86
	},
	{
	"epoch": 0.7516198704103672,
	"grad_norm": 0.026066439226269722,
	"learning_rate": 4.526375130845627e-05,
	"loss": 0.0015,
	"step": 87
	},
	{
	"epoch": 0.7602591792656588,
	"grad_norm": 0.018351661041378975,
	"learning_rate": 4.4709101806664554e-05,
	"loss": 0.0014,
	"step": 88
	},
	{
	"epoch": 0.7688984881209503,
	"grad_norm": 0.1412251740694046,
	"learning_rate": 4.4151797933383685e-05,
	"loss": 0.0096,
	"step": 89
	},
	{
	"epoch": 0.7775377969762419,
	"grad_norm": 0.21160076558589935,
	"learning_rate": 4.359199204992797e-05,
	"loss": 0.0059,
	"step": 90
	},
	{
	"epoch": 0.7861771058315334,
	"grad_norm": 0.059807900339365005,
	"learning_rate": 4.30298372016363e-05,
	"loss": 0.0005,
	"step": 91
	},
	{
	"epoch": 0.7948164146868251,
	"grad_norm": 0.010206430219113827,
	"learning_rate": 4.246548707603114e-05,
	"loss": 0.0003,
	"step": 92
	},
	{
	"epoch": 0.8034557235421166,
	"grad_norm": 0.021596243605017662,
	"learning_rate": 4.1899095960801805e-05,
	"loss": 0.0004,
	"step": 93
	},
	{
	"epoch": 0.8120950323974082,
	"grad_norm": 0.0017379262717440724,
	"learning_rate": 4.133081870162385e-05,
	"loss": 0.0002,
	"step": 94
	},
	{
	"epoch": 0.8207343412526998,
	"grad_norm": 0.01433930266648531,
	"learning_rate": 4.076081065982569e-05,
	"loss": 0.0003,
	"step": 95
	},
	{
	"epoch": 0.8293736501079914,
	"grad_norm": 0.03355858847498894,
	"learning_rate": 4.018922766991447e-05,
	"loss": 0.0006,
	"step": 96
	},
	{
	"epoch": 0.838012958963283,
	"grad_norm": 0.1033296138048172,
	"learning_rate": 3.961622599697241e-05,
	"loss": 0.0013,
	"step": 97
	},
	{
	"epoch": 0.8466522678185745,
	"grad_norm": 0.10396935045719147,
	"learning_rate": 3.9041962293935516e-05,
	"loss": 0.0035,
	"step": 98
	},
	{
	"epoch": 0.8552915766738661,
	"grad_norm": 0.007392291445285082,
	"learning_rate": 3.84665935587662e-05,
	"loss": 0.0003,
	"step": 99
	},
	{
	"epoch": 0.8639308855291576,
	"grad_norm": 0.06569644808769226,
	"learning_rate": 3.7890277091531636e-05,
	"loss": 0.0013,
	"step": 100
	},
	{
	"epoch": 0.8639308855291576,
	"eval_loss": 0.0009457149426452816,
	"eval_runtime": 20.7602,
	"eval_samples_per_second": 9.393,
	"eval_steps_per_second": 2.36,
	"step": 100
	},
	{
	"epoch": 0.8725701943844493,
	"grad_norm": 0.06337860226631165,
	"learning_rate": 3.7313170451399475e-05,
	"loss": 0.0019,
	"step": 101
	},
	{
	"epoch": 0.8812095032397408,
	"grad_norm": 0.07296153157949448,
	"learning_rate": 3.673543141356278e-05,
	"loss": 0.0033,
	"step": 102
	},
	{
	"epoch": 0.8898488120950324,
	"grad_norm": 0.09170746803283691,
	"learning_rate": 3.6157217926105783e-05,
	"loss": 0.0004,
	"step": 103
	},
	{
	"epoch": 0.8984881209503239,
	"grad_norm": 0.0043894099071621895,
	"learning_rate": 3.557868806682255e-05,
	"loss": 0.0002,
	"step": 104
	},
	{
	"epoch": 0.9071274298056156,
	"grad_norm": 0.004214062821120024,
	"learning_rate": 3.5e-05,
	"loss": 0.0003,
	"step": 105
	},
	{
	"epoch": 0.9157667386609071,
	"grad_norm": 0.004896323662251234,
	"learning_rate": 3.442131193317745e-05,
	"loss": 0.0002,
	"step": 106
	},
	{
	"epoch": 0.9244060475161987,
	"grad_norm": 0.04607084020972252,
	"learning_rate": 3.384278207389421e-05,
	"loss": 0.0005,
	"step": 107
	},
	{
	"epoch": 0.9330453563714903,
	"grad_norm": 0.024103185161948204,
	"learning_rate": 3.3264568586437216e-05,
	"loss": 0.0004,
	"step": 108
	},
	{
	"epoch": 0.9416846652267818,
	"grad_norm": 0.19529423117637634,
	"learning_rate": 3.268682954860052e-05,
	"loss": 0.0016,
	"step": 109
	},
	{
	"epoch": 0.9503239740820735,
	"grad_norm": 0.013852166011929512,
	"learning_rate": 3.210972290846837e-05,
	"loss": 0.0003,
	"step": 110
	},
	{
	"epoch": 0.958963282937365,
	"grad_norm": 0.005281697493046522,
	"learning_rate": 3.15334064412338e-05,
	"loss": 0.0003,
	"step": 111
	},
	{
	"epoch": 0.9676025917926566,
	"grad_norm": 0.04835696145892143,
	"learning_rate": 3.0958037706064485e-05,
	"loss": 0.0007,
	"step": 112
	},
	{
	"epoch": 0.9762419006479481,
	"grad_norm": 0.007758499588817358,
	"learning_rate": 3.038377400302758e-05,
	"loss": 0.0003,
	"step": 113
	},
	{
	"epoch": 0.9848812095032398,
	"grad_norm": 0.006247072480618954,
	"learning_rate": 2.9810772330085524e-05,
	"loss": 0.0006,
	"step": 114
	},
	{
	"epoch": 0.9935205183585313,
	"grad_norm": 0.06823667138814926,
	"learning_rate": 2.9239189340174306e-05,
	"loss": 0.0006,
	"step": 115
	},
	{
	"epoch": 1.0021598272138228,
	"grad_norm": 0.13855108618736267,
	"learning_rate": 2.8669181298376163e-05,
	"loss": 0.0025,
	"step": 116
	},
	{
	"epoch": 1.0107991360691144,
	"grad_norm": 0.013171014375984669,
	"learning_rate": 2.8100904039198193e-05,
	"loss": 0.0007,
	"step": 117
	},
	{
	"epoch": 1.019438444924406,
	"grad_norm": 0.012365025468170643,
	"learning_rate": 2.7534512923968863e-05,
	"loss": 0.0006,
	"step": 118
	},
	{
	"epoch": 1.0280777537796977,
	"grad_norm": 0.009904728271067142,
	"learning_rate": 2.6970162798363695e-05,
	"loss": 0.0008,
	"step": 119
	},
	{
	"epoch": 1.0367170626349893,
	"grad_norm": 0.006425977218896151,
	"learning_rate": 2.640800795007203e-05,
	"loss": 0.0004,
	"step": 120
	},
	{
	"epoch": 1.0453563714902807,
	"grad_norm": 0.01372888870537281,
	"learning_rate": 2.5848202066616305e-05,
	"loss": 0.0002,
	"step": 121
	},
	{
	"epoch": 1.0539956803455723,
	"grad_norm": 0.0021302136592566967,
	"learning_rate": 2.5290898193335446e-05,
	"loss": 0.0003,
	"step": 122
	},
	{
	"epoch": 1.062634989200864,
	"grad_norm": 0.0052225952968001366,
	"learning_rate": 2.4736248691543736e-05,
	"loss": 0.0002,
	"step": 123
	},
	{
	"epoch": 1.0712742980561556,
	"grad_norm": 0.0029196590185165405,
	"learning_rate": 2.4184405196876842e-05,
	"loss": 0.0001,
	"step": 124
	},
	{
	"epoch": 1.079913606911447,
	"grad_norm": 0.09910155832767487,
	"learning_rate": 2.363551857783608e-05,
	"loss": 0.0003,
	"step": 125
	},
	{
	"epoch": 1.0885529157667386,
	"grad_norm": 0.0008615689584985375,
	"learning_rate": 2.308973889454249e-05,
	"loss": 0.0002,
	"step": 126
	},
	{
	"epoch": 1.0971922246220303,
	"grad_norm": 0.0013229359174147248,
	"learning_rate": 2.2547215357711918e-05,
	"loss": 0.0001,
	"step": 127
	},
	{
	"epoch": 1.1058315334773219,
	"grad_norm": 0.000881396175827831,
	"learning_rate": 2.2008096287862266e-05,
	"loss": 0.0001,
	"step": 128
	},
	{
	"epoch": 1.1144708423326133,
	"grad_norm": 0.0023514782078564167,
	"learning_rate": 2.1472529074764177e-05,
	"loss": 0.0002,
	"step": 129
	},
	{
	"epoch": 1.123110151187905,
	"grad_norm": 0.013889284804463387,
	"learning_rate": 2.0940660137146074e-05,
	"loss": 0.0003,
	"step": 130
	},
	{
	"epoch": 1.1317494600431965,
	"grad_norm": 0.0022602914832532406,
	"learning_rate": 2.041263488266484e-05,
	"loss": 0.0001,
	"step": 131
	},
	{
	"epoch": 1.1403887688984882,
	"grad_norm": 0.0012188655091449618,
	"learning_rate": 1.988859766815275e-05,
	"loss": 0.0001,
	"step": 132
	},
	{
	"epoch": 1.1490280777537798,
	"grad_norm": 0.0018668539123609662,
	"learning_rate": 1.9368691760151773e-05,
	"loss": 0.0001,
	"step": 133
	},
	{
	"epoch": 1.1576673866090712,
	"grad_norm": 0.0017291579861193895,
	"learning_rate": 1.885305929574593e-05,
	"loss": 0.0001,
	"step": 134
	},
	{
	"epoch": 1.1663066954643628,
	"grad_norm": 0.0010335007682442665,
	"learning_rate": 1.8341841243702424e-05,
	"loss": 0.0001,
	"step": 135
	},
	{
	"epoch": 1.1749460043196545,
	"grad_norm": 0.18275120854377747,
	"learning_rate": 1.7835177365932225e-05,
	"loss": 0.0022,
	"step": 136
	},
	{
	"epoch": 1.183585313174946,
	"grad_norm": 0.0107800904661417,
	"learning_rate": 1.7333206179280478e-05,
	"loss": 0.0002,
	"step": 137
	},
	{
	"epoch": 1.1922246220302375,
	"grad_norm": 0.0653991624712944,
	"learning_rate": 1.6836064917657478e-05,
	"loss": 0.0004,
	"step": 138
	},
	{
	"epoch": 1.2008639308855291,
	"grad_norm": 0.005070838611572981,
	"learning_rate": 1.6343889494520224e-05,
	"loss": 0.0002,
	"step": 139
	},
	{
	"epoch": 1.2095032397408207,
	"grad_norm": 0.004730647429823875,
	"learning_rate": 1.5856814465715064e-05,
	"loss": 0.0001,
	"step": 140
	},
	{
	"epoch": 1.2181425485961124,
	"grad_norm": 0.0011722528142854571,
	"learning_rate": 1.5374972992691458e-05,
	"loss": 0.0001,
	"step": 141
	},
	{
	"epoch": 1.226781857451404,
	"grad_norm": 0.001693835249170661,
	"learning_rate": 1.4898496806096974e-05,
	"loss": 0.0001,
	"step": 142
	},
	{
	"epoch": 1.2354211663066954,
	"grad_norm": 0.003972134552896023,
	"learning_rate": 1.4427516169763444e-05,
	"loss": 0.0001,
	"step": 143
	},
	{
	"epoch": 1.244060475161987,
	"grad_norm": 0.01975773461163044,
	"learning_rate": 1.396215984509412e-05,
	"loss": 0.0005,
	"step": 144
	},
	{
	"epoch": 1.2526997840172787,
	"grad_norm": 0.007931800559163094,
	"learning_rate": 1.3502555055861625e-05,
	"loss": 0.0004,
	"step": 145
	},
	{
	"epoch": 1.26133909287257,
	"grad_norm": 0.022132746875286102,
	"learning_rate": 1.3048827453426203e-05,
	"loss": 0.0005,
	"step": 146
	},
	{
	"epoch": 1.2699784017278617,
	"grad_norm": 0.010564382188022137,
	"learning_rate": 1.2601101082383917e-05,
	"loss": 0.0004,
	"step": 147
	},
	{
	"epoch": 1.2786177105831533,
	"grad_norm": 0.009835362434387207,
	"learning_rate": 1.2159498346654094e-05,
	"loss": 0.0005,
	"step": 148
	},
	{
	"epoch": 1.287257019438445,
	"grad_norm": 0.006598853040486574,
	"learning_rate": 1.1724139976015306e-05,
	"loss": 0.0003,
	"step": 149
	},
	{
	"epoch": 1.2958963282937366,
	"grad_norm": 0.00920469593256712,
	"learning_rate": 1.1295144993099068e-05,
	"loss": 0.0005,
	"step": 150
	},
	{
	"epoch": 1.2958963282937366,
	"eval_loss": 0.00024003432190511376,
	"eval_runtime": 20.7717,
	"eval_samples_per_second": 9.388,
	"eval_steps_per_second": 2.359,
	"step": 150
	},
	{
	"epoch": 1.3045356371490282,
	"grad_norm": 0.0014002382522448897,
	"learning_rate": 1.0872630680850196e-05,
	"loss": 0.0001,
	"step": 151
	},
	{
	"epoch": 1.3131749460043196,
	"grad_norm": 0.0010238329414278269,
	"learning_rate": 1.0456712550462898e-05,
	"loss": 0.0002,
	"step": 152
	},
	{
	"epoch": 1.3218142548596112,
	"grad_norm": 0.0012431687209755182,
	"learning_rate": 1.0047504309801104e-05,
	"loss": 0.0001,
	"step": 153
	},
	{
	"epoch": 1.3304535637149029,
	"grad_norm": 0.0026770096737891436,
	"learning_rate": 9.645117832311886e-06,
	"loss": 0.0001,
	"step": 154
	},
	{
	"epoch": 1.3390928725701943,
	"grad_norm": 0.01820327155292034,
	"learning_rate": 9.249663126440394e-06,
	"loss": 0.0002,
	"step": 155
	},
	{
	"epoch": 1.347732181425486,
	"grad_norm": 0.01555480808019638,
	"learning_rate": 8.861248305554624e-06,
	"loss": 0.0002,
	"step": 156
	},
	{
	"epoch": 1.3563714902807775,
	"grad_norm": 0.0015801583649590611,
	"learning_rate": 8.47997955838829e-06,
	"loss": 0.0002,
	"step": 157
	},
	{
	"epoch": 1.3650107991360692,
	"grad_norm": 0.10153518617153168,
	"learning_rate": 8.10596112000994e-06,
	"loss": 0.0004,
	"step": 158
	},
	{
	"epoch": 1.3736501079913608,
	"grad_norm": 0.0009876766707748175,
	"learning_rate": 7.739295243326067e-06,
	"loss": 0.0001,
	"step": 159
	},
	{
	"epoch": 1.3822894168466522,
	"grad_norm": 0.0026555354706943035,
	"learning_rate": 7.380082171126228e-06,
	"loss": 0.0002,
	"step": 160
	},
	{
	"epoch": 1.3909287257019438,
	"grad_norm": 0.0006382952560670674,
	"learning_rate": 7.028420108677635e-06,
	"loss": 0.0001,
	"step": 161
	},
	{
	"epoch": 1.3995680345572354,
	"grad_norm": 0.0014154494274407625,
	"learning_rate": 6.684405196876842e-06,
	"loss": 0.0001,
	"step": 162
	},
	{
	"epoch": 1.408207343412527,
	"grad_norm": 0.0011231210082769394,
	"learning_rate": 6.3481314859657675e-06,
	"loss": 0.0001,
	"step": 163
	},
	{
	"epoch": 1.4168466522678185,
	"grad_norm": 0.0014514840440824628,
	"learning_rate": 6.019690909819298e-06,
	"loss": 0.0001,
	"step": 164
	},
	{
	"epoch": 1.42548596112311,
	"grad_norm": 0.0013826994691044092,
	"learning_rate": 5.6991732608115e-06,
	"loss": 0.0001,
	"step": 165
	},
	{
	"epoch": 1.4341252699784017,
	"grad_norm": 0.0013565586414188147,
	"learning_rate": 5.386666165267256e-06,
	"loss": 0.0001,
	"step": 166
	},
	{
	"epoch": 1.4427645788336934,
	"grad_norm": 0.007900253869593143,
	"learning_rate": 5.08225505950613e-06,
	"loss": 0.0001,
	"step": 167
	},
	{
	"epoch": 1.451403887688985,
	"grad_norm": 0.0012855289969593287,
	"learning_rate": 4.786023166484913e-06,
	"loss": 0.0001,
	"step": 168
	},
	{
	"epoch": 1.4600431965442764,
	"grad_norm": 0.01582699827849865,
	"learning_rate": 4.498051473045291e-06,
	"loss": 0.0002,
	"step": 169
	},
	{
	"epoch": 1.468682505399568,
	"grad_norm": 0.0007394661079160869,
	"learning_rate": 4.218418707772886e-06,
	"loss": 0.0001,
	"step": 170
	},
	{
	"epoch": 1.4773218142548596,
	"grad_norm": 0.0008164668688550591,
	"learning_rate": 3.947201319473587e-06,
	"loss": 0.0001,
	"step": 171
	},
	{
	"epoch": 1.485961123110151,
	"grad_norm": 0.002124256454408169,
	"learning_rate": 3.684473456273278e-06,
	"loss": 0.0002,
	"step": 172
	},
	{
	"epoch": 1.4946004319654427,
	"grad_norm": 0.00903933122754097,
	"learning_rate": 3.4303069453464383e-06,
	"loss": 0.0003,
	"step": 173
	},
	{
	"epoch": 1.5032397408207343,
	"grad_norm": 0.017047259956598282,
	"learning_rate": 3.184771273279312e-06,
	"loss": 0.0006,
	"step": 174
	},
	{
	"epoch": 1.511879049676026,
	"grad_norm": 0.01836921088397503,
	"learning_rate": 2.947933567072987e-06,
	"loss": 0.0006,
	"step": 175
	},
	{
	"epoch": 1.5205183585313176,
	"grad_norm": 0.0054769194684922695,
	"learning_rate": 2.719858575791534e-06,
	"loss": 0.0003,
	"step": 176
	},
	{
	"epoch": 1.5291576673866092,
	"grad_norm": 0.05894150957465172,
	"learning_rate": 2.500608652860256e-06,
	"loss": 0.0009,
	"step": 177
	},
	{
	"epoch": 1.5377969762419006,
	"grad_norm": 0.0017646638443693519,
	"learning_rate": 2.2902437390188737e-06,
	"loss": 0.0002,
	"step": 178
	},
	{
	"epoch": 1.5464362850971922,
	"grad_norm": 0.0016004899516701698,
	"learning_rate": 2.0888213459343587e-06,
	"loss": 0.0002,
	"step": 179
	},
	{
	"epoch": 1.5550755939524838,
	"grad_norm": 0.0009360113763250411,
	"learning_rate": 1.8963965404777875e-06,
	"loss": 0.0001,
	"step": 180
	},
	{
	"epoch": 1.5637149028077753,
	"grad_norm": 0.0009685845579952002,
	"learning_rate": 1.7130219296696263e-06,
	"loss": 0.0001,
	"step": 181
	},
	{
	"epoch": 1.5723542116630669,
	"grad_norm": 0.0022252460476011038,
	"learning_rate": 1.5387476462974824e-06,
	"loss": 0.0003,
	"step": 182
	},
	{
	"epoch": 1.5809935205183585,
	"grad_norm": 0.0034834735561162233,
	"learning_rate": 1.3736213352103147e-06,
	"loss": 0.0001,
	"step": 183
	},
	{
	"epoch": 1.5896328293736501,
	"grad_norm": 0.0007790013332851231,
	"learning_rate": 1.2176881402928002e-06,
	"loss": 0.0001,
	"step": 184
	},
	{
	"epoch": 1.5982721382289418,
	"grad_norm": 0.0013246826129034162,
	"learning_rate": 1.0709906921234367e-06,
	"loss": 0.0001,
	"step": 185
	},
	{
	"epoch": 1.6069114470842334,
	"grad_norm": 0.0007768021896481514,
	"learning_rate": 9.33569096319799e-07,
	"loss": 0.0001,
	"step": 186
	},
	{
	"epoch": 1.6155507559395248,
	"grad_norm": 0.0009022291051223874,
	"learning_rate": 8.054609225740255e-07,
	"loss": 0.0001,
	"step": 187
	},
	{
	"epoch": 1.6241900647948164,
	"grad_norm": 0.0007956126355566084,
	"learning_rate": 6.867011943816724e-07,
	"loss": 0.0001,
	"step": 188
	},
	{
	"epoch": 1.6328293736501078,
	"grad_norm": 0.0012011040234938264,
	"learning_rate": 5.77322379466617e-07,
	"loss": 0.0001,
	"step": 189
	},
	{
	"epoch": 1.6414686825053995,
	"grad_norm": 0.0011474161874502897,
	"learning_rate": 4.773543809047186e-07,
	"loss": 0.0001,
	"step": 190
	},
	{
	"epoch": 1.650107991360691,
	"grad_norm": 0.0006911220261827111,
	"learning_rate": 3.868245289486027e-07,
	"loss": 0.0001,
	"step": 191
	},
	{
	"epoch": 1.6587473002159827,
	"grad_norm": 0.0015587140806019306,
	"learning_rate": 3.0575757355586817e-07,
	"loss": 0.0001,
	"step": 192
	},
	{
	"epoch": 1.6673866090712743,
	"grad_norm": 0.0011123515432700515,
	"learning_rate": 2.3417567762266497e-07,
	"loss": 0.0001,
	"step": 193
	},
	{
	"epoch": 1.676025917926566,
	"grad_norm": 0.002342136111110449,
	"learning_rate": 1.7209841092460043e-07,
	"loss": 0.0001,
	"step": 194
	},
	{
	"epoch": 1.6846652267818576,
	"grad_norm": 0.0016477032331749797,
	"learning_rate": 1.1954274476655534e-07,
	"loss": 0.0001,
	"step": 195
	},
	{
	"epoch": 1.693304535637149,
	"grad_norm": 0.0014787918189540505,
	"learning_rate": 7.652304734289127e-08,
	"loss": 0.0001,
	"step": 196
	},
	{
	"epoch": 1.7019438444924406,
	"grad_norm": 0.00296723167411983,
	"learning_rate": 4.30510798093342e-08,
	"loss": 0.0001,
	"step": 197
	},
	{
	"epoch": 1.710583153347732,
	"grad_norm": 0.0015325212152674794,
	"learning_rate": 1.9135993067588284e-08,
	"loss": 0.0001,
	"step": 198
	},
	{
	"epoch": 1.7192224622030237,
	"grad_norm": 0.00978434830904007,
	"learning_rate": 4.784325263584854e-09,
	"loss": 0.0002,
	"step": 199
	},
	{
	"epoch": 1.7278617710583153,
	"grad_norm": 0.0022683811839669943,
	"learning_rate": 0.0,
	"loss": 0.0002,
	"step": 200
	},
	{
	"epoch": 1.7278617710583153,
	"eval_loss": 0.00024209167168010026,
	"eval_runtime": 20.7713,
	"eval_samples_per_second": 9.388,
	"eval_steps_per_second": 2.359,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 4,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 1
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.970690585555108e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}