Training in progress, step 200, checkpoint

4922831 verified 9 days ago

36.5 kB

	{
	"best_metric": 1.1956850290298462,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.09519276534983341,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00047596382674916705,
	"grad_norm": 18.821937561035156,
	"learning_rate": 1.0170000000000001e-05,
	"loss": 3.7617,
	"step": 1
	},
	{
	"epoch": 0.00047596382674916705,
	"eval_loss": 2.0851309299468994,
	"eval_runtime": 94.1092,
	"eval_samples_per_second": 9.404,
	"eval_steps_per_second": 2.359,
	"step": 1
	},
	{
	"epoch": 0.0009519276534983341,
	"grad_norm": 20.83098602294922,
	"learning_rate": 2.0340000000000002e-05,
	"loss": 3.8855,
	"step": 2
	},
	{
	"epoch": 0.0014278914802475012,
	"grad_norm": 18.45833969116211,
	"learning_rate": 3.051e-05,
	"loss": 4.0341,
	"step": 3
	},
	{
	"epoch": 0.0019038553069966682,
	"grad_norm": 15.618721961975098,
	"learning_rate": 4.0680000000000004e-05,
	"loss": 3.4497,
	"step": 4
	},
	{
	"epoch": 0.002379819133745835,
	"grad_norm": 14.598923683166504,
	"learning_rate": 5.085e-05,
	"loss": 3.2374,
	"step": 5
	},
	{
	"epoch": 0.0028557829604950024,
	"grad_norm": 16.081514358520508,
	"learning_rate": 6.102e-05,
	"loss": 3.4533,
	"step": 6
	},
	{
	"epoch": 0.0033317467872441696,
	"grad_norm": 14.391841888427734,
	"learning_rate": 7.119e-05,
	"loss": 3.2119,
	"step": 7
	},
	{
	"epoch": 0.0038077106139933364,
	"grad_norm": 13.710631370544434,
	"learning_rate": 8.136000000000001e-05,
	"loss": 3.3193,
	"step": 8
	},
	{
	"epoch": 0.004283674440742504,
	"grad_norm": 12.184770584106445,
	"learning_rate": 9.153000000000001e-05,
	"loss": 3.0283,
	"step": 9
	},
	{
	"epoch": 0.00475963826749167,
	"grad_norm": 11.110732078552246,
	"learning_rate": 0.0001017,
	"loss": 3.0447,
	"step": 10
	},
	{
	"epoch": 0.005235602094240838,
	"grad_norm": 13.03386402130127,
	"learning_rate": 0.00010116473684210527,
	"loss": 3.0503,
	"step": 11
	},
	{
	"epoch": 0.005711565920990005,
	"grad_norm": 11.393197059631348,
	"learning_rate": 0.00010062947368421052,
	"loss": 3.1731,
	"step": 12
	},
	{
	"epoch": 0.006187529747739172,
	"grad_norm": 11.392594337463379,
	"learning_rate": 0.00010009421052631579,
	"loss": 2.7808,
	"step": 13
	},
	{
	"epoch": 0.006663493574488339,
	"grad_norm": 11.060273170471191,
	"learning_rate": 9.955894736842107e-05,
	"loss": 2.9735,
	"step": 14
	},
	{
	"epoch": 0.007139457401237506,
	"grad_norm": 10.616848945617676,
	"learning_rate": 9.902368421052632e-05,
	"loss": 2.8027,
	"step": 15
	},
	{
	"epoch": 0.007615421227986673,
	"grad_norm": 11.916224479675293,
	"learning_rate": 9.848842105263159e-05,
	"loss": 3.3891,
	"step": 16
	},
	{
	"epoch": 0.00809138505473584,
	"grad_norm": 11.447843551635742,
	"learning_rate": 9.795315789473685e-05,
	"loss": 3.1294,
	"step": 17
	},
	{
	"epoch": 0.008567348881485007,
	"grad_norm": 9.17795467376709,
	"learning_rate": 9.74178947368421e-05,
	"loss": 2.7995,
	"step": 18
	},
	{
	"epoch": 0.009043312708234174,
	"grad_norm": 10.779789924621582,
	"learning_rate": 9.688263157894737e-05,
	"loss": 3.2716,
	"step": 19
	},
	{
	"epoch": 0.00951927653498334,
	"grad_norm": 10.012481689453125,
	"learning_rate": 9.634736842105264e-05,
	"loss": 2.9491,
	"step": 20
	},
	{
	"epoch": 0.009995240361732508,
	"grad_norm": 10.166115760803223,
	"learning_rate": 9.58121052631579e-05,
	"loss": 3.024,
	"step": 21
	},
	{
	"epoch": 0.010471204188481676,
	"grad_norm": 9.625226020812988,
	"learning_rate": 9.527684210526317e-05,
	"loss": 2.9964,
	"step": 22
	},
	{
	"epoch": 0.010947168015230843,
	"grad_norm": 11.936861991882324,
	"learning_rate": 9.474157894736843e-05,
	"loss": 3.0226,
	"step": 23
	},
	{
	"epoch": 0.01142313184198001,
	"grad_norm": 9.899079322814941,
	"learning_rate": 9.420631578947368e-05,
	"loss": 3.0418,
	"step": 24
	},
	{
	"epoch": 0.011899095668729176,
	"grad_norm": 9.566582679748535,
	"learning_rate": 9.367105263157895e-05,
	"loss": 2.5971,
	"step": 25
	},
	{
	"epoch": 0.012375059495478343,
	"grad_norm": 9.53864860534668,
	"learning_rate": 9.313578947368422e-05,
	"loss": 3.0019,
	"step": 26
	},
	{
	"epoch": 0.01285102332222751,
	"grad_norm": 13.411975860595703,
	"learning_rate": 9.260052631578948e-05,
	"loss": 2.7033,
	"step": 27
	},
	{
	"epoch": 0.013326987148976678,
	"grad_norm": 26.838424682617188,
	"learning_rate": 9.206526315789475e-05,
	"loss": 2.5882,
	"step": 28
	},
	{
	"epoch": 0.013802950975725845,
	"grad_norm": 11.076753616333008,
	"learning_rate": 9.153000000000001e-05,
	"loss": 2.9107,
	"step": 29
	},
	{
	"epoch": 0.014278914802475012,
	"grad_norm": 10.66457748413086,
	"learning_rate": 9.099473684210527e-05,
	"loss": 3.1288,
	"step": 30
	},
	{
	"epoch": 0.014754878629224179,
	"grad_norm": 11.16288948059082,
	"learning_rate": 9.045947368421053e-05,
	"loss": 2.913,
	"step": 31
	},
	{
	"epoch": 0.015230842455973346,
	"grad_norm": 9.841339111328125,
	"learning_rate": 8.99242105263158e-05,
	"loss": 2.8651,
	"step": 32
	},
	{
	"epoch": 0.015706806282722512,
	"grad_norm": 9.972783088684082,
	"learning_rate": 8.938894736842105e-05,
	"loss": 2.6382,
	"step": 33
	},
	{
	"epoch": 0.01618277010947168,
	"grad_norm": 8.628253936767578,
	"learning_rate": 8.885368421052633e-05,
	"loss": 2.8631,
	"step": 34
	},
	{
	"epoch": 0.016658733936220846,
	"grad_norm": 9.764812469482422,
	"learning_rate": 8.83184210526316e-05,
	"loss": 3.1602,
	"step": 35
	},
	{
	"epoch": 0.017134697762970014,
	"grad_norm": 9.357998847961426,
	"learning_rate": 8.778315789473685e-05,
	"loss": 3.232,
	"step": 36
	},
	{
	"epoch": 0.017610661589719183,
	"grad_norm": 8.898050308227539,
	"learning_rate": 8.724789473684211e-05,
	"loss": 3.064,
	"step": 37
	},
	{
	"epoch": 0.018086625416468348,
	"grad_norm": 8.951642990112305,
	"learning_rate": 8.671263157894738e-05,
	"loss": 2.6545,
	"step": 38
	},
	{
	"epoch": 0.018562589243217516,
	"grad_norm": 8.89450454711914,
	"learning_rate": 8.617736842105263e-05,
	"loss": 2.8535,
	"step": 39
	},
	{
	"epoch": 0.01903855306996668,
	"grad_norm": 8.89578628540039,
	"learning_rate": 8.56421052631579e-05,
	"loss": 2.775,
	"step": 40
	},
	{
	"epoch": 0.01951451689671585,
	"grad_norm": 11.88039493560791,
	"learning_rate": 8.510684210526316e-05,
	"loss": 2.9885,
	"step": 41
	},
	{
	"epoch": 0.019990480723465015,
	"grad_norm": 9.176898956298828,
	"learning_rate": 8.457157894736843e-05,
	"loss": 2.7476,
	"step": 42
	},
	{
	"epoch": 0.020466444550214184,
	"grad_norm": 10.42405891418457,
	"learning_rate": 8.403631578947369e-05,
	"loss": 3.1671,
	"step": 43
	},
	{
	"epoch": 0.020942408376963352,
	"grad_norm": 9.580604553222656,
	"learning_rate": 8.350105263157896e-05,
	"loss": 2.7088,
	"step": 44
	},
	{
	"epoch": 0.021418372203712517,
	"grad_norm": 11.169540405273438,
	"learning_rate": 8.296578947368421e-05,
	"loss": 3.0075,
	"step": 45
	},
	{
	"epoch": 0.021894336030461686,
	"grad_norm": 8.268192291259766,
	"learning_rate": 8.243052631578948e-05,
	"loss": 2.5109,
	"step": 46
	},
	{
	"epoch": 0.02237029985721085,
	"grad_norm": 9.292203903198242,
	"learning_rate": 8.189526315789474e-05,
	"loss": 2.9182,
	"step": 47
	},
	{
	"epoch": 0.02284626368396002,
	"grad_norm": 10.59662914276123,
	"learning_rate": 8.136000000000001e-05,
	"loss": 3.2872,
	"step": 48
	},
	{
	"epoch": 0.023322227510709188,
	"grad_norm": 10.883740425109863,
	"learning_rate": 8.082473684210527e-05,
	"loss": 3.0321,
	"step": 49
	},
	{
	"epoch": 0.023798191337458353,
	"grad_norm": 8.746244430541992,
	"learning_rate": 8.028947368421054e-05,
	"loss": 2.9888,
	"step": 50
	},
	{
	"epoch": 0.023798191337458353,
	"eval_loss": 1.4506478309631348,
	"eval_runtime": 94.223,
	"eval_samples_per_second": 9.393,
	"eval_steps_per_second": 2.356,
	"step": 50
	},
	{
	"epoch": 0.02427415516420752,
	"grad_norm": 8.132503509521484,
	"learning_rate": 7.975421052631579e-05,
	"loss": 2.8369,
	"step": 51
	},
	{
	"epoch": 0.024750118990956686,
	"grad_norm": 7.467820644378662,
	"learning_rate": 7.921894736842106e-05,
	"loss": 3.1423,
	"step": 52
	},
	{
	"epoch": 0.025226082817705855,
	"grad_norm": 6.4784369468688965,
	"learning_rate": 7.868368421052632e-05,
	"loss": 2.7428,
	"step": 53
	},
	{
	"epoch": 0.02570204664445502,
	"grad_norm": 6.803327560424805,
	"learning_rate": 7.814842105263157e-05,
	"loss": 2.8238,
	"step": 54
	},
	{
	"epoch": 0.02617801047120419,
	"grad_norm": 9.669547080993652,
	"learning_rate": 7.761315789473685e-05,
	"loss": 2.7933,
	"step": 55
	},
	{
	"epoch": 0.026653974297953357,
	"grad_norm": 9.685455322265625,
	"learning_rate": 7.70778947368421e-05,
	"loss": 3.0942,
	"step": 56
	},
	{
	"epoch": 0.027129938124702522,
	"grad_norm": 8.498844146728516,
	"learning_rate": 7.654263157894737e-05,
	"loss": 3.0961,
	"step": 57
	},
	{
	"epoch": 0.02760590195145169,
	"grad_norm": 7.0263776779174805,
	"learning_rate": 7.600736842105264e-05,
	"loss": 2.9287,
	"step": 58
	},
	{
	"epoch": 0.028081865778200855,
	"grad_norm": 7.7478742599487305,
	"learning_rate": 7.54721052631579e-05,
	"loss": 2.7414,
	"step": 59
	},
	{
	"epoch": 0.028557829604950024,
	"grad_norm": 6.691257953643799,
	"learning_rate": 7.493684210526315e-05,
	"loss": 2.6123,
	"step": 60
	},
	{
	"epoch": 0.029033793431699192,
	"grad_norm": 7.181465148925781,
	"learning_rate": 7.440157894736843e-05,
	"loss": 2.6851,
	"step": 61
	},
	{
	"epoch": 0.029509757258448358,
	"grad_norm": 6.531435012817383,
	"learning_rate": 7.386631578947369e-05,
	"loss": 2.6416,
	"step": 62
	},
	{
	"epoch": 0.029985721085197526,
	"grad_norm": 9.599217414855957,
	"learning_rate": 7.333105263157895e-05,
	"loss": 2.7074,
	"step": 63
	},
	{
	"epoch": 0.03046168491194669,
	"grad_norm": 7.4359846115112305,
	"learning_rate": 7.279578947368422e-05,
	"loss": 2.8352,
	"step": 64
	},
	{
	"epoch": 0.03093764873869586,
	"grad_norm": 6.91318941116333,
	"learning_rate": 7.226052631578947e-05,
	"loss": 2.5786,
	"step": 65
	},
	{
	"epoch": 0.031413612565445025,
	"grad_norm": 8.484053611755371,
	"learning_rate": 7.172526315789474e-05,
	"loss": 3.0093,
	"step": 66
	},
	{
	"epoch": 0.0318895763921942,
	"grad_norm": 7.760731220245361,
	"learning_rate": 7.119e-05,
	"loss": 2.8831,
	"step": 67
	},
	{
	"epoch": 0.03236554021894336,
	"grad_norm": 7.7634100914001465,
	"learning_rate": 7.065473684210527e-05,
	"loss": 2.8134,
	"step": 68
	},
	{
	"epoch": 0.03284150404569253,
	"grad_norm": 15.038714408874512,
	"learning_rate": 7.011947368421053e-05,
	"loss": 2.446,
	"step": 69
	},
	{
	"epoch": 0.03331746787244169,
	"grad_norm": 6.84593391418457,
	"learning_rate": 6.95842105263158e-05,
	"loss": 2.8314,
	"step": 70
	},
	{
	"epoch": 0.033793431699190864,
	"grad_norm": 6.8339667320251465,
	"learning_rate": 6.904894736842105e-05,
	"loss": 2.507,
	"step": 71
	},
	{
	"epoch": 0.03426939552594003,
	"grad_norm": 8.750052452087402,
	"learning_rate": 6.851368421052632e-05,
	"loss": 2.637,
	"step": 72
	},
	{
	"epoch": 0.034745359352689194,
	"grad_norm": 7.736267566680908,
	"learning_rate": 6.797842105263158e-05,
	"loss": 2.748,
	"step": 73
	},
	{
	"epoch": 0.035221323179438366,
	"grad_norm": 7.89774227142334,
	"learning_rate": 6.744315789473685e-05,
	"loss": 2.7948,
	"step": 74
	},
	{
	"epoch": 0.03569728700618753,
	"grad_norm": 7.224119663238525,
	"learning_rate": 6.690789473684211e-05,
	"loss": 2.7275,
	"step": 75
	},
	{
	"epoch": 0.036173250832936696,
	"grad_norm": 7.180510520935059,
	"learning_rate": 6.637263157894738e-05,
	"loss": 2.5776,
	"step": 76
	},
	{
	"epoch": 0.03664921465968586,
	"grad_norm": 6.440933704376221,
	"learning_rate": 6.583736842105263e-05,
	"loss": 2.241,
	"step": 77
	},
	{
	"epoch": 0.03712517848643503,
	"grad_norm": 8.913047790527344,
	"learning_rate": 6.53021052631579e-05,
	"loss": 2.9477,
	"step": 78
	},
	{
	"epoch": 0.0376011423131842,
	"grad_norm": 7.736593723297119,
	"learning_rate": 6.476684210526316e-05,
	"loss": 2.8696,
	"step": 79
	},
	{
	"epoch": 0.03807710613993336,
	"grad_norm": 7.847418308258057,
	"learning_rate": 6.423157894736841e-05,
	"loss": 2.3813,
	"step": 80
	},
	{
	"epoch": 0.038553069966682535,
	"grad_norm": 9.366430282592773,
	"learning_rate": 6.369631578947368e-05,
	"loss": 2.8983,
	"step": 81
	},
	{
	"epoch": 0.0390290337934317,
	"grad_norm": 6.681727886199951,
	"learning_rate": 6.316105263157896e-05,
	"loss": 2.4428,
	"step": 82
	},
	{
	"epoch": 0.039504997620180865,
	"grad_norm": 8.800130844116211,
	"learning_rate": 6.262578947368421e-05,
	"loss": 2.9551,
	"step": 83
	},
	{
	"epoch": 0.03998096144693003,
	"grad_norm": 8.04470157623291,
	"learning_rate": 6.209052631578948e-05,
	"loss": 2.7357,
	"step": 84
	},
	{
	"epoch": 0.0404569252736792,
	"grad_norm": 6.852024555206299,
	"learning_rate": 6.155526315789474e-05,
	"loss": 2.6536,
	"step": 85
	},
	{
	"epoch": 0.04093288910042837,
	"grad_norm": 7.370736598968506,
	"learning_rate": 6.102e-05,
	"loss": 2.6235,
	"step": 86
	},
	{
	"epoch": 0.04140885292717753,
	"grad_norm": 7.6142401695251465,
	"learning_rate": 6.048473684210526e-05,
	"loss": 2.7034,
	"step": 87
	},
	{
	"epoch": 0.041884816753926704,
	"grad_norm": 7.17495059967041,
	"learning_rate": 5.9949473684210527e-05,
	"loss": 2.7207,
	"step": 88
	},
	{
	"epoch": 0.04236078058067587,
	"grad_norm": 7.216758728027344,
	"learning_rate": 5.94142105263158e-05,
	"loss": 2.4448,
	"step": 89
	},
	{
	"epoch": 0.042836744407425034,
	"grad_norm": 7.9468817710876465,
	"learning_rate": 5.887894736842106e-05,
	"loss": 2.9818,
	"step": 90
	},
	{
	"epoch": 0.043312708234174206,
	"grad_norm": 8.539376258850098,
	"learning_rate": 5.834368421052632e-05,
	"loss": 2.4128,
	"step": 91
	},
	{
	"epoch": 0.04378867206092337,
	"grad_norm": 8.345818519592285,
	"learning_rate": 5.780842105263158e-05,
	"loss": 2.7606,
	"step": 92
	},
	{
	"epoch": 0.044264635887672536,
	"grad_norm": 8.508038520812988,
	"learning_rate": 5.727315789473684e-05,
	"loss": 2.6035,
	"step": 93
	},
	{
	"epoch": 0.0447405997144217,
	"grad_norm": 8.71206283569336,
	"learning_rate": 5.673789473684211e-05,
	"loss": 2.9024,
	"step": 94
	},
	{
	"epoch": 0.04521656354117087,
	"grad_norm": 7.256693363189697,
	"learning_rate": 5.620263157894738e-05,
	"loss": 2.5654,
	"step": 95
	},
	{
	"epoch": 0.04569252736792004,
	"grad_norm": 6.628811359405518,
	"learning_rate": 5.566736842105264e-05,
	"loss": 2.0765,
	"step": 96
	},
	{
	"epoch": 0.0461684911946692,
	"grad_norm": 9.192995071411133,
	"learning_rate": 5.51321052631579e-05,
	"loss": 3.0441,
	"step": 97
	},
	{
	"epoch": 0.046644455021418375,
	"grad_norm": 9.181817054748535,
	"learning_rate": 5.459684210526316e-05,
	"loss": 2.8811,
	"step": 98
	},
	{
	"epoch": 0.04712041884816754,
	"grad_norm": 9.44265079498291,
	"learning_rate": 5.406157894736842e-05,
	"loss": 2.6583,
	"step": 99
	},
	{
	"epoch": 0.047596382674916705,
	"grad_norm": 9.560362815856934,
	"learning_rate": 5.352631578947368e-05,
	"loss": 2.5805,
	"step": 100
	},
	{
	"epoch": 0.047596382674916705,
	"eval_loss": 1.34207284450531,
	"eval_runtime": 94.197,
	"eval_samples_per_second": 9.395,
	"eval_steps_per_second": 2.357,
	"step": 100
	},
	{
	"epoch": 0.04807234650166587,
	"grad_norm": 7.516977787017822,
	"learning_rate": 5.299105263157895e-05,
	"loss": 2.5181,
	"step": 101
	},
	{
	"epoch": 0.04854831032841504,
	"grad_norm": 7.009253025054932,
	"learning_rate": 5.245578947368422e-05,
	"loss": 2.6719,
	"step": 102
	},
	{
	"epoch": 0.04902427415516421,
	"grad_norm": 6.846374988555908,
	"learning_rate": 5.192052631578948e-05,
	"loss": 2.5637,
	"step": 103
	},
	{
	"epoch": 0.04950023798191337,
	"grad_norm": 5.941534519195557,
	"learning_rate": 5.1385263157894744e-05,
	"loss": 2.2845,
	"step": 104
	},
	{
	"epoch": 0.049976201808662545,
	"grad_norm": 7.417452812194824,
	"learning_rate": 5.085e-05,
	"loss": 3.1752,
	"step": 105
	},
	{
	"epoch": 0.05045216563541171,
	"grad_norm": 6.396870136260986,
	"learning_rate": 5.031473684210526e-05,
	"loss": 2.5322,
	"step": 106
	},
	{
	"epoch": 0.050928129462160875,
	"grad_norm": 6.419276237487793,
	"learning_rate": 4.9779473684210534e-05,
	"loss": 2.5846,
	"step": 107
	},
	{
	"epoch": 0.05140409328891004,
	"grad_norm": 9.035964012145996,
	"learning_rate": 4.924421052631579e-05,
	"loss": 2.8623,
	"step": 108
	},
	{
	"epoch": 0.05188005711565921,
	"grad_norm": 6.224599361419678,
	"learning_rate": 4.870894736842105e-05,
	"loss": 2.3845,
	"step": 109
	},
	{
	"epoch": 0.05235602094240838,
	"grad_norm": 7.3065409660339355,
	"learning_rate": 4.817368421052632e-05,
	"loss": 2.7384,
	"step": 110
	},
	{
	"epoch": 0.05283198476915754,
	"grad_norm": 6.494760036468506,
	"learning_rate": 4.763842105263158e-05,
	"loss": 2.3574,
	"step": 111
	},
	{
	"epoch": 0.053307948595906714,
	"grad_norm": 5.581643104553223,
	"learning_rate": 4.710315789473684e-05,
	"loss": 2.2699,
	"step": 112
	},
	{
	"epoch": 0.05378391242265588,
	"grad_norm": 6.040269374847412,
	"learning_rate": 4.656789473684211e-05,
	"loss": 2.5859,
	"step": 113
	},
	{
	"epoch": 0.054259876249405044,
	"grad_norm": 6.788252353668213,
	"learning_rate": 4.6032631578947374e-05,
	"loss": 2.4009,
	"step": 114
	},
	{
	"epoch": 0.05473584007615421,
	"grad_norm": 7.658879280090332,
	"learning_rate": 4.549736842105263e-05,
	"loss": 2.0763,
	"step": 115
	},
	{
	"epoch": 0.05521180390290338,
	"grad_norm": 9.23805046081543,
	"learning_rate": 4.49621052631579e-05,
	"loss": 2.2703,
	"step": 116
	},
	{
	"epoch": 0.055687767729652546,
	"grad_norm": 7.436956882476807,
	"learning_rate": 4.4426842105263164e-05,
	"loss": 2.7847,
	"step": 117
	},
	{
	"epoch": 0.05616373155640171,
	"grad_norm": 8.176994323730469,
	"learning_rate": 4.389157894736842e-05,
	"loss": 2.5287,
	"step": 118
	},
	{
	"epoch": 0.05663969538315088,
	"grad_norm": 7.547792434692383,
	"learning_rate": 4.335631578947369e-05,
	"loss": 2.81,
	"step": 119
	},
	{
	"epoch": 0.05711565920990005,
	"grad_norm": 7.150010108947754,
	"learning_rate": 4.282105263157895e-05,
	"loss": 2.7525,
	"step": 120
	},
	{
	"epoch": 0.05759162303664921,
	"grad_norm": 7.117188930511475,
	"learning_rate": 4.228578947368421e-05,
	"loss": 2.5581,
	"step": 121
	},
	{
	"epoch": 0.058067586863398385,
	"grad_norm": 6.114779472351074,
	"learning_rate": 4.175052631578948e-05,
	"loss": 2.5203,
	"step": 122
	},
	{
	"epoch": 0.05854355069014755,
	"grad_norm": 6.867531776428223,
	"learning_rate": 4.121526315789474e-05,
	"loss": 2.6818,
	"step": 123
	},
	{
	"epoch": 0.059019514516896715,
	"grad_norm": 7.646029949188232,
	"learning_rate": 4.0680000000000004e-05,
	"loss": 2.6518,
	"step": 124
	},
	{
	"epoch": 0.05949547834364588,
	"grad_norm": 8.080942153930664,
	"learning_rate": 4.014473684210527e-05,
	"loss": 2.8059,
	"step": 125
	},
	{
	"epoch": 0.05997144217039505,
	"grad_norm": 6.926398277282715,
	"learning_rate": 3.960947368421053e-05,
	"loss": 2.5314,
	"step": 126
	},
	{
	"epoch": 0.06044740599714422,
	"grad_norm": 7.169958114624023,
	"learning_rate": 3.907421052631579e-05,
	"loss": 2.5107,
	"step": 127
	},
	{
	"epoch": 0.06092336982389338,
	"grad_norm": 7.661369323730469,
	"learning_rate": 3.853894736842105e-05,
	"loss": 2.3918,
	"step": 128
	},
	{
	"epoch": 0.061399333650642554,
	"grad_norm": 7.439793586730957,
	"learning_rate": 3.800368421052632e-05,
	"loss": 2.8541,
	"step": 129
	},
	{
	"epoch": 0.06187529747739172,
	"grad_norm": 6.659045696258545,
	"learning_rate": 3.746842105263158e-05,
	"loss": 2.5837,
	"step": 130
	},
	{
	"epoch": 0.062351261304140884,
	"grad_norm": 8.68233585357666,
	"learning_rate": 3.693315789473684e-05,
	"loss": 2.5465,
	"step": 131
	},
	{
	"epoch": 0.06282722513089005,
	"grad_norm": 7.132856845855713,
	"learning_rate": 3.639789473684211e-05,
	"loss": 2.4912,
	"step": 132
	},
	{
	"epoch": 0.06330318895763921,
	"grad_norm": 7.528649806976318,
	"learning_rate": 3.586263157894737e-05,
	"loss": 2.7235,
	"step": 133
	},
	{
	"epoch": 0.0637791527843884,
	"grad_norm": 6.1327667236328125,
	"learning_rate": 3.5327368421052633e-05,
	"loss": 2.4542,
	"step": 134
	},
	{
	"epoch": 0.06425511661113756,
	"grad_norm": 6.09030294418335,
	"learning_rate": 3.47921052631579e-05,
	"loss": 2.3305,
	"step": 135
	},
	{
	"epoch": 0.06473108043788672,
	"grad_norm": 6.725249290466309,
	"learning_rate": 3.425684210526316e-05,
	"loss": 2.4557,
	"step": 136
	},
	{
	"epoch": 0.06520704426463589,
	"grad_norm": 6.322257041931152,
	"learning_rate": 3.3721578947368424e-05,
	"loss": 2.2034,
	"step": 137
	},
	{
	"epoch": 0.06568300809138505,
	"grad_norm": 5.7170305252075195,
	"learning_rate": 3.318631578947369e-05,
	"loss": 2.1993,
	"step": 138
	},
	{
	"epoch": 0.06615897191813422,
	"grad_norm": 7.491881370544434,
	"learning_rate": 3.265105263157895e-05,
	"loss": 2.6061,
	"step": 139
	},
	{
	"epoch": 0.06663493574488338,
	"grad_norm": 7.218158721923828,
	"learning_rate": 3.211578947368421e-05,
	"loss": 2.622,
	"step": 140
	},
	{
	"epoch": 0.06711089957163256,
	"grad_norm": 10.26785659790039,
	"learning_rate": 3.158052631578948e-05,
	"loss": 2.6993,
	"step": 141
	},
	{
	"epoch": 0.06758686339838173,
	"grad_norm": 7.6761393547058105,
	"learning_rate": 3.104526315789474e-05,
	"loss": 2.6623,
	"step": 142
	},
	{
	"epoch": 0.06806282722513089,
	"grad_norm": 7.0337395668029785,
	"learning_rate": 3.051e-05,
	"loss": 2.632,
	"step": 143
	},
	{
	"epoch": 0.06853879105188006,
	"grad_norm": 7.8988189697265625,
	"learning_rate": 2.9974736842105263e-05,
	"loss": 3.1195,
	"step": 144
	},
	{
	"epoch": 0.06901475487862922,
	"grad_norm": 8.312713623046875,
	"learning_rate": 2.943947368421053e-05,
	"loss": 2.5157,
	"step": 145
	},
	{
	"epoch": 0.06949071870537839,
	"grad_norm": 7.518918514251709,
	"learning_rate": 2.890421052631579e-05,
	"loss": 2.7354,
	"step": 146
	},
	{
	"epoch": 0.06996668253212755,
	"grad_norm": 7.5307841300964355,
	"learning_rate": 2.8368947368421054e-05,
	"loss": 2.5474,
	"step": 147
	},
	{
	"epoch": 0.07044264635887673,
	"grad_norm": 8.257736206054688,
	"learning_rate": 2.783368421052632e-05,
	"loss": 2.8553,
	"step": 148
	},
	{
	"epoch": 0.0709186101856259,
	"grad_norm": 6.292891979217529,
	"learning_rate": 2.729842105263158e-05,
	"loss": 2.3596,
	"step": 149
	},
	{
	"epoch": 0.07139457401237506,
	"grad_norm": 9.312799453735352,
	"learning_rate": 2.676315789473684e-05,
	"loss": 2.5738,
	"step": 150
	},
	{
	"epoch": 0.07139457401237506,
	"eval_loss": 1.2638894319534302,
	"eval_runtime": 94.1331,
	"eval_samples_per_second": 9.402,
	"eval_steps_per_second": 2.358,
	"step": 150
	},
	{
	"epoch": 0.07187053783912423,
	"grad_norm": 5.808437824249268,
	"learning_rate": 2.622789473684211e-05,
	"loss": 2.4866,
	"step": 151
	},
	{
	"epoch": 0.07234650166587339,
	"grad_norm": 6.367058753967285,
	"learning_rate": 2.5692631578947372e-05,
	"loss": 2.5468,
	"step": 152
	},
	{
	"epoch": 0.07282246549262256,
	"grad_norm": 7.049677848815918,
	"learning_rate": 2.515736842105263e-05,
	"loss": 2.6916,
	"step": 153
	},
	{
	"epoch": 0.07329842931937172,
	"grad_norm": 6.486673831939697,
	"learning_rate": 2.4622105263157897e-05,
	"loss": 2.5986,
	"step": 154
	},
	{
	"epoch": 0.0737743931461209,
	"grad_norm": 6.483848571777344,
	"learning_rate": 2.408684210526316e-05,
	"loss": 2.6228,
	"step": 155
	},
	{
	"epoch": 0.07425035697287007,
	"grad_norm": 8.12568473815918,
	"learning_rate": 2.355157894736842e-05,
	"loss": 3.0707,
	"step": 156
	},
	{
	"epoch": 0.07472632079961923,
	"grad_norm": 6.405067443847656,
	"learning_rate": 2.3016315789473687e-05,
	"loss": 2.654,
	"step": 157
	},
	{
	"epoch": 0.0752022846263684,
	"grad_norm": 5.833227634429932,
	"learning_rate": 2.248105263157895e-05,
	"loss": 2.4285,
	"step": 158
	},
	{
	"epoch": 0.07567824845311756,
	"grad_norm": 5.303393840789795,
	"learning_rate": 2.194578947368421e-05,
	"loss": 2.2755,
	"step": 159
	},
	{
	"epoch": 0.07615421227986673,
	"grad_norm": 6.173555850982666,
	"learning_rate": 2.1410526315789474e-05,
	"loss": 2.4719,
	"step": 160
	},
	{
	"epoch": 0.07663017610661589,
	"grad_norm": 5.758234977722168,
	"learning_rate": 2.087526315789474e-05,
	"loss": 2.6648,
	"step": 161
	},
	{
	"epoch": 0.07710613993336507,
	"grad_norm": 5.576732158660889,
	"learning_rate": 2.0340000000000002e-05,
	"loss": 2.5195,
	"step": 162
	},
	{
	"epoch": 0.07758210376011423,
	"grad_norm": 6.40316104888916,
	"learning_rate": 1.9804736842105264e-05,
	"loss": 2.6616,
	"step": 163
	},
	{
	"epoch": 0.0780580675868634,
	"grad_norm": 5.3443427085876465,
	"learning_rate": 1.9269473684210526e-05,
	"loss": 2.1508,
	"step": 164
	},
	{
	"epoch": 0.07853403141361257,
	"grad_norm": 7.0513014793396,
	"learning_rate": 1.873421052631579e-05,
	"loss": 2.3545,
	"step": 165
	},
	{
	"epoch": 0.07900999524036173,
	"grad_norm": 6.783944129943848,
	"learning_rate": 1.8198947368421054e-05,
	"loss": 2.361,
	"step": 166
	},
	{
	"epoch": 0.0794859590671109,
	"grad_norm": 7.000679016113281,
	"learning_rate": 1.7663684210526317e-05,
	"loss": 2.6073,
	"step": 167
	},
	{
	"epoch": 0.07996192289386006,
	"grad_norm": 5.986188888549805,
	"learning_rate": 1.712842105263158e-05,
	"loss": 2.3954,
	"step": 168
	},
	{
	"epoch": 0.08043788672060924,
	"grad_norm": 6.529272556304932,
	"learning_rate": 1.6593157894736845e-05,
	"loss": 2.7285,
	"step": 169
	},
	{
	"epoch": 0.0809138505473584,
	"grad_norm": 5.4884772300720215,
	"learning_rate": 1.6057894736842104e-05,
	"loss": 2.1842,
	"step": 170
	},
	{
	"epoch": 0.08138981437410757,
	"grad_norm": 6.433114528656006,
	"learning_rate": 1.552263157894737e-05,
	"loss": 2.3042,
	"step": 171
	},
	{
	"epoch": 0.08186577820085673,
	"grad_norm": 6.97841215133667,
	"learning_rate": 1.4987368421052632e-05,
	"loss": 2.2691,
	"step": 172
	},
	{
	"epoch": 0.0823417420276059,
	"grad_norm": 6.401273727416992,
	"learning_rate": 1.4452105263157896e-05,
	"loss": 2.5178,
	"step": 173
	},
	{
	"epoch": 0.08281770585435506,
	"grad_norm": 6.540492534637451,
	"learning_rate": 1.391684210526316e-05,
	"loss": 2.2453,
	"step": 174
	},
	{
	"epoch": 0.08329366968110423,
	"grad_norm": 6.713190078735352,
	"learning_rate": 1.338157894736842e-05,
	"loss": 2.2148,
	"step": 175
	},
	{
	"epoch": 0.08376963350785341,
	"grad_norm": 7.125333309173584,
	"learning_rate": 1.2846315789473686e-05,
	"loss": 2.635,
	"step": 176
	},
	{
	"epoch": 0.08424559733460257,
	"grad_norm": 7.104244709014893,
	"learning_rate": 1.2311052631578948e-05,
	"loss": 2.5499,
	"step": 177
	},
	{
	"epoch": 0.08472156116135174,
	"grad_norm": 7.630082130432129,
	"learning_rate": 1.177578947368421e-05,
	"loss": 2.3113,
	"step": 178
	},
	{
	"epoch": 0.0851975249881009,
	"grad_norm": 7.205958366394043,
	"learning_rate": 1.1240526315789475e-05,
	"loss": 2.3001,
	"step": 179
	},
	{
	"epoch": 0.08567348881485007,
	"grad_norm": 6.465893268585205,
	"learning_rate": 1.0705263157894737e-05,
	"loss": 2.4646,
	"step": 180
	},
	{
	"epoch": 0.08614945264159923,
	"grad_norm": 6.484694957733154,
	"learning_rate": 1.0170000000000001e-05,
	"loss": 2.3538,
	"step": 181
	},
	{
	"epoch": 0.08662541646834841,
	"grad_norm": 6.740143775939941,
	"learning_rate": 9.634736842105263e-06,
	"loss": 2.1774,
	"step": 182
	},
	{
	"epoch": 0.08710138029509758,
	"grad_norm": 6.847339153289795,
	"learning_rate": 9.099473684210527e-06,
	"loss": 2.5101,
	"step": 183
	},
	{
	"epoch": 0.08757734412184674,
	"grad_norm": 7.767678260803223,
	"learning_rate": 8.56421052631579e-06,
	"loss": 2.5202,
	"step": 184
	},
	{
	"epoch": 0.08805330794859591,
	"grad_norm": 8.59636116027832,
	"learning_rate": 8.028947368421052e-06,
	"loss": 2.7538,
	"step": 185
	},
	{
	"epoch": 0.08852927177534507,
	"grad_norm": 8.195631980895996,
	"learning_rate": 7.493684210526316e-06,
	"loss": 2.4046,
	"step": 186
	},
	{
	"epoch": 0.08900523560209424,
	"grad_norm": 6.393590927124023,
	"learning_rate": 6.95842105263158e-06,
	"loss": 2.2026,
	"step": 187
	},
	{
	"epoch": 0.0894811994288434,
	"grad_norm": 6.6723551750183105,
	"learning_rate": 6.423157894736843e-06,
	"loss": 2.1685,
	"step": 188
	},
	{
	"epoch": 0.08995716325559258,
	"grad_norm": 7.914825439453125,
	"learning_rate": 5.887894736842105e-06,
	"loss": 2.5318,
	"step": 189
	},
	{
	"epoch": 0.09043312708234175,
	"grad_norm": 5.79133415222168,
	"learning_rate": 5.3526315789473684e-06,
	"loss": 2.1259,
	"step": 190
	},
	{
	"epoch": 0.09090909090909091,
	"grad_norm": 8.203691482543945,
	"learning_rate": 4.817368421052632e-06,
	"loss": 2.6837,
	"step": 191
	},
	{
	"epoch": 0.09138505473584008,
	"grad_norm": 8.923236846923828,
	"learning_rate": 4.282105263157895e-06,
	"loss": 2.6346,
	"step": 192
	},
	{
	"epoch": 0.09186101856258924,
	"grad_norm": 7.227407932281494,
	"learning_rate": 3.746842105263158e-06,
	"loss": 2.5861,
	"step": 193
	},
	{
	"epoch": 0.0923369823893384,
	"grad_norm": 6.976375102996826,
	"learning_rate": 3.2115789473684215e-06,
	"loss": 2.2964,
	"step": 194
	},
	{
	"epoch": 0.09281294621608757,
	"grad_norm": 6.509735584259033,
	"learning_rate": 2.6763157894736842e-06,
	"loss": 2.341,
	"step": 195
	},
	{
	"epoch": 0.09328891004283675,
	"grad_norm": 8.12691879272461,
	"learning_rate": 2.1410526315789474e-06,
	"loss": 2.4133,
	"step": 196
	},
	{
	"epoch": 0.09376487386958592,
	"grad_norm": 7.400885581970215,
	"learning_rate": 1.6057894736842107e-06,
	"loss": 2.6121,
	"step": 197
	},
	{
	"epoch": 0.09424083769633508,
	"grad_norm": 6.809811592102051,
	"learning_rate": 1.0705263157894737e-06,
	"loss": 2.4394,
	"step": 198
	},
	{
	"epoch": 0.09471680152308425,
	"grad_norm": 7.949410915374756,
	"learning_rate": 5.352631578947368e-07,
	"loss": 2.7608,
	"step": 199
	},
	{
	"epoch": 0.09519276534983341,
	"grad_norm": 8.497697830200195,
	"learning_rate": 0.0,
	"loss": 2.583,
	"step": 200
	},
	{
	"epoch": 0.09519276534983341,
	"eval_loss": 1.1956850290298462,
	"eval_runtime": 94.1756,
	"eval_samples_per_second": 9.397,
	"eval_steps_per_second": 2.357,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.15499809800192e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}