Training in progress, step 200, checkpoint

fe897d1 verified 3 days ago

36.7 kB

	{
	"best_metric": 0.28237149119377136,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.04105933073290905,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00020529665366454526,
	"grad_norm": 2.6672608852386475,
	"learning_rate": 1.004e-05,
	"loss": 0.7063,
	"step": 1
	},
	{
	"epoch": 0.00020529665366454526,
	"eval_loss": 1.4657493829727173,
	"eval_runtime": 283.5709,
	"eval_samples_per_second": 7.233,
	"eval_steps_per_second": 1.809,
	"step": 1
	},
	{
	"epoch": 0.0004105933073290905,
	"grad_norm": 2.4921810626983643,
	"learning_rate": 2.008e-05,
	"loss": 0.7398,
	"step": 2
	},
	{
	"epoch": 0.0006158899609936358,
	"grad_norm": 2.315711498260498,
	"learning_rate": 3.012e-05,
	"loss": 0.6311,
	"step": 3
	},
	{
	"epoch": 0.000821186614658181,
	"grad_norm": 2.6371049880981445,
	"learning_rate": 4.016e-05,
	"loss": 0.7873,
	"step": 4
	},
	{
	"epoch": 0.0010264832683227264,
	"grad_norm": 2.293344259262085,
	"learning_rate": 5.02e-05,
	"loss": 0.7672,
	"step": 5
	},
	{
	"epoch": 0.0012317799219872716,
	"grad_norm": 2.3576221466064453,
	"learning_rate": 6.024e-05,
	"loss": 0.8368,
	"step": 6
	},
	{
	"epoch": 0.0014370765756518168,
	"grad_norm": 1.5463850498199463,
	"learning_rate": 7.028e-05,
	"loss": 0.6442,
	"step": 7
	},
	{
	"epoch": 0.001642373229316362,
	"grad_norm": 1.3786958456039429,
	"learning_rate": 8.032e-05,
	"loss": 0.5664,
	"step": 8
	},
	{
	"epoch": 0.0018476698829809075,
	"grad_norm": 1.4701026678085327,
	"learning_rate": 9.036000000000001e-05,
	"loss": 0.5766,
	"step": 9
	},
	{
	"epoch": 0.0020529665366454527,
	"grad_norm": 1.3166791200637817,
	"learning_rate": 0.0001004,
	"loss": 0.4609,
	"step": 10
	},
	{
	"epoch": 0.0022582631903099977,
	"grad_norm": 1.1514837741851807,
	"learning_rate": 9.987157894736842e-05,
	"loss": 0.3202,
	"step": 11
	},
	{
	"epoch": 0.002463559843974543,
	"grad_norm": 1.2850422859191895,
	"learning_rate": 9.934315789473684e-05,
	"loss": 0.4206,
	"step": 12
	},
	{
	"epoch": 0.0026688564976390886,
	"grad_norm": 1.5056142807006836,
	"learning_rate": 9.881473684210525e-05,
	"loss": 0.3428,
	"step": 13
	},
	{
	"epoch": 0.0028741531513036336,
	"grad_norm": 1.1962010860443115,
	"learning_rate": 9.828631578947369e-05,
	"loss": 0.3687,
	"step": 14
	},
	{
	"epoch": 0.003079449804968179,
	"grad_norm": 1.5500695705413818,
	"learning_rate": 9.77578947368421e-05,
	"loss": 0.381,
	"step": 15
	},
	{
	"epoch": 0.003284746458632724,
	"grad_norm": 1.4160789251327515,
	"learning_rate": 9.722947368421052e-05,
	"loss": 0.3512,
	"step": 16
	},
	{
	"epoch": 0.0034900431122972695,
	"grad_norm": 1.4462215900421143,
	"learning_rate": 9.670105263157895e-05,
	"loss": 0.353,
	"step": 17
	},
	{
	"epoch": 0.003695339765961815,
	"grad_norm": 1.0240310430526733,
	"learning_rate": 9.617263157894737e-05,
	"loss": 0.322,
	"step": 18
	},
	{
	"epoch": 0.00390063641962636,
	"grad_norm": 1.1923655271530151,
	"learning_rate": 9.564421052631579e-05,
	"loss": 0.3566,
	"step": 19
	},
	{
	"epoch": 0.0041059330732909054,
	"grad_norm": 1.6432424783706665,
	"learning_rate": 9.511578947368421e-05,
	"loss": 0.3615,
	"step": 20
	},
	{
	"epoch": 0.0043112297269554505,
	"grad_norm": 1.3957858085632324,
	"learning_rate": 9.458736842105264e-05,
	"loss": 0.3816,
	"step": 21
	},
	{
	"epoch": 0.0045165263806199955,
	"grad_norm": 1.0589792728424072,
	"learning_rate": 9.405894736842106e-05,
	"loss": 0.3055,
	"step": 22
	},
	{
	"epoch": 0.004721823034284541,
	"grad_norm": 1.3135740756988525,
	"learning_rate": 9.353052631578947e-05,
	"loss": 0.3828,
	"step": 23
	},
	{
	"epoch": 0.004927119687949086,
	"grad_norm": 0.984417736530304,
	"learning_rate": 9.300210526315789e-05,
	"loss": 0.3207,
	"step": 24
	},
	{
	"epoch": 0.005132416341613631,
	"grad_norm": 1.0034253597259521,
	"learning_rate": 9.247368421052631e-05,
	"loss": 0.2155,
	"step": 25
	},
	{
	"epoch": 0.005337712995278177,
	"grad_norm": 0.9280335903167725,
	"learning_rate": 9.194526315789473e-05,
	"loss": 0.288,
	"step": 26
	},
	{
	"epoch": 0.005543009648942722,
	"grad_norm": 1.225964903831482,
	"learning_rate": 9.141684210526316e-05,
	"loss": 0.3412,
	"step": 27
	},
	{
	"epoch": 0.005748306302607267,
	"grad_norm": 1.1848243474960327,
	"learning_rate": 9.088842105263158e-05,
	"loss": 0.3534,
	"step": 28
	},
	{
	"epoch": 0.005953602956271813,
	"grad_norm": 0.9669045209884644,
	"learning_rate": 9.036000000000001e-05,
	"loss": 0.2628,
	"step": 29
	},
	{
	"epoch": 0.006158899609936358,
	"grad_norm": 1.0077804327011108,
	"learning_rate": 8.983157894736843e-05,
	"loss": 0.3054,
	"step": 30
	},
	{
	"epoch": 0.006364196263600903,
	"grad_norm": 1.309670090675354,
	"learning_rate": 8.930315789473684e-05,
	"loss": 0.3558,
	"step": 31
	},
	{
	"epoch": 0.006569492917265448,
	"grad_norm": 1.3912608623504639,
	"learning_rate": 8.877473684210526e-05,
	"loss": 0.3219,
	"step": 32
	},
	{
	"epoch": 0.006774789570929994,
	"grad_norm": 2.0321879386901855,
	"learning_rate": 8.824631578947368e-05,
	"loss": 0.3565,
	"step": 33
	},
	{
	"epoch": 0.006980086224594539,
	"grad_norm": 1.429619312286377,
	"learning_rate": 8.771789473684211e-05,
	"loss": 0.4488,
	"step": 34
	},
	{
	"epoch": 0.007185382878259084,
	"grad_norm": 1.5244200229644775,
	"learning_rate": 8.718947368421053e-05,
	"loss": 0.3932,
	"step": 35
	},
	{
	"epoch": 0.00739067953192363,
	"grad_norm": 1.9189207553863525,
	"learning_rate": 8.666105263157895e-05,
	"loss": 0.325,
	"step": 36
	},
	{
	"epoch": 0.007595976185588175,
	"grad_norm": 1.4107446670532227,
	"learning_rate": 8.613263157894737e-05,
	"loss": 0.2386,
	"step": 37
	},
	{
	"epoch": 0.00780127283925272,
	"grad_norm": 1.8684407472610474,
	"learning_rate": 8.560421052631578e-05,
	"loss": 0.5354,
	"step": 38
	},
	{
	"epoch": 0.008006569492917266,
	"grad_norm": 1.7079691886901855,
	"learning_rate": 8.50757894736842e-05,
	"loss": 0.3189,
	"step": 39
	},
	{
	"epoch": 0.008211866146581811,
	"grad_norm": 1.4461852312088013,
	"learning_rate": 8.454736842105263e-05,
	"loss": 0.322,
	"step": 40
	},
	{
	"epoch": 0.008417162800246356,
	"grad_norm": 1.3741295337677002,
	"learning_rate": 8.401894736842106e-05,
	"loss": 0.3541,
	"step": 41
	},
	{
	"epoch": 0.008622459453910901,
	"grad_norm": 1.7616922855377197,
	"learning_rate": 8.349052631578948e-05,
	"loss": 0.3264,
	"step": 42
	},
	{
	"epoch": 0.008827756107575446,
	"grad_norm": 1.8308717012405396,
	"learning_rate": 8.29621052631579e-05,
	"loss": 0.306,
	"step": 43
	},
	{
	"epoch": 0.009033052761239991,
	"grad_norm": 1.9519275426864624,
	"learning_rate": 8.243368421052632e-05,
	"loss": 0.3909,
	"step": 44
	},
	{
	"epoch": 0.009238349414904538,
	"grad_norm": 1.9473401308059692,
	"learning_rate": 8.190526315789474e-05,
	"loss": 0.4332,
	"step": 45
	},
	{
	"epoch": 0.009443646068569083,
	"grad_norm": 1.8211240768432617,
	"learning_rate": 8.137684210526315e-05,
	"loss": 0.4124,
	"step": 46
	},
	{
	"epoch": 0.009648942722233628,
	"grad_norm": 1.6044187545776367,
	"learning_rate": 8.084842105263157e-05,
	"loss": 0.2797,
	"step": 47
	},
	{
	"epoch": 0.009854239375898173,
	"grad_norm": 1.8763623237609863,
	"learning_rate": 8.032e-05,
	"loss": 0.3744,
	"step": 48
	},
	{
	"epoch": 0.010059536029562718,
	"grad_norm": 2.20684814453125,
	"learning_rate": 7.979157894736842e-05,
	"loss": 0.5014,
	"step": 49
	},
	{
	"epoch": 0.010264832683227263,
	"grad_norm": 2.2577061653137207,
	"learning_rate": 7.926315789473684e-05,
	"loss": 0.4693,
	"step": 50
	},
	{
	"epoch": 0.010264832683227263,
	"eval_loss": 0.3905164897441864,
	"eval_runtime": 283.6848,
	"eval_samples_per_second": 7.23,
	"eval_steps_per_second": 1.808,
	"step": 50
	},
	{
	"epoch": 0.01047012933689181,
	"grad_norm": 1.0799939632415771,
	"learning_rate": 7.873473684210526e-05,
	"loss": 0.3619,
	"step": 51
	},
	{
	"epoch": 0.010675425990556354,
	"grad_norm": 1.2252871990203857,
	"learning_rate": 7.820631578947369e-05,
	"loss": 0.4295,
	"step": 52
	},
	{
	"epoch": 0.0108807226442209,
	"grad_norm": 0.8576818704605103,
	"learning_rate": 7.76778947368421e-05,
	"loss": 0.3482,
	"step": 53
	},
	{
	"epoch": 0.011086019297885445,
	"grad_norm": 0.5568431615829468,
	"learning_rate": 7.714947368421052e-05,
	"loss": 0.286,
	"step": 54
	},
	{
	"epoch": 0.01129131595154999,
	"grad_norm": 0.7329469323158264,
	"learning_rate": 7.662105263157896e-05,
	"loss": 0.2958,
	"step": 55
	},
	{
	"epoch": 0.011496612605214535,
	"grad_norm": 0.7412177920341492,
	"learning_rate": 7.609263157894737e-05,
	"loss": 0.38,
	"step": 56
	},
	{
	"epoch": 0.01170190925887908,
	"grad_norm": 0.569349467754364,
	"learning_rate": 7.556421052631579e-05,
	"loss": 0.2482,
	"step": 57
	},
	{
	"epoch": 0.011907205912543626,
	"grad_norm": 0.7977584600448608,
	"learning_rate": 7.503578947368421e-05,
	"loss": 0.3199,
	"step": 58
	},
	{
	"epoch": 0.012112502566208171,
	"grad_norm": 0.6417466998100281,
	"learning_rate": 7.450736842105263e-05,
	"loss": 0.2742,
	"step": 59
	},
	{
	"epoch": 0.012317799219872716,
	"grad_norm": 0.7626402378082275,
	"learning_rate": 7.397894736842105e-05,
	"loss": 0.3268,
	"step": 60
	},
	{
	"epoch": 0.012523095873537261,
	"grad_norm": 0.6782163381576538,
	"learning_rate": 7.345052631578948e-05,
	"loss": 0.3317,
	"step": 61
	},
	{
	"epoch": 0.012728392527201806,
	"grad_norm": 0.7630534172058105,
	"learning_rate": 7.29221052631579e-05,
	"loss": 0.3016,
	"step": 62
	},
	{
	"epoch": 0.012933689180866351,
	"grad_norm": 0.7664050459861755,
	"learning_rate": 7.239368421052631e-05,
	"loss": 0.379,
	"step": 63
	},
	{
	"epoch": 0.013138985834530896,
	"grad_norm": 0.720039427280426,
	"learning_rate": 7.186526315789474e-05,
	"loss": 0.2917,
	"step": 64
	},
	{
	"epoch": 0.013344282488195443,
	"grad_norm": 0.681718111038208,
	"learning_rate": 7.133684210526316e-05,
	"loss": 0.3043,
	"step": 65
	},
	{
	"epoch": 0.013549579141859988,
	"grad_norm": 0.7472444772720337,
	"learning_rate": 7.080842105263158e-05,
	"loss": 0.3209,
	"step": 66
	},
	{
	"epoch": 0.013754875795524533,
	"grad_norm": 0.821285605430603,
	"learning_rate": 7.028e-05,
	"loss": 0.3087,
	"step": 67
	},
	{
	"epoch": 0.013960172449189078,
	"grad_norm": 0.7269453406333923,
	"learning_rate": 6.975157894736843e-05,
	"loss": 0.2669,
	"step": 68
	},
	{
	"epoch": 0.014165469102853623,
	"grad_norm": 0.8093358278274536,
	"learning_rate": 6.922315789473685e-05,
	"loss": 0.3617,
	"step": 69
	},
	{
	"epoch": 0.014370765756518168,
	"grad_norm": 0.672995924949646,
	"learning_rate": 6.869473684210527e-05,
	"loss": 0.2406,
	"step": 70
	},
	{
	"epoch": 0.014576062410182713,
	"grad_norm": 0.7517425417900085,
	"learning_rate": 6.816631578947368e-05,
	"loss": 0.3277,
	"step": 71
	},
	{
	"epoch": 0.01478135906384726,
	"grad_norm": 0.8492874503135681,
	"learning_rate": 6.76378947368421e-05,
	"loss": 0.3203,
	"step": 72
	},
	{
	"epoch": 0.014986655717511805,
	"grad_norm": 0.7951849699020386,
	"learning_rate": 6.710947368421052e-05,
	"loss": 0.2832,
	"step": 73
	},
	{
	"epoch": 0.01519195237117635,
	"grad_norm": 0.8031511902809143,
	"learning_rate": 6.658105263157894e-05,
	"loss": 0.3054,
	"step": 74
	},
	{
	"epoch": 0.015397249024840895,
	"grad_norm": 0.9755042195320129,
	"learning_rate": 6.605263157894737e-05,
	"loss": 0.3527,
	"step": 75
	},
	{
	"epoch": 0.01560254567850544,
	"grad_norm": 0.7796215415000916,
	"learning_rate": 6.55242105263158e-05,
	"loss": 0.2549,
	"step": 76
	},
	{
	"epoch": 0.015807842332169985,
	"grad_norm": 0.8745598793029785,
	"learning_rate": 6.499578947368422e-05,
	"loss": 0.3623,
	"step": 77
	},
	{
	"epoch": 0.016013138985834532,
	"grad_norm": 0.8187890648841858,
	"learning_rate": 6.446736842105264e-05,
	"loss": 0.2409,
	"step": 78
	},
	{
	"epoch": 0.016218435639499075,
	"grad_norm": 0.7740800380706787,
	"learning_rate": 6.393894736842105e-05,
	"loss": 0.2695,
	"step": 79
	},
	{
	"epoch": 0.016423732293163622,
	"grad_norm": 0.7411985397338867,
	"learning_rate": 6.341052631578947e-05,
	"loss": 0.2926,
	"step": 80
	},
	{
	"epoch": 0.016629028946828165,
	"grad_norm": 0.6864801645278931,
	"learning_rate": 6.288210526315789e-05,
	"loss": 0.2298,
	"step": 81
	},
	{
	"epoch": 0.016834325600492712,
	"grad_norm": 1.017356276512146,
	"learning_rate": 6.235368421052632e-05,
	"loss": 0.3427,
	"step": 82
	},
	{
	"epoch": 0.01703962225415726,
	"grad_norm": 1.3836476802825928,
	"learning_rate": 6.182526315789474e-05,
	"loss": 0.2717,
	"step": 83
	},
	{
	"epoch": 0.017244918907821802,
	"grad_norm": 0.8246234655380249,
	"learning_rate": 6.129684210526316e-05,
	"loss": 0.236,
	"step": 84
	},
	{
	"epoch": 0.01745021556148635,
	"grad_norm": 0.8777735829353333,
	"learning_rate": 6.076842105263158e-05,
	"loss": 0.2285,
	"step": 85
	},
	{
	"epoch": 0.017655512215150892,
	"grad_norm": 1.1864032745361328,
	"learning_rate": 6.024e-05,
	"loss": 0.3507,
	"step": 86
	},
	{
	"epoch": 0.01786080886881544,
	"grad_norm": 1.2794263362884521,
	"learning_rate": 5.971157894736842e-05,
	"loss": 0.3693,
	"step": 87
	},
	{
	"epoch": 0.018066105522479982,
	"grad_norm": 1.1183644533157349,
	"learning_rate": 5.9183157894736835e-05,
	"loss": 0.3053,
	"step": 88
	},
	{
	"epoch": 0.01827140217614453,
	"grad_norm": 1.1237081289291382,
	"learning_rate": 5.8654736842105267e-05,
	"loss": 0.2993,
	"step": 89
	},
	{
	"epoch": 0.018476698829809075,
	"grad_norm": 1.0422002077102661,
	"learning_rate": 5.8126315789473684e-05,
	"loss": 0.3116,
	"step": 90
	},
	{
	"epoch": 0.01868199548347362,
	"grad_norm": 1.0887373685836792,
	"learning_rate": 5.759789473684211e-05,
	"loss": 0.2462,
	"step": 91
	},
	{
	"epoch": 0.018887292137138165,
	"grad_norm": 1.1609467267990112,
	"learning_rate": 5.706947368421053e-05,
	"loss": 0.2892,
	"step": 92
	},
	{
	"epoch": 0.01909258879080271,
	"grad_norm": 1.0913397073745728,
	"learning_rate": 5.6541052631578945e-05,
	"loss": 0.2621,
	"step": 93
	},
	{
	"epoch": 0.019297885444467255,
	"grad_norm": 1.2688875198364258,
	"learning_rate": 5.601263157894736e-05,
	"loss": 0.2619,
	"step": 94
	},
	{
	"epoch": 0.019503182098131802,
	"grad_norm": 1.8537800312042236,
	"learning_rate": 5.5484210526315794e-05,
	"loss": 0.3301,
	"step": 95
	},
	{
	"epoch": 0.019708478751796345,
	"grad_norm": 1.5115448236465454,
	"learning_rate": 5.495578947368421e-05,
	"loss": 0.3174,
	"step": 96
	},
	{
	"epoch": 0.019913775405460892,
	"grad_norm": 1.3447884321212769,
	"learning_rate": 5.442736842105264e-05,
	"loss": 0.2984,
	"step": 97
	},
	{
	"epoch": 0.020119072059125435,
	"grad_norm": 1.405712604522705,
	"learning_rate": 5.3898947368421055e-05,
	"loss": 0.3403,
	"step": 98
	},
	{
	"epoch": 0.020324368712789982,
	"grad_norm": 1.7032535076141357,
	"learning_rate": 5.337052631578947e-05,
	"loss": 0.352,
	"step": 99
	},
	{
	"epoch": 0.020529665366454525,
	"grad_norm": 1.6720629930496216,
	"learning_rate": 5.284210526315789e-05,
	"loss": 0.2699,
	"step": 100
	},
	{
	"epoch": 0.020529665366454525,
	"eval_loss": 0.3957465887069702,
	"eval_runtime": 283.8573,
	"eval_samples_per_second": 7.225,
	"eval_steps_per_second": 1.807,
	"step": 100
	},
	{
	"epoch": 0.020734962020119072,
	"grad_norm": 1.3754338026046753,
	"learning_rate": 5.231368421052631e-05,
	"loss": 0.5216,
	"step": 101
	},
	{
	"epoch": 0.02094025867378362,
	"grad_norm": 0.9947471618652344,
	"learning_rate": 5.178526315789474e-05,
	"loss": 0.3717,
	"step": 102
	},
	{
	"epoch": 0.021145555327448162,
	"grad_norm": 1.0772303342819214,
	"learning_rate": 5.1256842105263165e-05,
	"loss": 0.3756,
	"step": 103
	},
	{
	"epoch": 0.02135085198111271,
	"grad_norm": 1.0028579235076904,
	"learning_rate": 5.072842105263158e-05,
	"loss": 0.3998,
	"step": 104
	},
	{
	"epoch": 0.021556148634777252,
	"grad_norm": 0.9716396927833557,
	"learning_rate": 5.02e-05,
	"loss": 0.4231,
	"step": 105
	},
	{
	"epoch": 0.0217614452884418,
	"grad_norm": 0.6188949942588806,
	"learning_rate": 4.967157894736842e-05,
	"loss": 0.3012,
	"step": 106
	},
	{
	"epoch": 0.021966741942106342,
	"grad_norm": 0.6589746475219727,
	"learning_rate": 4.914315789473684e-05,
	"loss": 0.2888,
	"step": 107
	},
	{
	"epoch": 0.02217203859577089,
	"grad_norm": 0.5264716148376465,
	"learning_rate": 4.861473684210526e-05,
	"loss": 0.2964,
	"step": 108
	},
	{
	"epoch": 0.022377335249435436,
	"grad_norm": 0.5431289076805115,
	"learning_rate": 4.8086315789473686e-05,
	"loss": 0.2952,
	"step": 109
	},
	{
	"epoch": 0.02258263190309998,
	"grad_norm": 0.7499707937240601,
	"learning_rate": 4.7557894736842104e-05,
	"loss": 0.311,
	"step": 110
	},
	{
	"epoch": 0.022787928556764526,
	"grad_norm": 0.5410442352294922,
	"learning_rate": 4.702947368421053e-05,
	"loss": 0.2698,
	"step": 111
	},
	{
	"epoch": 0.02299322521042907,
	"grad_norm": 0.49856746196746826,
	"learning_rate": 4.6501052631578946e-05,
	"loss": 0.2441,
	"step": 112
	},
	{
	"epoch": 0.023198521864093616,
	"grad_norm": 0.5425069332122803,
	"learning_rate": 4.5972631578947364e-05,
	"loss": 0.252,
	"step": 113
	},
	{
	"epoch": 0.02340381851775816,
	"grad_norm": 0.7178559899330139,
	"learning_rate": 4.544421052631579e-05,
	"loss": 0.3255,
	"step": 114
	},
	{
	"epoch": 0.023609115171422706,
	"grad_norm": 0.5658791065216064,
	"learning_rate": 4.4915789473684213e-05,
	"loss": 0.2957,
	"step": 115
	},
	{
	"epoch": 0.023814411825087253,
	"grad_norm": 0.5597440600395203,
	"learning_rate": 4.438736842105263e-05,
	"loss": 0.2893,
	"step": 116
	},
	{
	"epoch": 0.024019708478751796,
	"grad_norm": 0.6386386156082153,
	"learning_rate": 4.3858947368421056e-05,
	"loss": 0.3598,
	"step": 117
	},
	{
	"epoch": 0.024225005132416343,
	"grad_norm": 0.6502652764320374,
	"learning_rate": 4.3330526315789474e-05,
	"loss": 0.2804,
	"step": 118
	},
	{
	"epoch": 0.024430301786080886,
	"grad_norm": 0.6374607086181641,
	"learning_rate": 4.280210526315789e-05,
	"loss": 0.2767,
	"step": 119
	},
	{
	"epoch": 0.024635598439745433,
	"grad_norm": 0.6071303486824036,
	"learning_rate": 4.2273684210526317e-05,
	"loss": 0.2579,
	"step": 120
	},
	{
	"epoch": 0.024840895093409976,
	"grad_norm": 0.7243674397468567,
	"learning_rate": 4.174526315789474e-05,
	"loss": 0.358,
	"step": 121
	},
	{
	"epoch": 0.025046191747074523,
	"grad_norm": 0.658960223197937,
	"learning_rate": 4.121684210526316e-05,
	"loss": 0.2744,
	"step": 122
	},
	{
	"epoch": 0.02525148840073907,
	"grad_norm": 0.6552606225013733,
	"learning_rate": 4.068842105263158e-05,
	"loss": 0.2575,
	"step": 123
	},
	{
	"epoch": 0.025456785054403613,
	"grad_norm": 0.8720560669898987,
	"learning_rate": 4.016e-05,
	"loss": 0.3128,
	"step": 124
	},
	{
	"epoch": 0.02566208170806816,
	"grad_norm": 0.7429736256599426,
	"learning_rate": 3.963157894736842e-05,
	"loss": 0.282,
	"step": 125
	},
	{
	"epoch": 0.025867378361732703,
	"grad_norm": 0.6923242807388306,
	"learning_rate": 3.9103157894736844e-05,
	"loss": 0.1901,
	"step": 126
	},
	{
	"epoch": 0.02607267501539725,
	"grad_norm": 0.7189604640007019,
	"learning_rate": 3.857473684210526e-05,
	"loss": 0.2721,
	"step": 127
	},
	{
	"epoch": 0.026277971669061793,
	"grad_norm": 0.9543197751045227,
	"learning_rate": 3.804631578947369e-05,
	"loss": 0.2603,
	"step": 128
	},
	{
	"epoch": 0.02648326832272634,
	"grad_norm": 0.764552891254425,
	"learning_rate": 3.7517894736842105e-05,
	"loss": 0.2741,
	"step": 129
	},
	{
	"epoch": 0.026688564976390886,
	"grad_norm": 0.7686837911605835,
	"learning_rate": 3.698947368421052e-05,
	"loss": 0.2984,
	"step": 130
	},
	{
	"epoch": 0.02689386163005543,
	"grad_norm": 0.7207261323928833,
	"learning_rate": 3.646105263157895e-05,
	"loss": 0.2831,
	"step": 131
	},
	{
	"epoch": 0.027099158283719976,
	"grad_norm": 0.714175820350647,
	"learning_rate": 3.593263157894737e-05,
	"loss": 0.1969,
	"step": 132
	},
	{
	"epoch": 0.02730445493738452,
	"grad_norm": 0.8730839490890503,
	"learning_rate": 3.540421052631579e-05,
	"loss": 0.2755,
	"step": 133
	},
	{
	"epoch": 0.027509751591049066,
	"grad_norm": 0.9100469946861267,
	"learning_rate": 3.4875789473684215e-05,
	"loss": 0.2463,
	"step": 134
	},
	{
	"epoch": 0.02771504824471361,
	"grad_norm": 0.8955867886543274,
	"learning_rate": 3.434736842105263e-05,
	"loss": 0.2368,
	"step": 135
	},
	{
	"epoch": 0.027920344898378156,
	"grad_norm": 0.8493711352348328,
	"learning_rate": 3.381894736842105e-05,
	"loss": 0.2701,
	"step": 136
	},
	{
	"epoch": 0.028125641552042703,
	"grad_norm": 0.8181521892547607,
	"learning_rate": 3.329052631578947e-05,
	"loss": 0.2705,
	"step": 137
	},
	{
	"epoch": 0.028330938205707246,
	"grad_norm": 0.869841456413269,
	"learning_rate": 3.27621052631579e-05,
	"loss": 0.2457,
	"step": 138
	},
	{
	"epoch": 0.028536234859371793,
	"grad_norm": 1.0162545442581177,
	"learning_rate": 3.223368421052632e-05,
	"loss": 0.3208,
	"step": 139
	},
	{
	"epoch": 0.028741531513036336,
	"grad_norm": 1.2462005615234375,
	"learning_rate": 3.1705263157894736e-05,
	"loss": 0.3156,
	"step": 140
	},
	{
	"epoch": 0.028946828166700883,
	"grad_norm": 1.145050287246704,
	"learning_rate": 3.117684210526316e-05,
	"loss": 0.2674,
	"step": 141
	},
	{
	"epoch": 0.029152124820365426,
	"grad_norm": 1.3327499628067017,
	"learning_rate": 3.064842105263158e-05,
	"loss": 0.3207,
	"step": 142
	},
	{
	"epoch": 0.029357421474029973,
	"grad_norm": 1.1416566371917725,
	"learning_rate": 3.012e-05,
	"loss": 0.298,
	"step": 143
	},
	{
	"epoch": 0.02956271812769452,
	"grad_norm": 1.1980369091033936,
	"learning_rate": 2.9591578947368418e-05,
	"loss": 0.2707,
	"step": 144
	},
	{
	"epoch": 0.029768014781359063,
	"grad_norm": 1.1596184968948364,
	"learning_rate": 2.9063157894736842e-05,
	"loss": 0.2976,
	"step": 145
	},
	{
	"epoch": 0.02997331143502361,
	"grad_norm": 1.197420597076416,
	"learning_rate": 2.8534736842105264e-05,
	"loss": 0.2229,
	"step": 146
	},
	{
	"epoch": 0.030178608088688153,
	"grad_norm": 1.0424596071243286,
	"learning_rate": 2.800631578947368e-05,
	"loss": 0.2084,
	"step": 147
	},
	{
	"epoch": 0.0303839047423527,
	"grad_norm": 1.268896222114563,
	"learning_rate": 2.7477894736842106e-05,
	"loss": 0.3301,
	"step": 148
	},
	{
	"epoch": 0.030589201396017243,
	"grad_norm": 1.5805307626724243,
	"learning_rate": 2.6949473684210527e-05,
	"loss": 0.2622,
	"step": 149
	},
	{
	"epoch": 0.03079449804968179,
	"grad_norm": 2.11923885345459,
	"learning_rate": 2.6421052631578945e-05,
	"loss": 0.3621,
	"step": 150
	},
	{
	"epoch": 0.03079449804968179,
	"eval_loss": 0.34410402178764343,
	"eval_runtime": 284.7503,
	"eval_samples_per_second": 7.203,
	"eval_steps_per_second": 1.802,
	"step": 150
	},
	{
	"epoch": 0.030999794703346337,
	"grad_norm": 1.0855504274368286,
	"learning_rate": 2.589263157894737e-05,
	"loss": 0.3438,
	"step": 151
	},
	{
	"epoch": 0.03120509135701088,
	"grad_norm": 1.0626095533370972,
	"learning_rate": 2.536421052631579e-05,
	"loss": 0.3517,
	"step": 152
	},
	{
	"epoch": 0.03141038801067542,
	"grad_norm": 1.0813599824905396,
	"learning_rate": 2.483578947368421e-05,
	"loss": 0.4109,
	"step": 153
	},
	{
	"epoch": 0.03161568466433997,
	"grad_norm": 1.1301844120025635,
	"learning_rate": 2.430736842105263e-05,
	"loss": 0.366,
	"step": 154
	},
	{
	"epoch": 0.03182098131800452,
	"grad_norm": 0.83632493019104,
	"learning_rate": 2.3778947368421052e-05,
	"loss": 0.3065,
	"step": 155
	},
	{
	"epoch": 0.032026277971669063,
	"grad_norm": 0.8896894454956055,
	"learning_rate": 2.3250526315789473e-05,
	"loss": 0.2917,
	"step": 156
	},
	{
	"epoch": 0.03223157462533361,
	"grad_norm": 0.9853330254554749,
	"learning_rate": 2.2722105263157894e-05,
	"loss": 0.327,
	"step": 157
	},
	{
	"epoch": 0.03243687127899815,
	"grad_norm": 0.523433268070221,
	"learning_rate": 2.2193684210526316e-05,
	"loss": 0.3005,
	"step": 158
	},
	{
	"epoch": 0.0326421679326627,
	"grad_norm": 0.507231593132019,
	"learning_rate": 2.1665263157894737e-05,
	"loss": 0.2515,
	"step": 159
	},
	{
	"epoch": 0.032847464586327244,
	"grad_norm": 0.4762112498283386,
	"learning_rate": 2.1136842105263158e-05,
	"loss": 0.2701,
	"step": 160
	},
	{
	"epoch": 0.03305276123999179,
	"grad_norm": 0.700114905834198,
	"learning_rate": 2.060842105263158e-05,
	"loss": 0.2307,
	"step": 161
	},
	{
	"epoch": 0.03325805789365633,
	"grad_norm": 0.6575700044631958,
	"learning_rate": 2.008e-05,
	"loss": 0.2601,
	"step": 162
	},
	{
	"epoch": 0.03346335454732088,
	"grad_norm": 0.5447333455085754,
	"learning_rate": 1.9551578947368422e-05,
	"loss": 0.2787,
	"step": 163
	},
	{
	"epoch": 0.033668651200985424,
	"grad_norm": 0.5627842545509338,
	"learning_rate": 1.9023157894736843e-05,
	"loss": 0.2804,
	"step": 164
	},
	{
	"epoch": 0.03387394785464997,
	"grad_norm": 0.6934998035430908,
	"learning_rate": 1.849473684210526e-05,
	"loss": 0.3029,
	"step": 165
	},
	{
	"epoch": 0.03407924450831452,
	"grad_norm": 0.608713686466217,
	"learning_rate": 1.7966315789473686e-05,
	"loss": 0.3032,
	"step": 166
	},
	{
	"epoch": 0.03428454116197906,
	"grad_norm": 0.7269811034202576,
	"learning_rate": 1.7437894736842107e-05,
	"loss": 0.3062,
	"step": 167
	},
	{
	"epoch": 0.034489837815643604,
	"grad_norm": 0.7339184880256653,
	"learning_rate": 1.6909473684210525e-05,
	"loss": 0.3572,
	"step": 168
	},
	{
	"epoch": 0.03469513446930815,
	"grad_norm": 0.6014161109924316,
	"learning_rate": 1.638105263157895e-05,
	"loss": 0.2341,
	"step": 169
	},
	{
	"epoch": 0.0349004311229727,
	"grad_norm": 0.5328456163406372,
	"learning_rate": 1.5852631578947368e-05,
	"loss": 0.1971,
	"step": 170
	},
	{
	"epoch": 0.035105727776637244,
	"grad_norm": 0.600787341594696,
	"learning_rate": 1.532421052631579e-05,
	"loss": 0.2759,
	"step": 171
	},
	{
	"epoch": 0.035311024430301784,
	"grad_norm": 0.6568222045898438,
	"learning_rate": 1.4795789473684209e-05,
	"loss": 0.2669,
	"step": 172
	},
	{
	"epoch": 0.03551632108396633,
	"grad_norm": 0.8094263076782227,
	"learning_rate": 1.4267368421052632e-05,
	"loss": 0.3178,
	"step": 173
	},
	{
	"epoch": 0.03572161773763088,
	"grad_norm": 0.7459115982055664,
	"learning_rate": 1.3738947368421053e-05,
	"loss": 0.3089,
	"step": 174
	},
	{
	"epoch": 0.035926914391295424,
	"grad_norm": 0.5925175547599792,
	"learning_rate": 1.3210526315789473e-05,
	"loss": 0.2371,
	"step": 175
	},
	{
	"epoch": 0.036132211044959964,
	"grad_norm": 0.7327297329902649,
	"learning_rate": 1.2682105263157896e-05,
	"loss": 0.2102,
	"step": 176
	},
	{
	"epoch": 0.03633750769862451,
	"grad_norm": 0.829053521156311,
	"learning_rate": 1.2153684210526315e-05,
	"loss": 0.3248,
	"step": 177
	},
	{
	"epoch": 0.03654280435228906,
	"grad_norm": 0.9253886938095093,
	"learning_rate": 1.1625263157894737e-05,
	"loss": 0.36,
	"step": 178
	},
	{
	"epoch": 0.036748101005953604,
	"grad_norm": 0.8999148011207581,
	"learning_rate": 1.1096842105263158e-05,
	"loss": 0.3776,
	"step": 179
	},
	{
	"epoch": 0.03695339765961815,
	"grad_norm": 0.9121159911155701,
	"learning_rate": 1.0568421052631579e-05,
	"loss": 0.3397,
	"step": 180
	},
	{
	"epoch": 0.03715869431328269,
	"grad_norm": 0.6963509917259216,
	"learning_rate": 1.004e-05,
	"loss": 0.2286,
	"step": 181
	},
	{
	"epoch": 0.03736399096694724,
	"grad_norm": 0.8616005182266235,
	"learning_rate": 9.511578947368422e-06,
	"loss": 0.3376,
	"step": 182
	},
	{
	"epoch": 0.037569287620611784,
	"grad_norm": 0.9709863066673279,
	"learning_rate": 8.983157894736843e-06,
	"loss": 0.3455,
	"step": 183
	},
	{
	"epoch": 0.03777458427427633,
	"grad_norm": 0.9001310467720032,
	"learning_rate": 8.454736842105263e-06,
	"loss": 0.247,
	"step": 184
	},
	{
	"epoch": 0.03797988092794088,
	"grad_norm": 0.8515599966049194,
	"learning_rate": 7.926315789473684e-06,
	"loss": 0.2948,
	"step": 185
	},
	{
	"epoch": 0.03818517758160542,
	"grad_norm": 0.9445661306381226,
	"learning_rate": 7.397894736842104e-06,
	"loss": 0.3226,
	"step": 186
	},
	{
	"epoch": 0.038390474235269964,
	"grad_norm": 0.9558519721031189,
	"learning_rate": 6.8694736842105265e-06,
	"loss": 0.2099,
	"step": 187
	},
	{
	"epoch": 0.03859577088893451,
	"grad_norm": 1.244987964630127,
	"learning_rate": 6.341052631578948e-06,
	"loss": 0.4038,
	"step": 188
	},
	{
	"epoch": 0.03880106754259906,
	"grad_norm": 1.1432714462280273,
	"learning_rate": 5.812631578947368e-06,
	"loss": 0.3254,
	"step": 189
	},
	{
	"epoch": 0.039006364196263604,
	"grad_norm": 1.165374755859375,
	"learning_rate": 5.2842105263157896e-06,
	"loss": 0.3425,
	"step": 190
	},
	{
	"epoch": 0.039211660849928144,
	"grad_norm": 0.8977206945419312,
	"learning_rate": 4.755789473684211e-06,
	"loss": 0.2447,
	"step": 191
	},
	{
	"epoch": 0.03941695750359269,
	"grad_norm": 1.1840242147445679,
	"learning_rate": 4.227368421052631e-06,
	"loss": 0.2973,
	"step": 192
	},
	{
	"epoch": 0.03962225415725724,
	"grad_norm": 0.9542776942253113,
	"learning_rate": 3.698947368421052e-06,
	"loss": 0.2706,
	"step": 193
	},
	{
	"epoch": 0.039827550810921784,
	"grad_norm": 1.2954764366149902,
	"learning_rate": 3.170526315789474e-06,
	"loss": 0.39,
	"step": 194
	},
	{
	"epoch": 0.040032847464586324,
	"grad_norm": 1.069343090057373,
	"learning_rate": 2.6421052631578948e-06,
	"loss": 0.3317,
	"step": 195
	},
	{
	"epoch": 0.04023814411825087,
	"grad_norm": 1.210374116897583,
	"learning_rate": 2.1136842105263157e-06,
	"loss": 0.2649,
	"step": 196
	},
	{
	"epoch": 0.04044344077191542,
	"grad_norm": 1.4895799160003662,
	"learning_rate": 1.585263157894737e-06,
	"loss": 0.3533,
	"step": 197
	},
	{
	"epoch": 0.040648737425579964,
	"grad_norm": 1.157914400100708,
	"learning_rate": 1.0568421052631578e-06,
	"loss": 0.2274,
	"step": 198
	},
	{
	"epoch": 0.04085403407924451,
	"grad_norm": 1.3822752237319946,
	"learning_rate": 5.284210526315789e-07,
	"loss": 0.2567,
	"step": 199
	},
	{
	"epoch": 0.04105933073290905,
	"grad_norm": 1.841983675956726,
	"learning_rate": 0.0,
	"loss": 0.3759,
	"step": 200
	},
	{
	"epoch": 0.04105933073290905,
	"eval_loss": 0.28237149119377136,
	"eval_runtime": 284.5717,
	"eval_samples_per_second": 7.207,
	"eval_steps_per_second": 1.803,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.700880338341069e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}