Training in progress, step 300, checkpoint

a427614 verified 12 days ago

54.7 kB

	{
	"best_metric": 0.6729200482368469,
	"best_model_checkpoint": "miner_id_24/checkpoint-300",
	"epoch": 0.24737167594310452,
	"eval_steps": 50,
	"global_step": 300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0008245722531436817,
	"grad_norm": 0.4181750416755676,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 0.7232,
	"step": 1
	},
	{
	"epoch": 0.0008245722531436817,
	"eval_loss": 0.8246814608573914,
	"eval_runtime": 42.8717,
	"eval_samples_per_second": 9.237,
	"eval_steps_per_second": 9.237,
	"step": 1
	},
	{
	"epoch": 0.0016491445062873633,
	"grad_norm": 0.40615200996398926,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 0.8142,
	"step": 2
	},
	{
	"epoch": 0.0024737167594310453,
	"grad_norm": 0.37523695826530457,
	"learning_rate": 8.999999999999999e-05,
	"loss": 0.7982,
	"step": 3
	},
	{
	"epoch": 0.0032982890125747267,
	"grad_norm": 0.36036789417266846,
	"learning_rate": 0.00011999999999999999,
	"loss": 0.836,
	"step": 4
	},
	{
	"epoch": 0.0041228612657184084,
	"grad_norm": 0.394962877035141,
	"learning_rate": 0.00015,
	"loss": 0.8198,
	"step": 5
	},
	{
	"epoch": 0.004947433518862091,
	"grad_norm": 0.416413277387619,
	"learning_rate": 0.00017999999999999998,
	"loss": 0.7857,
	"step": 6
	},
	{
	"epoch": 0.005772005772005772,
	"grad_norm": 0.5225532650947571,
	"learning_rate": 0.00020999999999999998,
	"loss": 0.7836,
	"step": 7
	},
	{
	"epoch": 0.006596578025149453,
	"grad_norm": 0.39612719416618347,
	"learning_rate": 0.00023999999999999998,
	"loss": 0.7467,
	"step": 8
	},
	{
	"epoch": 0.0074211502782931356,
	"grad_norm": 0.3856079578399658,
	"learning_rate": 0.00027,
	"loss": 0.7699,
	"step": 9
	},
	{
	"epoch": 0.008245722531436817,
	"grad_norm": 0.3804507851600647,
	"learning_rate": 0.0003,
	"loss": 0.7913,
	"step": 10
	},
	{
	"epoch": 0.009070294784580499,
	"grad_norm": 0.3713577389717102,
	"learning_rate": 0.0002999911984174669,
	"loss": 0.7259,
	"step": 11
	},
	{
	"epoch": 0.009894867037724181,
	"grad_norm": 0.3443286418914795,
	"learning_rate": 0.0002999647947027726,
	"loss": 0.7223,
	"step": 12
	},
	{
	"epoch": 0.010719439290867862,
	"grad_norm": 0.32728496193885803,
	"learning_rate": 0.0002999207919545099,
	"loss": 0.7663,
	"step": 13
	},
	{
	"epoch": 0.011544011544011544,
	"grad_norm": 0.3246591091156006,
	"learning_rate": 0.0002998591953365965,
	"loss": 0.749,
	"step": 14
	},
	{
	"epoch": 0.012368583797155226,
	"grad_norm": 0.32717230916023254,
	"learning_rate": 0.00029978001207766854,
	"loss": 0.7442,
	"step": 15
	},
	{
	"epoch": 0.013193156050298907,
	"grad_norm": 0.3290279805660248,
	"learning_rate": 0.00029968325147023263,
	"loss": 0.7572,
	"step": 16
	},
	{
	"epoch": 0.014017728303442589,
	"grad_norm": 0.35251685976982117,
	"learning_rate": 0.000299568924869575,
	"loss": 0.7737,
	"step": 17
	},
	{
	"epoch": 0.014842300556586271,
	"grad_norm": 0.3338168263435364,
	"learning_rate": 0.00029943704569242917,
	"loss": 0.7588,
	"step": 18
	},
	{
	"epoch": 0.01566687280972995,
	"grad_norm": 0.32795682549476624,
	"learning_rate": 0.0002992876294154013,
	"loss": 0.7875,
	"step": 19
	},
	{
	"epoch": 0.016491445062873634,
	"grad_norm": 0.3186565339565277,
	"learning_rate": 0.00029912069357315393,
	"loss": 0.7336,
	"step": 20
	},
	{
	"epoch": 0.017316017316017316,
	"grad_norm": 0.3066052794456482,
	"learning_rate": 0.00029893625775634835,
	"loss": 0.7219,
	"step": 21
	},
	{
	"epoch": 0.018140589569160998,
	"grad_norm": 0.31656959652900696,
	"learning_rate": 0.0002987343436093454,
	"loss": 0.7583,
	"step": 22
	},
	{
	"epoch": 0.01896516182230468,
	"grad_norm": 0.3124566674232483,
	"learning_rate": 0.00029851497482766547,
	"loss": 0.7673,
	"step": 23
	},
	{
	"epoch": 0.019789734075448363,
	"grad_norm": 0.30470794439315796,
	"learning_rate": 0.00029827817715520773,
	"loss": 0.7122,
	"step": 24
	},
	{
	"epoch": 0.02061430632859204,
	"grad_norm": 0.3141001760959625,
	"learning_rate": 0.0002980239783812289,
	"loss": 0.8052,
	"step": 25
	},
	{
	"epoch": 0.021438878581735724,
	"grad_norm": 0.32485461235046387,
	"learning_rate": 0.0002977524083370822,
	"loss": 0.7482,
	"step": 26
	},
	{
	"epoch": 0.022263450834879406,
	"grad_norm": 0.31203949451446533,
	"learning_rate": 0.00029746349889271645,
	"loss": 0.6784,
	"step": 27
	},
	{
	"epoch": 0.023088023088023088,
	"grad_norm": 0.32462912797927856,
	"learning_rate": 0.0002971572839529358,
	"loss": 0.767,
	"step": 28
	},
	{
	"epoch": 0.02391259534116677,
	"grad_norm": 0.3174619972705841,
	"learning_rate": 0.00029683379945342125,
	"loss": 0.7283,
	"step": 29
	},
	{
	"epoch": 0.024737167594310452,
	"grad_norm": 0.33072593808174133,
	"learning_rate": 0.000296493083356513,
	"loss": 0.8054,
	"step": 30
	},
	{
	"epoch": 0.025561739847454135,
	"grad_norm": 0.31485095620155334,
	"learning_rate": 0.00029613517564675565,
	"loss": 0.7499,
	"step": 31
	},
	{
	"epoch": 0.026386312100597813,
	"grad_norm": 0.3060151934623718,
	"learning_rate": 0.0002957601183262058,
	"loss": 0.7342,
	"step": 32
	},
	{
	"epoch": 0.027210884353741496,
	"grad_norm": 0.31382423639297485,
	"learning_rate": 0.000295367955409503,
	"loss": 0.7529,
	"step": 33
	},
	{
	"epoch": 0.028035456606885178,
	"grad_norm": 0.3076959550380707,
	"learning_rate": 0.00029495873291870436,
	"loss": 0.6956,
	"step": 34
	},
	{
	"epoch": 0.02886002886002886,
	"grad_norm": 0.31915611028671265,
	"learning_rate": 0.0002945324988778834,
	"loss": 0.7885,
	"step": 35
	},
	{
	"epoch": 0.029684601113172542,
	"grad_norm": 0.3209708034992218,
	"learning_rate": 0.00029408930330749477,
	"loss": 0.7536,
	"step": 36
	},
	{
	"epoch": 0.030509173366316224,
	"grad_norm": 0.33205971121788025,
	"learning_rate": 0.0002936291982185036,
	"loss": 0.7633,
	"step": 37
	},
	{
	"epoch": 0.0313337456194599,
	"grad_norm": 0.3191162049770355,
	"learning_rate": 0.00029315223760628217,
	"loss": 0.7437,
	"step": 38
	},
	{
	"epoch": 0.032158317872603585,
	"grad_norm": 0.34463781118392944,
	"learning_rate": 0.00029265847744427303,
	"loss": 0.7586,
	"step": 39
	},
	{
	"epoch": 0.03298289012574727,
	"grad_norm": 0.3288670778274536,
	"learning_rate": 0.00029214797567742035,
	"loss": 0.7812,
	"step": 40
	},
	{
	"epoch": 0.03380746237889095,
	"grad_norm": 0.3351598381996155,
	"learning_rate": 0.00029162079221537,
	"loss": 0.785,
	"step": 41
	},
	{
	"epoch": 0.03463203463203463,
	"grad_norm": 0.3358539938926697,
	"learning_rate": 0.0002910769889254386,
	"loss": 0.7145,
	"step": 42
	},
	{
	"epoch": 0.035456606885178314,
	"grad_norm": 0.3250412344932556,
	"learning_rate": 0.0002905166296253533,
	"loss": 0.7333,
	"step": 43
	},
	{
	"epoch": 0.036281179138321996,
	"grad_norm": 0.324008584022522,
	"learning_rate": 0.0002899397800757626,
	"loss": 0.7508,
	"step": 44
	},
	{
	"epoch": 0.03710575139146568,
	"grad_norm": 0.3390953242778778,
	"learning_rate": 0.0002893465079725187,
	"loss": 0.6994,
	"step": 45
	},
	{
	"epoch": 0.03793032364460936,
	"grad_norm": 0.3244946002960205,
	"learning_rate": 0.0002887368829387333,
	"loss": 0.6945,
	"step": 46
	},
	{
	"epoch": 0.03875489589775304,
	"grad_norm": 0.34154826402664185,
	"learning_rate": 0.0002881109765166071,
	"loss": 0.7437,
	"step": 47
	},
	{
	"epoch": 0.039579468150896725,
	"grad_norm": 0.36960309743881226,
	"learning_rate": 0.00028746886215903387,
	"loss": 0.7878,
	"step": 48
	},
	{
	"epoch": 0.04040404040404041,
	"grad_norm": 0.39132601022720337,
	"learning_rate": 0.00028681061522098047,
	"loss": 0.731,
	"step": 49
	},
	{
	"epoch": 0.04122861265718408,
	"grad_norm": 0.68941730260849,
	"learning_rate": 0.0002861363129506435,
	"loss": 0.7756,
	"step": 50
	},
	{
	"epoch": 0.04122861265718408,
	"eval_loss": 0.7312861084938049,
	"eval_runtime": 42.6476,
	"eval_samples_per_second": 9.285,
	"eval_steps_per_second": 9.285,
	"step": 50
	},
	{
	"epoch": 0.042053184910327765,
	"grad_norm": 0.3118657171726227,
	"learning_rate": 0.0002854460344803842,
	"loss": 0.6581,
	"step": 51
	},
	{
	"epoch": 0.04287775716347145,
	"grad_norm": 0.33690398931503296,
	"learning_rate": 0.00028473986081744163,
	"loss": 0.7433,
	"step": 52
	},
	{
	"epoch": 0.04370232941661513,
	"grad_norm": 0.33627963066101074,
	"learning_rate": 0.000284017874834426,
	"loss": 0.73,
	"step": 53
	},
	{
	"epoch": 0.04452690166975881,
	"grad_norm": 0.3204888105392456,
	"learning_rate": 0.0002832801612595937,
	"loss": 0.7398,
	"step": 54
	},
	{
	"epoch": 0.045351473922902494,
	"grad_norm": 0.3057969808578491,
	"learning_rate": 0.0002825268066669034,
	"loss": 0.6966,
	"step": 55
	},
	{
	"epoch": 0.046176046176046176,
	"grad_norm": 0.30388593673706055,
	"learning_rate": 0.00028175789946585693,
	"loss": 0.672,
	"step": 56
	},
	{
	"epoch": 0.04700061842918986,
	"grad_norm": 0.31205031275749207,
	"learning_rate": 0.0002809735298911234,
	"loss": 0.7422,
	"step": 57
	},
	{
	"epoch": 0.04782519068233354,
	"grad_norm": 0.317719042301178,
	"learning_rate": 0.00028017378999195015,
	"loss": 0.7359,
	"step": 58
	},
	{
	"epoch": 0.04864976293547722,
	"grad_norm": 0.3247784674167633,
	"learning_rate": 0.0002793587736213603,
	"loss": 0.688,
	"step": 59
	},
	{
	"epoch": 0.049474335188620905,
	"grad_norm": 0.32107478380203247,
	"learning_rate": 0.00027852857642513836,
	"loss": 0.7123,
	"step": 60
	},
	{
	"epoch": 0.05029890744176459,
	"grad_norm": 0.3145858645439148,
	"learning_rate": 0.00027768329583060635,
	"loss": 0.7274,
	"step": 61
	},
	{
	"epoch": 0.05112347969490827,
	"grad_norm": 0.3061201870441437,
	"learning_rate": 0.00027682303103518976,
	"loss": 0.7098,
	"step": 62
	},
	{
	"epoch": 0.05194805194805195,
	"grad_norm": 0.31068190932273865,
	"learning_rate": 0.00027594788299477655,
	"loss": 0.7176,
	"step": 63
	},
	{
	"epoch": 0.05277262420119563,
	"grad_norm": 0.32404160499572754,
	"learning_rate": 0.0002750579544118695,
	"loss": 0.7304,
	"step": 64
	},
	{
	"epoch": 0.05359719645433931,
	"grad_norm": 0.3103507459163666,
	"learning_rate": 0.00027415334972353357,
	"loss": 0.7112,
	"step": 65
	},
	{
	"epoch": 0.05442176870748299,
	"grad_norm": 0.31706494092941284,
	"learning_rate": 0.0002732341750891397,
	"loss": 0.6998,
	"step": 66
	},
	{
	"epoch": 0.05524634096062667,
	"grad_norm": 0.30976295471191406,
	"learning_rate": 0.00027230053837790666,
	"loss": 0.671,
	"step": 67
	},
	{
	"epoch": 0.056070913213770356,
	"grad_norm": 0.3198986351490021,
	"learning_rate": 0.0002713525491562421,
	"loss": 0.7438,
	"step": 68
	},
	{
	"epoch": 0.05689548546691404,
	"grad_norm": 0.3304222822189331,
	"learning_rate": 0.0002703903186748843,
	"loss": 0.814,
	"step": 69
	},
	{
	"epoch": 0.05772005772005772,
	"grad_norm": 0.3097413182258606,
	"learning_rate": 0.00026941395985584653,
	"loss": 0.6695,
	"step": 70
	},
	{
	"epoch": 0.0585446299732014,
	"grad_norm": 0.31618732213974,
	"learning_rate": 0.00026842358727916524,
	"loss": 0.739,
	"step": 71
	},
	{
	"epoch": 0.059369202226345084,
	"grad_norm": 0.3159608542919159,
	"learning_rate": 0.0002674193171694533,
	"loss": 0.7172,
	"step": 72
	},
	{
	"epoch": 0.06019377447948877,
	"grad_norm": 0.30797278881073,
	"learning_rate": 0.0002664012673822609,
	"loss": 0.7187,
	"step": 73
	},
	{
	"epoch": 0.06101834673263245,
	"grad_norm": 0.3251792788505554,
	"learning_rate": 0.0002653695573902443,
	"loss": 0.796,
	"step": 74
	},
	{
	"epoch": 0.06184291898577613,
	"grad_norm": 0.3200572431087494,
	"learning_rate": 0.0002643243082691454,
	"loss": 0.7268,
	"step": 75
	},
	{
	"epoch": 0.0626674912389198,
	"grad_norm": 0.29941457509994507,
	"learning_rate": 0.0002632656426835831,
	"loss": 0.6928,
	"step": 76
	},
	{
	"epoch": 0.06349206349206349,
	"grad_norm": 0.3021852672100067,
	"learning_rate": 0.00026219368487265753,
	"loss": 0.7257,
	"step": 77
	},
	{
	"epoch": 0.06431663574520717,
	"grad_norm": 0.30670538544654846,
	"learning_rate": 0.00026110856063537083,
	"loss": 0.699,
	"step": 78
	},
	{
	"epoch": 0.06514120799835085,
	"grad_norm": 0.3165689706802368,
	"learning_rate": 0.00026001039731586334,
	"loss": 0.7149,
	"step": 79
	},
	{
	"epoch": 0.06596578025149454,
	"grad_norm": 0.3253694474697113,
	"learning_rate": 0.0002588993237884696,
	"loss": 0.8077,
	"step": 80
	},
	{
	"epoch": 0.06679035250463822,
	"grad_norm": 0.31187790632247925,
	"learning_rate": 0.00025777547044259435,
	"loss": 0.7574,
	"step": 81
	},
	{
	"epoch": 0.0676149247577819,
	"grad_norm": 0.32256990671157837,
	"learning_rate": 0.0002566389691674106,
	"loss": 0.7692,
	"step": 82
	},
	{
	"epoch": 0.06843949701092558,
	"grad_norm": 0.3136816918849945,
	"learning_rate": 0.00025548995333638197,
	"loss": 0.7452,
	"step": 83
	},
	{
	"epoch": 0.06926406926406926,
	"grad_norm": 0.3113918602466583,
	"learning_rate": 0.00025432855779161076,
	"loss": 0.711,
	"step": 84
	},
	{
	"epoch": 0.07008864151721295,
	"grad_norm": 0.30899491906166077,
	"learning_rate": 0.00025315491882801347,
	"loss": 0.7414,
	"step": 85
	},
	{
	"epoch": 0.07091321377035663,
	"grad_norm": 0.31038275361061096,
	"learning_rate": 0.00025196917417732615,
	"loss": 0.69,
	"step": 86
	},
	{
	"epoch": 0.07173778602350031,
	"grad_norm": 0.32005515694618225,
	"learning_rate": 0.0002507714629919409,
	"loss": 0.7283,
	"step": 87
	},
	{
	"epoch": 0.07256235827664399,
	"grad_norm": 0.31575390696525574,
	"learning_rate": 0.0002495619258285757,
	"loss": 0.6974,
	"step": 88
	},
	{
	"epoch": 0.07338693052978768,
	"grad_norm": 0.3133029341697693,
	"learning_rate": 0.0002483407046317794,
	"loss": 0.7083,
	"step": 89
	},
	{
	"epoch": 0.07421150278293136,
	"grad_norm": 0.32530999183654785,
	"learning_rate": 0.00024710794271727413,
	"loss": 0.7165,
	"step": 90
	},
	{
	"epoch": 0.07503607503607504,
	"grad_norm": 0.31330084800720215,
	"learning_rate": 0.0002458637847551364,
	"loss": 0.6542,
	"step": 91
	},
	{
	"epoch": 0.07586064728921872,
	"grad_norm": 0.3188161849975586,
	"learning_rate": 0.00024460837675281926,
	"loss": 0.6734,
	"step": 92
	},
	{
	"epoch": 0.0766852195423624,
	"grad_norm": 0.3343876600265503,
	"learning_rate": 0.00024334186603801807,
	"loss": 0.7359,
	"step": 93
	},
	{
	"epoch": 0.07750979179550609,
	"grad_norm": 0.33376866579055786,
	"learning_rate": 0.00024206440124138062,
	"loss": 0.6967,
	"step": 94
	},
	{
	"epoch": 0.07833436404864977,
	"grad_norm": 0.3637959957122803,
	"learning_rate": 0.0002407761322790648,
	"loss": 0.7499,
	"step": 95
	},
	{
	"epoch": 0.07915893630179345,
	"grad_norm": 0.335549533367157,
	"learning_rate": 0.00023947721033514512,
	"loss": 0.7196,
	"step": 96
	},
	{
	"epoch": 0.07998350855493713,
	"grad_norm": 0.35548627376556396,
	"learning_rate": 0.00023816778784387094,
	"loss": 0.737,
	"step": 97
	},
	{
	"epoch": 0.08080808080808081,
	"grad_norm": 0.3780907094478607,
	"learning_rate": 0.0002368480184717773,
	"loss": 0.7565,
	"step": 98
	},
	{
	"epoch": 0.08163265306122448,
	"grad_norm": 0.40498775243759155,
	"learning_rate": 0.00023551805709965147,
	"loss": 0.6692,
	"step": 99
	},
	{
	"epoch": 0.08245722531436817,
	"grad_norm": 0.8926903605461121,
	"learning_rate": 0.00023417805980435736,
	"loss": 0.4799,
	"step": 100
	},
	{
	"epoch": 0.08245722531436817,
	"eval_loss": 0.7042385935783386,
	"eval_runtime": 42.7803,
	"eval_samples_per_second": 9.257,
	"eval_steps_per_second": 9.257,
	"step": 100
	},
	{
	"epoch": 0.08328179756751185,
	"grad_norm": 0.29144763946533203,
	"learning_rate": 0.00023282818384051866,
	"loss": 0.6653,
	"step": 101
	},
	{
	"epoch": 0.08410636982065553,
	"grad_norm": 0.290532648563385,
	"learning_rate": 0.00023146858762206489,
	"loss": 0.6903,
	"step": 102
	},
	{
	"epoch": 0.08493094207379921,
	"grad_norm": 0.304470956325531,
	"learning_rate": 0.00023009943070364044,
	"loss": 0.6943,
	"step": 103
	},
	{
	"epoch": 0.0857555143269429,
	"grad_norm": 0.31192028522491455,
	"learning_rate": 0.0002287208737618801,
	"loss": 0.7152,
	"step": 104
	},
	{
	"epoch": 0.08658008658008658,
	"grad_norm": 0.30607473850250244,
	"learning_rate": 0.00022733307857655325,
	"loss": 0.7248,
	"step": 105
	},
	{
	"epoch": 0.08740465883323026,
	"grad_norm": 0.2998904883861542,
	"learning_rate": 0.00022593620801157808,
	"loss": 0.7291,
	"step": 106
	},
	{
	"epoch": 0.08822923108637394,
	"grad_norm": 0.3096725344657898,
	"learning_rate": 0.00022453042599590882,
	"loss": 0.7241,
	"step": 107
	},
	{
	"epoch": 0.08905380333951762,
	"grad_norm": 0.3047013282775879,
	"learning_rate": 0.00022311589750429787,
	"loss": 0.7206,
	"step": 108
	},
	{
	"epoch": 0.0898783755926613,
	"grad_norm": 0.3195563554763794,
	"learning_rate": 0.00022169278853793545,
	"loss": 0.7217,
	"step": 109
	},
	{
	"epoch": 0.09070294784580499,
	"grad_norm": 0.32428956031799316,
	"learning_rate": 0.00022026126610496852,
	"loss": 0.6962,
	"step": 110
	},
	{
	"epoch": 0.09152752009894867,
	"grad_norm": 0.31494930386543274,
	"learning_rate": 0.0002188214982009016,
	"loss": 0.6812,
	"step": 111
	},
	{
	"epoch": 0.09235209235209235,
	"grad_norm": 0.329039603471756,
	"learning_rate": 0.00021737365378888187,
	"loss": 0.7871,
	"step": 112
	},
	{
	"epoch": 0.09317666460523603,
	"grad_norm": 0.3266455829143524,
	"learning_rate": 0.00021591790277987043,
	"loss": 0.7367,
	"step": 113
	},
	{
	"epoch": 0.09400123685837972,
	"grad_norm": 0.31767553091049194,
	"learning_rate": 0.00021445441601270276,
	"loss": 0.7702,
	"step": 114
	},
	{
	"epoch": 0.0948258091115234,
	"grad_norm": 0.32063761353492737,
	"learning_rate": 0.00021298336523403968,
	"loss": 0.7514,
	"step": 115
	},
	{
	"epoch": 0.09565038136466708,
	"grad_norm": 0.297237366437912,
	"learning_rate": 0.0002115049230782124,
	"loss": 0.6745,
	"step": 116
	},
	{
	"epoch": 0.09647495361781076,
	"grad_norm": 0.30952492356300354,
	"learning_rate": 0.00021001926304696296,
	"loss": 0.6953,
	"step": 117
	},
	{
	"epoch": 0.09729952587095445,
	"grad_norm": 0.3084593415260315,
	"learning_rate": 0.00020852655948908316,
	"loss": 0.7184,
	"step": 118
	},
	{
	"epoch": 0.09812409812409813,
	"grad_norm": 0.30032604932785034,
	"learning_rate": 0.0002070269875799538,
	"loss": 0.6477,
	"step": 119
	},
	{
	"epoch": 0.09894867037724181,
	"grad_norm": 0.3085014224052429,
	"learning_rate": 0.00020552072330098716,
	"loss": 0.7137,
	"step": 120
	},
	{
	"epoch": 0.09977324263038549,
	"grad_norm": 0.3050251007080078,
	"learning_rate": 0.0002040079434189748,
	"loss": 0.6947,
	"step": 121
	},
	{
	"epoch": 0.10059781488352917,
	"grad_norm": 0.29092761874198914,
	"learning_rate": 0.00020248882546534326,
	"loss": 0.6166,
	"step": 122
	},
	{
	"epoch": 0.10142238713667286,
	"grad_norm": 0.32282838225364685,
	"learning_rate": 0.00020096354771531976,
	"loss": 0.7807,
	"step": 123
	},
	{
	"epoch": 0.10224695938981654,
	"grad_norm": 0.3140111565589905,
	"learning_rate": 0.00019943228916701104,
	"loss": 0.7271,
	"step": 124
	},
	{
	"epoch": 0.10307153164296022,
	"grad_norm": 0.3199913203716278,
	"learning_rate": 0.00019789522952039695,
	"loss": 0.6998,
	"step": 125
	},
	{
	"epoch": 0.1038961038961039,
	"grad_norm": 0.3230836093425751,
	"learning_rate": 0.0001963525491562421,
	"loss": 0.7354,
	"step": 126
	},
	{
	"epoch": 0.10472067614924757,
	"grad_norm": 0.32371896505355835,
	"learning_rate": 0.00019480442911492702,
	"loss": 0.7583,
	"step": 127
	},
	{
	"epoch": 0.10554524840239125,
	"grad_norm": 0.3246193826198578,
	"learning_rate": 0.00019325105107520263,
	"loss": 0.7296,
	"step": 128
	},
	{
	"epoch": 0.10636982065553494,
	"grad_norm": 0.3160342872142792,
	"learning_rate": 0.00019169259733286913,
	"loss": 0.7091,
	"step": 129
	},
	{
	"epoch": 0.10719439290867862,
	"grad_norm": 0.3068806231021881,
	"learning_rate": 0.00019012925077938314,
	"loss": 0.7068,
	"step": 130
	},
	{
	"epoch": 0.1080189651618223,
	"grad_norm": 0.31874704360961914,
	"learning_rate": 0.0001885611948803941,
	"loss": 0.7188,
	"step": 131
	},
	{
	"epoch": 0.10884353741496598,
	"grad_norm": 0.30816522240638733,
	"learning_rate": 0.0001869886136542143,
	"loss": 0.7145,
	"step": 132
	},
	{
	"epoch": 0.10966810966810966,
	"grad_norm": 0.3057398498058319,
	"learning_rate": 0.00018541169165022298,
	"loss": 0.6788,
	"step": 133
	},
	{
	"epoch": 0.11049268192125335,
	"grad_norm": 0.30414751172065735,
	"learning_rate": 0.00018383061392720913,
	"loss": 0.6881,
	"step": 134
	},
	{
	"epoch": 0.11131725417439703,
	"grad_norm": 0.31472885608673096,
	"learning_rate": 0.0001822455660316536,
	"loss": 0.7089,
	"step": 135
	},
	{
	"epoch": 0.11214182642754071,
	"grad_norm": 0.309356153011322,
	"learning_rate": 0.00018065673397595473,
	"loss": 0.6732,
	"step": 136
	},
	{
	"epoch": 0.1129663986806844,
	"grad_norm": 0.30579566955566406,
	"learning_rate": 0.00017906430421659876,
	"loss": 0.6453,
	"step": 137
	},
	{
	"epoch": 0.11379097093382808,
	"grad_norm": 0.3306417465209961,
	"learning_rate": 0.00017746846363227842,
	"loss": 0.7327,
	"step": 138
	},
	{
	"epoch": 0.11461554318697176,
	"grad_norm": 0.32207512855529785,
	"learning_rate": 0.00017586939950196186,
	"loss": 0.677,
	"step": 139
	},
	{
	"epoch": 0.11544011544011544,
	"grad_norm": 0.3170906603336334,
	"learning_rate": 0.00017426729948291474,
	"loss": 0.6764,
	"step": 140
	},
	{
	"epoch": 0.11626468769325912,
	"grad_norm": 0.32157909870147705,
	"learning_rate": 0.00017266235158867752,
	"loss": 0.7016,
	"step": 141
	},
	{
	"epoch": 0.1170892599464028,
	"grad_norm": 0.3478415012359619,
	"learning_rate": 0.00017105474416700164,
	"loss": 0.6956,
	"step": 142
	},
	{
	"epoch": 0.11791383219954649,
	"grad_norm": 0.32598310708999634,
	"learning_rate": 0.0001694446658777458,
	"loss": 0.6716,
	"step": 143
	},
	{
	"epoch": 0.11873840445269017,
	"grad_norm": 0.3289110064506531,
	"learning_rate": 0.00016783230567073596,
	"loss": 0.7107,
	"step": 144
	},
	{
	"epoch": 0.11956297670583385,
	"grad_norm": 0.34824198484420776,
	"learning_rate": 0.00016621785276359127,
	"loss": 0.6887,
	"step": 145
	},
	{
	"epoch": 0.12038754895897753,
	"grad_norm": 0.35514163970947266,
	"learning_rate": 0.0001646014966195185,
	"loss": 0.7147,
	"step": 146
	},
	{
	"epoch": 0.12121212121212122,
	"grad_norm": 0.3446742296218872,
	"learning_rate": 0.00016298342692507763,
	"loss": 0.6324,
	"step": 147
	},
	{
	"epoch": 0.1220366934652649,
	"grad_norm": 0.3650054633617401,
	"learning_rate": 0.00016136383356792156,
	"loss": 0.6782,
	"step": 148
	},
	{
	"epoch": 0.12286126571840858,
	"grad_norm": 0.3771435022354126,
	"learning_rate": 0.0001597429066145116,
	"loss": 0.6823,
	"step": 149
	},
	{
	"epoch": 0.12368583797155226,
	"grad_norm": 0.6211467981338501,
	"learning_rate": 0.0001581208362878126,
	"loss": 0.6651,
	"step": 150
	},
	{
	"epoch": 0.12368583797155226,
	"eval_loss": 0.6936895847320557,
	"eval_runtime": 42.757,
	"eval_samples_per_second": 9.262,
	"eval_steps_per_second": 9.262,
	"step": 150
	},
	{
	"epoch": 0.12451041022469594,
	"grad_norm": 0.3050060570240021,
	"learning_rate": 0.00015649781294496933,
	"loss": 0.5971,
	"step": 151
	},
	{
	"epoch": 0.1253349824778396,
	"grad_norm": 0.31458163261413574,
	"learning_rate": 0.00015487402705496707,
	"loss": 0.7042,
	"step": 152
	},
	{
	"epoch": 0.1261595547309833,
	"grad_norm": 0.30443075299263,
	"learning_rate": 0.0001532496691762796,
	"loss": 0.6492,
	"step": 153
	},
	{
	"epoch": 0.12698412698412698,
	"grad_norm": 0.31165623664855957,
	"learning_rate": 0.00015162492993450597,
	"loss": 0.7077,
	"step": 154
	},
	{
	"epoch": 0.12780869923727067,
	"grad_norm": 0.3184472322463989,
	"learning_rate": 0.00015,
	"loss": 0.7271,
	"step": 155
	},
	{
	"epoch": 0.12863327149041434,
	"grad_norm": 0.31272202730178833,
	"learning_rate": 0.00014837507006549403,
	"loss": 0.7611,
	"step": 156
	},
	{
	"epoch": 0.12945784374355804,
	"grad_norm": 0.3030358850955963,
	"learning_rate": 0.00014675033082372038,
	"loss": 0.7276,
	"step": 157
	},
	{
	"epoch": 0.1302824159967017,
	"grad_norm": 0.31098514795303345,
	"learning_rate": 0.00014512597294503293,
	"loss": 0.6906,
	"step": 158
	},
	{
	"epoch": 0.1311069882498454,
	"grad_norm": 0.3137834370136261,
	"learning_rate": 0.00014350218705503067,
	"loss": 0.7106,
	"step": 159
	},
	{
	"epoch": 0.13193156050298907,
	"grad_norm": 0.3150627315044403,
	"learning_rate": 0.00014187916371218736,
	"loss": 0.7156,
	"step": 160
	},
	{
	"epoch": 0.13275613275613277,
	"grad_norm": 0.31015968322753906,
	"learning_rate": 0.00014025709338548836,
	"loss": 0.6631,
	"step": 161
	},
	{
	"epoch": 0.13358070500927643,
	"grad_norm": 0.29935508966445923,
	"learning_rate": 0.00013863616643207844,
	"loss": 0.6572,
	"step": 162
	},
	{
	"epoch": 0.13440527726242013,
	"grad_norm": 0.30627861618995667,
	"learning_rate": 0.00013701657307492235,
	"loss": 0.6925,
	"step": 163
	},
	{
	"epoch": 0.1352298495155638,
	"grad_norm": 0.32339316606521606,
	"learning_rate": 0.00013539850338048154,
	"loss": 0.7109,
	"step": 164
	},
	{
	"epoch": 0.1360544217687075,
	"grad_norm": 0.31456539034843445,
	"learning_rate": 0.00013378214723640876,
	"loss": 0.697,
	"step": 165
	},
	{
	"epoch": 0.13687899402185116,
	"grad_norm": 0.3141114413738251,
	"learning_rate": 0.00013216769432926404,
	"loss": 0.6922,
	"step": 166
	},
	{
	"epoch": 0.13770356627499486,
	"grad_norm": 0.32136693596839905,
	"learning_rate": 0.00013055533412225422,
	"loss": 0.7408,
	"step": 167
	},
	{
	"epoch": 0.13852813852813853,
	"grad_norm": 0.31578657031059265,
	"learning_rate": 0.00012894525583299833,
	"loss": 0.7104,
	"step": 168
	},
	{
	"epoch": 0.1393527107812822,
	"grad_norm": 0.3017723262310028,
	"learning_rate": 0.0001273376484113225,
	"loss": 0.672,
	"step": 169
	},
	{
	"epoch": 0.1401772830344259,
	"grad_norm": 0.3208543658256531,
	"learning_rate": 0.0001257327005170853,
	"loss": 0.7146,
	"step": 170
	},
	{
	"epoch": 0.14100185528756956,
	"grad_norm": 0.31153324246406555,
	"learning_rate": 0.00012413060049803814,
	"loss": 0.6276,
	"step": 171
	},
	{
	"epoch": 0.14182642754071326,
	"grad_norm": 0.3135003447532654,
	"learning_rate": 0.00012253153636772156,
	"loss": 0.6705,
	"step": 172
	},
	{
	"epoch": 0.14265099979385693,
	"grad_norm": 0.30405810475349426,
	"learning_rate": 0.00012093569578340124,
	"loss": 0.6602,
	"step": 173
	},
	{
	"epoch": 0.14347557204700062,
	"grad_norm": 0.32480090856552124,
	"learning_rate": 0.00011934326602404528,
	"loss": 0.6755,
	"step": 174
	},
	{
	"epoch": 0.1443001443001443,
	"grad_norm": 0.3095938563346863,
	"learning_rate": 0.00011775443396834638,
	"loss": 0.7024,
	"step": 175
	},
	{
	"epoch": 0.14512471655328799,
	"grad_norm": 0.32258421182632446,
	"learning_rate": 0.00011616938607279086,
	"loss": 0.7044,
	"step": 176
	},
	{
	"epoch": 0.14594928880643165,
	"grad_norm": 0.3185218870639801,
	"learning_rate": 0.00011458830834977698,
	"loss": 0.7224,
	"step": 177
	},
	{
	"epoch": 0.14677386105957535,
	"grad_norm": 0.31658223271369934,
	"learning_rate": 0.0001130113863457857,
	"loss": 0.7346,
	"step": 178
	},
	{
	"epoch": 0.14759843331271902,
	"grad_norm": 0.31286993622779846,
	"learning_rate": 0.00011143880511960584,
	"loss": 0.7063,
	"step": 179
	},
	{
	"epoch": 0.14842300556586271,
	"grad_norm": 0.30426645278930664,
	"learning_rate": 0.00010987074922061689,
	"loss": 0.6781,
	"step": 180
	},
	{
	"epoch": 0.14924757781900638,
	"grad_norm": 0.30204102396965027,
	"learning_rate": 0.00010830740266713087,
	"loss": 0.6914,
	"step": 181
	},
	{
	"epoch": 0.15007215007215008,
	"grad_norm": 0.3117939233779907,
	"learning_rate": 0.00010674894892479738,
	"loss": 0.714,
	"step": 182
	},
	{
	"epoch": 0.15089672232529375,
	"grad_norm": 0.30473530292510986,
	"learning_rate": 0.00010519557088507298,
	"loss": 0.6351,
	"step": 183
	},
	{
	"epoch": 0.15172129457843744,
	"grad_norm": 0.30228060483932495,
	"learning_rate": 0.0001036474508437579,
	"loss": 0.6095,
	"step": 184
	},
	{
	"epoch": 0.1525458668315811,
	"grad_norm": 0.32118985056877136,
	"learning_rate": 0.00010210477047960302,
	"loss": 0.7311,
	"step": 185
	},
	{
	"epoch": 0.1533704390847248,
	"grad_norm": 0.31862205266952515,
	"learning_rate": 0.00010056771083298893,
	"loss": 0.6728,
	"step": 186
	},
	{
	"epoch": 0.15419501133786848,
	"grad_norm": 0.3058205246925354,
	"learning_rate": 9.903645228468024e-05,
	"loss": 0.6495,
	"step": 187
	},
	{
	"epoch": 0.15501958359101217,
	"grad_norm": 0.3158295750617981,
	"learning_rate": 9.751117453465673e-05,
	"loss": 0.688,
	"step": 188
	},
	{
	"epoch": 0.15584415584415584,
	"grad_norm": 0.32295459508895874,
	"learning_rate": 9.59920565810252e-05,
	"loss": 0.7007,
	"step": 189
	},
	{
	"epoch": 0.15666872809729954,
	"grad_norm": 0.3153195083141327,
	"learning_rate": 9.447927669901282e-05,
	"loss": 0.6781,
	"step": 190
	},
	{
	"epoch": 0.1574933003504432,
	"grad_norm": 0.31914830207824707,
	"learning_rate": 9.297301242004618e-05,
	"loss": 0.6459,
	"step": 191
	},
	{
	"epoch": 0.1583178726035869,
	"grad_norm": 0.32512032985687256,
	"learning_rate": 9.14734405109168e-05,
	"loss": 0.708,
	"step": 192
	},
	{
	"epoch": 0.15914244485673057,
	"grad_norm": 0.3304908573627472,
	"learning_rate": 8.998073695303701e-05,
	"loss": 0.6703,
	"step": 193
	},
	{
	"epoch": 0.15996701710987427,
	"grad_norm": 0.33657538890838623,
	"learning_rate": 8.849507692178758e-05,
	"loss": 0.6989,
	"step": 194
	},
	{
	"epoch": 0.16079158936301793,
	"grad_norm": 0.33851417899131775,
	"learning_rate": 8.70166347659603e-05,
	"loss": 0.709,
	"step": 195
	},
	{
	"epoch": 0.16161616161616163,
	"grad_norm": 0.3366221785545349,
	"learning_rate": 8.554558398729725e-05,
	"loss": 0.6213,
	"step": 196
	},
	{
	"epoch": 0.1624407338693053,
	"grad_norm": 0.3471497595310211,
	"learning_rate": 8.408209722012956e-05,
	"loss": 0.7261,
	"step": 197
	},
	{
	"epoch": 0.16326530612244897,
	"grad_norm": 0.35795000195503235,
	"learning_rate": 8.262634621111818e-05,
	"loss": 0.639,
	"step": 198
	},
	{
	"epoch": 0.16408987837559266,
	"grad_norm": 0.3911006450653076,
	"learning_rate": 8.117850179909842e-05,
	"loss": 0.6943,
	"step": 199
	},
	{
	"epoch": 0.16491445062873633,
	"grad_norm": 0.5652897357940674,
	"learning_rate": 7.973873389503149e-05,
	"loss": 0.6569,
	"step": 200
	},
	{
	"epoch": 0.16491445062873633,
	"eval_loss": 0.6824482679367065,
	"eval_runtime": 42.7512,
	"eval_samples_per_second": 9.263,
	"eval_steps_per_second": 9.263,
	"step": 200
	},
	{
	"epoch": 0.16573902288188003,
	"grad_norm": 0.29706528782844543,
	"learning_rate": 7.830721146206451e-05,
	"loss": 0.5975,
	"step": 201
	},
	{
	"epoch": 0.1665635951350237,
	"grad_norm": 0.3147106170654297,
	"learning_rate": 7.688410249570214e-05,
	"loss": 0.7244,
	"step": 202
	},
	{
	"epoch": 0.1673881673881674,
	"grad_norm": 0.3083764314651489,
	"learning_rate": 7.54695740040912e-05,
	"loss": 0.6659,
	"step": 203
	},
	{
	"epoch": 0.16821273964131106,
	"grad_norm": 0.31014275550842285,
	"learning_rate": 7.406379198842189e-05,
	"loss": 0.6614,
	"step": 204
	},
	{
	"epoch": 0.16903731189445476,
	"grad_norm": 0.3195944130420685,
	"learning_rate": 7.266692142344672e-05,
	"loss": 0.7009,
	"step": 205
	},
	{
	"epoch": 0.16986188414759842,
	"grad_norm": 0.30758917331695557,
	"learning_rate": 7.127912623811993e-05,
	"loss": 0.6654,
	"step": 206
	},
	{
	"epoch": 0.17068645640074212,
	"grad_norm": 0.30025753378868103,
	"learning_rate": 6.990056929635957e-05,
	"loss": 0.6463,
	"step": 207
	},
	{
	"epoch": 0.1715110286538858,
	"grad_norm": 0.3022189736366272,
	"learning_rate": 6.853141237793506e-05,
	"loss": 0.6522,
	"step": 208
	},
	{
	"epoch": 0.17233560090702948,
	"grad_norm": 0.3084527850151062,
	"learning_rate": 6.717181615948126e-05,
	"loss": 0.7102,
	"step": 209
	},
	{
	"epoch": 0.17316017316017315,
	"grad_norm": 0.3123379647731781,
	"learning_rate": 6.582194019564266e-05,
	"loss": 0.6977,
	"step": 210
	},
	{
	"epoch": 0.17398474541331685,
	"grad_norm": 0.3006177842617035,
	"learning_rate": 6.448194290034848e-05,
	"loss": 0.6934,
	"step": 211
	},
	{
	"epoch": 0.17480931766646052,
	"grad_norm": 0.30770057439804077,
	"learning_rate": 6.315198152822272e-05,
	"loss": 0.6854,
	"step": 212
	},
	{
	"epoch": 0.1756338899196042,
	"grad_norm": 0.31282415986061096,
	"learning_rate": 6.183221215612904e-05,
	"loss": 0.7131,
	"step": 213
	},
	{
	"epoch": 0.17645846217274788,
	"grad_norm": 0.3112223148345947,
	"learning_rate": 6.052278966485491e-05,
	"loss": 0.7005,
	"step": 214
	},
	{
	"epoch": 0.17728303442589158,
	"grad_norm": 0.30379047989845276,
	"learning_rate": 5.922386772093526e-05,
	"loss": 0.6716,
	"step": 215
	},
	{
	"epoch": 0.17810760667903525,
	"grad_norm": 0.318124920129776,
	"learning_rate": 5.793559875861938e-05,
	"loss": 0.6676,
	"step": 216
	},
	{
	"epoch": 0.17893217893217894,
	"grad_norm": 0.32162636518478394,
	"learning_rate": 5.6658133961981894e-05,
	"loss": 0.716,
	"step": 217
	},
	{
	"epoch": 0.1797567511853226,
	"grad_norm": 0.2995055615901947,
	"learning_rate": 5.5391623247180744e-05,
	"loss": 0.6375,
	"step": 218
	},
	{
	"epoch": 0.1805813234384663,
	"grad_norm": 0.30936968326568604,
	"learning_rate": 5.413621524486363e-05,
	"loss": 0.6462,
	"step": 219
	},
	{
	"epoch": 0.18140589569160998,
	"grad_norm": 0.31474071741104126,
	"learning_rate": 5.289205728272586e-05,
	"loss": 0.7098,
	"step": 220
	},
	{
	"epoch": 0.18223046794475367,
	"grad_norm": 0.31727197766304016,
	"learning_rate": 5.165929536822059e-05,
	"loss": 0.7516,
	"step": 221
	},
	{
	"epoch": 0.18305504019789734,
	"grad_norm": 0.32454827427864075,
	"learning_rate": 5.043807417142436e-05,
	"loss": 0.7308,
	"step": 222
	},
	{
	"epoch": 0.18387961245104104,
	"grad_norm": 0.3066427409648895,
	"learning_rate": 4.922853700805909e-05,
	"loss": 0.6555,
	"step": 223
	},
	{
	"epoch": 0.1847041847041847,
	"grad_norm": 0.3160225749015808,
	"learning_rate": 4.8030825822673814e-05,
	"loss": 0.6733,
	"step": 224
	},
	{
	"epoch": 0.18552875695732837,
	"grad_norm": 0.30562353134155273,
	"learning_rate": 4.684508117198648e-05,
	"loss": 0.6771,
	"step": 225
	},
	{
	"epoch": 0.18635332921047207,
	"grad_norm": 0.3080686628818512,
	"learning_rate": 4.567144220838923e-05,
	"loss": 0.6759,
	"step": 226
	},
	{
	"epoch": 0.18717790146361574,
	"grad_norm": 0.31016868352890015,
	"learning_rate": 4.4510046663617996e-05,
	"loss": 0.6937,
	"step": 227
	},
	{
	"epoch": 0.18800247371675943,
	"grad_norm": 0.30470389127731323,
	"learning_rate": 4.336103083258942e-05,
	"loss": 0.6954,
	"step": 228
	},
	{
	"epoch": 0.1888270459699031,
	"grad_norm": 0.3189505338668823,
	"learning_rate": 4.2224529557405645e-05,
	"loss": 0.7103,
	"step": 229
	},
	{
	"epoch": 0.1896516182230468,
	"grad_norm": 0.31451600790023804,
	"learning_rate": 4.1100676211530404e-05,
	"loss": 0.7146,
	"step": 230
	},
	{
	"epoch": 0.19047619047619047,
	"grad_norm": 0.3073336184024811,
	"learning_rate": 3.998960268413666e-05,
	"loss": 0.6761,
	"step": 231
	},
	{
	"epoch": 0.19130076272933416,
	"grad_norm": 0.31194430589675903,
	"learning_rate": 3.889143936462914e-05,
	"loss": 0.6936,
	"step": 232
	},
	{
	"epoch": 0.19212533498247783,
	"grad_norm": 0.30823662877082825,
	"learning_rate": 3.780631512734241e-05,
	"loss": 0.6915,
	"step": 233
	},
	{
	"epoch": 0.19294990723562153,
	"grad_norm": 0.31047096848487854,
	"learning_rate": 3.673435731641691e-05,
	"loss": 0.6986,
	"step": 234
	},
	{
	"epoch": 0.1937744794887652,
	"grad_norm": 0.3224363625049591,
	"learning_rate": 3.567569173085454e-05,
	"loss": 0.7141,
	"step": 235
	},
	{
	"epoch": 0.1945990517419089,
	"grad_norm": 0.3098570704460144,
	"learning_rate": 3.463044260975566e-05,
	"loss": 0.6893,
	"step": 236
	},
	{
	"epoch": 0.19542362399505256,
	"grad_norm": 0.30459511280059814,
	"learning_rate": 3.3598732617739036e-05,
	"loss": 0.6608,
	"step": 237
	},
	{
	"epoch": 0.19624819624819625,
	"grad_norm": 0.32793962955474854,
	"learning_rate": 3.258068283054666e-05,
	"loss": 0.7535,
	"step": 238
	},
	{
	"epoch": 0.19707276850133992,
	"grad_norm": 0.31355416774749756,
	"learning_rate": 3.1576412720834746e-05,
	"loss": 0.6545,
	"step": 239
	},
	{
	"epoch": 0.19789734075448362,
	"grad_norm": 0.3191066086292267,
	"learning_rate": 3.058604014415343e-05,
	"loss": 0.6362,
	"step": 240
	},
	{
	"epoch": 0.1987219130076273,
	"grad_norm": 0.3128627836704254,
	"learning_rate": 2.960968132511567e-05,
	"loss": 0.625,
	"step": 241
	},
	{
	"epoch": 0.19954648526077098,
	"grad_norm": 0.33767595887184143,
	"learning_rate": 2.8647450843757897e-05,
	"loss": 0.7637,
	"step": 242
	},
	{
	"epoch": 0.20037105751391465,
	"grad_norm": 0.32248735427856445,
	"learning_rate": 2.7699461622093304e-05,
	"loss": 0.6197,
	"step": 243
	},
	{
	"epoch": 0.20119562976705835,
	"grad_norm": 0.33070605993270874,
	"learning_rate": 2.67658249108603e-05,
	"loss": 0.6475,
	"step": 244
	},
	{
	"epoch": 0.20202020202020202,
	"grad_norm": 0.3260677754878998,
	"learning_rate": 2.584665027646643e-05,
	"loss": 0.6493,
	"step": 245
	},
	{
	"epoch": 0.2028447742733457,
	"grad_norm": 0.35679200291633606,
	"learning_rate": 2.49420455881305e-05,
	"loss": 0.6593,
	"step": 246
	},
	{
	"epoch": 0.20366934652648938,
	"grad_norm": 0.35772812366485596,
	"learning_rate": 2.4052117005223455e-05,
	"loss": 0.7124,
	"step": 247
	},
	{
	"epoch": 0.20449391877963308,
	"grad_norm": 0.3646053671836853,
	"learning_rate": 2.317696896481024e-05,
	"loss": 0.6362,
	"step": 248
	},
	{
	"epoch": 0.20531849103277675,
	"grad_norm": 0.4201851487159729,
	"learning_rate": 2.231670416939364e-05,
	"loss": 0.7586,
	"step": 249
	},
	{
	"epoch": 0.20614306328592044,
	"grad_norm": 0.7209053635597229,
	"learning_rate": 2.147142357486164e-05,
	"loss": 0.7507,
	"step": 250
	},
	{
	"epoch": 0.20614306328592044,
	"eval_loss": 0.6745719313621521,
	"eval_runtime": 42.7078,
	"eval_samples_per_second": 9.272,
	"eval_steps_per_second": 9.272,
	"step": 250
	},
	{
	"epoch": 0.2069676355390641,
	"grad_norm": 0.2964789569377899,
	"learning_rate": 2.0641226378639715e-05,
	"loss": 0.6769,
	"step": 251
	},
	{
	"epoch": 0.2077922077922078,
	"grad_norm": 0.2993400990962982,
	"learning_rate": 1.9826210008049785e-05,
	"loss": 0.6628,
	"step": 252
	},
	{
	"epoch": 0.20861678004535147,
	"grad_norm": 0.3071148991584778,
	"learning_rate": 1.902647010887655e-05,
	"loss": 0.6987,
	"step": 253
	},
	{
	"epoch": 0.20944135229849514,
	"grad_norm": 0.3106604814529419,
	"learning_rate": 1.8242100534143062e-05,
	"loss": 0.6984,
	"step": 254
	},
	{
	"epoch": 0.21026592455163884,
	"grad_norm": 0.3057470917701721,
	"learning_rate": 1.7473193333096575e-05,
	"loss": 0.6721,
	"step": 255
	},
	{
	"epoch": 0.2110904968047825,
	"grad_norm": 0.319230854511261,
	"learning_rate": 1.671983874040631e-05,
	"loss": 0.6974,
	"step": 256
	},
	{
	"epoch": 0.2119150690579262,
	"grad_norm": 0.3045044243335724,
	"learning_rate": 1.598212516557394e-05,
	"loss": 0.6795,
	"step": 257
	},
	{
	"epoch": 0.21273964131106987,
	"grad_norm": 0.3158814013004303,
	"learning_rate": 1.526013918255836e-05,
	"loss": 0.7189,
	"step": 258
	},
	{
	"epoch": 0.21356421356421357,
	"grad_norm": 0.3174242377281189,
	"learning_rate": 1.4553965519615723e-05,
	"loss": 0.6901,
	"step": 259
	},
	{
	"epoch": 0.21438878581735724,
	"grad_norm": 0.3104889392852783,
	"learning_rate": 1.3863687049356464e-05,
	"loss": 0.6771,
	"step": 260
	},
	{
	"epoch": 0.21521335807050093,
	"grad_norm": 0.3152613043785095,
	"learning_rate": 1.3189384779019535e-05,
	"loss": 0.7524,
	"step": 261
	},
	{
	"epoch": 0.2160379303236446,
	"grad_norm": 0.32586848735809326,
	"learning_rate": 1.25311378409661e-05,
	"loss": 0.733,
	"step": 262
	},
	{
	"epoch": 0.2168625025767883,
	"grad_norm": 0.30279600620269775,
	"learning_rate": 1.1889023483392879e-05,
	"loss": 0.626,
	"step": 263
	},
	{
	"epoch": 0.21768707482993196,
	"grad_norm": 0.31115543842315674,
	"learning_rate": 1.1263117061266675e-05,
	"loss": 0.6681,
	"step": 264
	},
	{
	"epoch": 0.21851164708307566,
	"grad_norm": 0.31493860483169556,
	"learning_rate": 1.0653492027481286e-05,
	"loss": 0.6506,
	"step": 265
	},
	{
	"epoch": 0.21933621933621933,
	"grad_norm": 0.3196756839752197,
	"learning_rate": 1.0060219924237379e-05,
	"loss": 0.712,
	"step": 266
	},
	{
	"epoch": 0.22016079158936303,
	"grad_norm": 0.3244759738445282,
	"learning_rate": 9.48337037464666e-06,
	"loss": 0.7272,
	"step": 267
	},
	{
	"epoch": 0.2209853638425067,
	"grad_norm": 0.30338799953460693,
	"learning_rate": 8.923011074561404e-06,
	"loss": 0.6724,
	"step": 268
	},
	{
	"epoch": 0.2218099360956504,
	"grad_norm": 0.31627827882766724,
	"learning_rate": 8.379207784630004e-06,
	"loss": 0.6856,
	"step": 269
	},
	{
	"epoch": 0.22263450834879406,
	"grad_norm": 0.31490376591682434,
	"learning_rate": 7.852024322579648e-06,
	"loss": 0.6818,
	"step": 270
	},
	{
	"epoch": 0.22345908060193775,
	"grad_norm": 0.3102516829967499,
	"learning_rate": 7.34152255572697e-06,
	"loss": 0.6574,
	"step": 271
	},
	{
	"epoch": 0.22428365285508142,
	"grad_norm": 0.3195677101612091,
	"learning_rate": 6.847762393717782e-06,
	"loss": 0.7313,
	"step": 272
	},
	{
	"epoch": 0.22510822510822512,
	"grad_norm": 0.3145836591720581,
	"learning_rate": 6.370801781496326e-06,
	"loss": 0.7007,
	"step": 273
	},
	{
	"epoch": 0.2259327973613688,
	"grad_norm": 0.3069111704826355,
	"learning_rate": 5.910696692505201e-06,
	"loss": 0.6735,
	"step": 274
	},
	{
	"epoch": 0.22675736961451248,
	"grad_norm": 0.31376153230667114,
	"learning_rate": 5.467501122116563e-06,
	"loss": 0.7041,
	"step": 275
	},
	{
	"epoch": 0.22758194186765615,
	"grad_norm": 0.30935463309288025,
	"learning_rate": 5.0412670812956465e-06,
	"loss": 0.6993,
	"step": 276
	},
	{
	"epoch": 0.22840651412079985,
	"grad_norm": 0.30352145433425903,
	"learning_rate": 4.6320445904969475e-06,
	"loss": 0.674,
	"step": 277
	},
	{
	"epoch": 0.22923108637394352,
	"grad_norm": 0.317184716463089,
	"learning_rate": 4.239881673794165e-06,
	"loss": 0.7051,
	"step": 278
	},
	{
	"epoch": 0.2300556586270872,
	"grad_norm": 0.3102111220359802,
	"learning_rate": 3.864824353244367e-06,
	"loss": 0.6934,
	"step": 279
	},
	{
	"epoch": 0.23088023088023088,
	"grad_norm": 0.31064939498901367,
	"learning_rate": 3.506916643487001e-06,
	"loss": 0.7003,
	"step": 280
	},
	{
	"epoch": 0.23170480313337455,
	"grad_norm": 0.3119175434112549,
	"learning_rate": 3.166200546578718e-06,
	"loss": 0.6886,
	"step": 281
	},
	{
	"epoch": 0.23252937538651824,
	"grad_norm": 0.31088459491729736,
	"learning_rate": 2.8427160470641253e-06,
	"loss": 0.6805,
	"step": 282
	},
	{
	"epoch": 0.2333539476396619,
	"grad_norm": 0.3150649070739746,
	"learning_rate": 2.5365011072835117e-06,
	"loss": 0.7153,
	"step": 283
	},
	{
	"epoch": 0.2341785198928056,
	"grad_norm": 0.31142279505729675,
	"learning_rate": 2.2475916629177415e-06,
	"loss": 0.7158,
	"step": 284
	},
	{
	"epoch": 0.23500309214594928,
	"grad_norm": 0.3094358444213867,
	"learning_rate": 1.9760216187710787e-06,
	"loss": 0.6481,
	"step": 285
	},
	{
	"epoch": 0.23582766439909297,
	"grad_norm": 0.3161930441856384,
	"learning_rate": 1.7218228447922867e-06,
	"loss": 0.7038,
	"step": 286
	},
	{
	"epoch": 0.23665223665223664,
	"grad_norm": 0.3040229082107544,
	"learning_rate": 1.4850251723345196e-06,
	"loss": 0.6384,
	"step": 287
	},
	{
	"epoch": 0.23747680890538034,
	"grad_norm": 0.30395784974098206,
	"learning_rate": 1.2656563906545902e-06,
	"loss": 0.6362,
	"step": 288
	},
	{
	"epoch": 0.238301381158524,
	"grad_norm": 0.30829399824142456,
	"learning_rate": 1.0637422436516274e-06,
	"loss": 0.6538,
	"step": 289
	},
	{
	"epoch": 0.2391259534116677,
	"grad_norm": 0.32518744468688965,
	"learning_rate": 8.793064268460604e-07,
	"loss": 0.7038,
	"step": 290
	},
	{
	"epoch": 0.23995052566481137,
	"grad_norm": 0.3239896893501282,
	"learning_rate": 7.123705845987093e-07,
	"loss": 0.6706,
	"step": 291
	},
	{
	"epoch": 0.24077509791795507,
	"grad_norm": 0.31476303935050964,
	"learning_rate": 5.629543075708176e-07,
	"loss": 0.6519,
	"step": 292
	},
	{
	"epoch": 0.24159967017109873,
	"grad_norm": 0.3170252740383148,
	"learning_rate": 4.310751304249738e-07,
	"loss": 0.6642,
	"step": 293
	},
	{
	"epoch": 0.24242424242424243,
	"grad_norm": 0.31761467456817627,
	"learning_rate": 3.167485297673411e-07,
	"loss": 0.6443,
	"step": 294
	},
	{
	"epoch": 0.2432488146773861,
	"grad_norm": 0.32578980922698975,
	"learning_rate": 2.1998792233142714e-07,
	"loss": 0.7081,
	"step": 295
	},
	{
	"epoch": 0.2440733869305298,
	"grad_norm": 0.32927650213241577,
	"learning_rate": 1.4080466340349316e-07,
	"loss": 0.6772,
	"step": 296
	},
	{
	"epoch": 0.24489795918367346,
	"grad_norm": 0.3357813358306885,
	"learning_rate": 7.92080454900701e-08,
	"loss": 0.6857,
	"step": 297
	},
	{
	"epoch": 0.24572253143681716,
	"grad_norm": 0.3505016565322876,
	"learning_rate": 3.5205297227380855e-08,
	"loss": 0.7116,
	"step": 298
	},
	{
	"epoch": 0.24654710368996083,
	"grad_norm": 0.37650617957115173,
	"learning_rate": 8.801582533035644e-09,
	"loss": 0.6173,
	"step": 299
	},
	{
	"epoch": 0.24737167594310452,
	"grad_norm": 0.5433653593063354,
	"learning_rate": 0.0,
	"loss": 0.6145,
	"step": 300
	},
	{
	"epoch": 0.24737167594310452,
	"eval_loss": 0.6729200482368469,
	"eval_runtime": 42.7292,
	"eval_samples_per_second": 9.268,
	"eval_steps_per_second": 9.268,
	"step": 300
	}
	],
	"logging_steps": 1,
	"max_steps": 300,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.406657706577101e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}