Training in progress, step 138, checkpoint

704edc4 verified 16 days ago

24.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.0785876993166287,
	"eval_steps": 500,
	"global_step": 138,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005694760820045558,
	"grad_norm": 0.9193857312202454,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 0.9288,
	"step": 1
	},
	{
	"epoch": 0.0011389521640091116,
	"grad_norm": 0.8991456031799316,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 0.9457,
	"step": 2
	},
	{
	"epoch": 0.0017084282460136675,
	"grad_norm": 1.1229982376098633,
	"learning_rate": 8.999999999999999e-05,
	"loss": 0.9705,
	"step": 3
	},
	{
	"epoch": 0.002277904328018223,
	"grad_norm": 1.1453852653503418,
	"learning_rate": 0.00011999999999999999,
	"loss": 0.8237,
	"step": 4
	},
	{
	"epoch": 0.0028473804100227792,
	"grad_norm": 0.6836767196655273,
	"learning_rate": 0.00015,
	"loss": 0.6138,
	"step": 5
	},
	{
	"epoch": 0.003416856492027335,
	"grad_norm": 0.7178201079368591,
	"learning_rate": 0.00017999999999999998,
	"loss": 0.715,
	"step": 6
	},
	{
	"epoch": 0.003986332574031891,
	"grad_norm": 0.6292722225189209,
	"learning_rate": 0.00020999999999999998,
	"loss": 0.8324,
	"step": 7
	},
	{
	"epoch": 0.004555808656036446,
	"grad_norm": 1.0551400184631348,
	"learning_rate": 0.00023999999999999998,
	"loss": 0.7891,
	"step": 8
	},
	{
	"epoch": 0.005125284738041002,
	"grad_norm": 2.0253489017486572,
	"learning_rate": 0.00027,
	"loss": 1.188,
	"step": 9
	},
	{
	"epoch": 0.0056947608200455585,
	"grad_norm": 1.0278229713439941,
	"learning_rate": 0.0003,
	"loss": 0.7582,
	"step": 10
	},
	{
	"epoch": 0.006264236902050114,
	"grad_norm": 1.3169053792953491,
	"learning_rate": 0.0002999548228044306,
	"loss": 0.7924,
	"step": 11
	},
	{
	"epoch": 0.00683371298405467,
	"grad_norm": 0.8358129262924194,
	"learning_rate": 0.00029981931843077583,
	"loss": 0.7108,
	"step": 12
	},
	{
	"epoch": 0.007403189066059226,
	"grad_norm": 1.0881885290145874,
	"learning_rate": 0.0002995935685018035,
	"loss": 0.7324,
	"step": 13
	},
	{
	"epoch": 0.007972665148063782,
	"grad_norm": 1.1146137714385986,
	"learning_rate": 0.00029927770900082954,
	"loss": 1.2375,
	"step": 14
	},
	{
	"epoch": 0.008542141230068337,
	"grad_norm": 0.5502291917800903,
	"learning_rate": 0.0002988719301898065,
	"loss": 0.6301,
	"step": 15
	},
	{
	"epoch": 0.009111617312072893,
	"grad_norm": 0.684746503829956,
	"learning_rate": 0.00029837647649471715,
	"loss": 0.6484,
	"step": 16
	},
	{
	"epoch": 0.00968109339407745,
	"grad_norm": 0.6915183663368225,
	"learning_rate": 0.00029779164635834114,
	"loss": 1.5319,
	"step": 17
	},
	{
	"epoch": 0.010250569476082005,
	"grad_norm": 0.6584042906761169,
	"learning_rate": 0.00029711779206048454,
	"loss": 0.7015,
	"step": 18
	},
	{
	"epoch": 0.01082004555808656,
	"grad_norm": 0.6344502568244934,
	"learning_rate": 0.00029635531950577925,
	"loss": 0.6405,
	"step": 19
	},
	{
	"epoch": 0.011389521640091117,
	"grad_norm": 0.8625004291534424,
	"learning_rate": 0.0002955046879791816,
	"loss": 0.6721,
	"step": 20
	},
	{
	"epoch": 0.011958997722095672,
	"grad_norm": 0.8597177863121033,
	"learning_rate": 0.00029456640986931596,
	"loss": 0.6415,
	"step": 21
	},
	{
	"epoch": 0.012528473804100227,
	"grad_norm": 1.4716626405715942,
	"learning_rate": 0.0002935410503598313,
	"loss": 0.952,
	"step": 22
	},
	{
	"epoch": 0.013097949886104784,
	"grad_norm": 0.5828580260276794,
	"learning_rate": 0.00029242922708895547,
	"loss": 0.5977,
	"step": 23
	},
	{
	"epoch": 0.01366742596810934,
	"grad_norm": 0.6336590647697449,
	"learning_rate": 0.00029123160977745306,
	"loss": 0.8268,
	"step": 24
	},
	{
	"epoch": 0.014236902050113895,
	"grad_norm": 0.6400074362754822,
	"learning_rate": 0.0002899489198252108,
	"loss": 0.7116,
	"step": 25
	},
	{
	"epoch": 0.014806378132118452,
	"grad_norm": 0.914237380027771,
	"learning_rate": 0.000288581929876693,
	"loss": 0.6563,
	"step": 26
	},
	{
	"epoch": 0.015375854214123007,
	"grad_norm": 0.7890664339065552,
	"learning_rate": 0.0002871314633555296,
	"loss": 0.9234,
	"step": 27
	},
	{
	"epoch": 0.015945330296127564,
	"grad_norm": 0.9337290525436401,
	"learning_rate": 0.0002855983939685165,
	"loss": 0.7655,
	"step": 28
	},
	{
	"epoch": 0.01651480637813212,
	"grad_norm": 0.9062933325767517,
	"learning_rate": 0.00028398364517932725,
	"loss": 0.6479,
	"step": 29
	},
	{
	"epoch": 0.017084282460136675,
	"grad_norm": 0.5920599102973938,
	"learning_rate": 0.0002822881896522532,
	"loss": 0.6417,
	"step": 30
	},
	{
	"epoch": 0.01765375854214123,
	"grad_norm": 0.7619308829307556,
	"learning_rate": 0.0002805130486663067,
	"loss": 0.7647,
	"step": 31
	},
	{
	"epoch": 0.018223234624145785,
	"grad_norm": 0.8592938184738159,
	"learning_rate": 0.0002786592915000408,
	"loss": 1.0644,
	"step": 32
	},
	{
	"epoch": 0.01879271070615034,
	"grad_norm": 0.584583044052124,
	"learning_rate": 0.000276728034787456,
	"loss": 0.5707,
	"step": 33
	},
	{
	"epoch": 0.0193621867881549,
	"grad_norm": 0.6947116851806641,
	"learning_rate": 0.0002747204418453818,
	"loss": 0.8087,
	"step": 34
	},
	{
	"epoch": 0.019931662870159454,
	"grad_norm": 0.5154379606246948,
	"learning_rate": 0.0002726377219727375,
	"loss": 0.6937,
	"step": 35
	},
	{
	"epoch": 0.02050113895216401,
	"grad_norm": 0.6641525626182556,
	"learning_rate": 0.0002704811297220967,
	"loss": 0.7324,
	"step": 36
	},
	{
	"epoch": 0.021070615034168565,
	"grad_norm": 0.776289701461792,
	"learning_rate": 0.00026825196414399094,
	"loss": 0.6164,
	"step": 37
	},
	{
	"epoch": 0.02164009111617312,
	"grad_norm": 0.9698323607444763,
	"learning_rate": 0.0002659515680044105,
	"loss": 0.5876,
	"step": 38
	},
	{
	"epoch": 0.022209567198177675,
	"grad_norm": 0.9234256744384766,
	"learning_rate": 0.00026358132697597265,
	"loss": 1.6872,
	"step": 39
	},
	{
	"epoch": 0.022779043280182234,
	"grad_norm": 0.8341031670570374,
	"learning_rate": 0.00026114266880324387,
	"loss": 0.7148,
	"step": 40
	},
	{
	"epoch": 0.02334851936218679,
	"grad_norm": 0.7260201573371887,
	"learning_rate": 0.00025863706244272003,
	"loss": 0.6195,
	"step": 41
	},
	{
	"epoch": 0.023917995444191344,
	"grad_norm": 0.5485382080078125,
	"learning_rate": 0.00025606601717798207,
	"loss": 0.6015,
	"step": 42
	},
	{
	"epoch": 0.0244874715261959,
	"grad_norm": 0.83427494764328,
	"learning_rate": 0.00025343108171056,
	"loss": 0.7354,
	"step": 43
	},
	{
	"epoch": 0.025056947608200455,
	"grad_norm": 0.7569791674613953,
	"learning_rate": 0.00025073384322705274,
	"loss": 0.7379,
	"step": 44
	},
	{
	"epoch": 0.02562642369020501,
	"grad_norm": 0.7086009383201599,
	"learning_rate": 0.00024797592644306646,
	"loss": 0.8229,
	"step": 45
	},
	{
	"epoch": 0.02619589977220957,
	"grad_norm": 0.6626051068305969,
	"learning_rate": 0.0002451589926245468,
	"loss": 0.7937,
	"step": 46
	},
	{
	"epoch": 0.026765375854214124,
	"grad_norm": 1.0067198276519775,
	"learning_rate": 0.000242284738587094,
	"loss": 0.94,
	"step": 47
	},
	{
	"epoch": 0.02733485193621868,
	"grad_norm": 0.6433237791061401,
	"learning_rate": 0.000239354895673865,
	"loss": 0.9452,
	"step": 48
	},
	{
	"epoch": 0.027904328018223234,
	"grad_norm": 0.6352181434631348,
	"learning_rate": 0.00023637122871267679,
	"loss": 0.6538,
	"step": 49
	},
	{
	"epoch": 0.02847380410022779,
	"grad_norm": 0.7389889359474182,
	"learning_rate": 0.0002333355349529403,
	"loss": 0.989,
	"step": 50
	},
	{
	"epoch": 0.029043280182232345,
	"grad_norm": 0.7596966028213501,
	"learning_rate": 0.00023024964298306458,
	"loss": 0.6397,
	"step": 51
	},
	{
	"epoch": 0.029612756264236904,
	"grad_norm": 0.6516755223274231,
	"learning_rate": 0.00022711541162898321,
	"loss": 0.5003,
	"step": 52
	},
	{
	"epoch": 0.03018223234624146,
	"grad_norm": 0.8451756238937378,
	"learning_rate": 0.0002239347288344676,
	"loss": 0.738,
	"step": 53
	},
	{
	"epoch": 0.030751708428246014,
	"grad_norm": 0.7065162062644958,
	"learning_rate": 0.00022070951052389966,
	"loss": 0.7718,
	"step": 54
	},
	{
	"epoch": 0.03132118451025057,
	"grad_norm": 0.9125147461891174,
	"learning_rate": 0.00021744169944819098,
	"loss": 0.5715,
	"step": 55
	},
	{
	"epoch": 0.03189066059225513,
	"grad_norm": 0.5039160847663879,
	"learning_rate": 0.0002141332640145423,
	"loss": 0.5745,
	"step": 56
	},
	{
	"epoch": 0.03246013667425968,
	"grad_norm": 0.5523383617401123,
	"learning_rate": 0.00021078619710074845,
	"loss": 0.9072,
	"step": 57
	},
	{
	"epoch": 0.03302961275626424,
	"grad_norm": 0.7476831674575806,
	"learning_rate": 0.00020740251485476345,
	"loss": 0.4698,
	"step": 58
	},
	{
	"epoch": 0.033599088838268794,
	"grad_norm": 0.6698426604270935,
	"learning_rate": 0.00020398425548024822,
	"loss": 0.6769,
	"step": 59
	},
	{
	"epoch": 0.03416856492027335,
	"grad_norm": 0.7437167167663574,
	"learning_rate": 0.00020053347800883298,
	"loss": 0.6624,
	"step": 60
	},
	{
	"epoch": 0.034738041002277904,
	"grad_norm": 0.5557659268379211,
	"learning_rate": 0.00019705226105983374,
	"loss": 0.7612,
	"step": 61
	},
	{
	"epoch": 0.03530751708428246,
	"grad_norm": 0.5920267701148987,
	"learning_rate": 0.0001935427015881693,
	"loss": 0.6359,
	"step": 62
	},
	{
	"epoch": 0.035876993166287015,
	"grad_norm": 0.5547272562980652,
	"learning_rate": 0.00019000691362123473,
	"loss": 0.5502,
	"step": 63
	},
	{
	"epoch": 0.03644646924829157,
	"grad_norm": 0.6265895366668701,
	"learning_rate": 0.0001864470269854896,
	"loss": 0.8296,
	"step": 64
	},
	{
	"epoch": 0.037015945330296125,
	"grad_norm": 0.5109124779701233,
	"learning_rate": 0.00018286518602353045,
	"loss": 0.6811,
	"step": 65
	},
	{
	"epoch": 0.03758542141230068,
	"grad_norm": 0.733314573764801,
	"learning_rate": 0.00017926354830241924,
	"loss": 0.9034,
	"step": 66
	},
	{
	"epoch": 0.038154897494305236,
	"grad_norm": 0.5381625294685364,
	"learning_rate": 0.00017564428331404519,
	"loss": 0.6674,
	"step": 67
	},
	{
	"epoch": 0.0387243735763098,
	"grad_norm": 0.6308789849281311,
	"learning_rate": 0.00017200957116830423,
	"loss": 0.6398,
	"step": 68
	},
	{
	"epoch": 0.03929384965831435,
	"grad_norm": 0.6676629185676575,
	"learning_rate": 0.00016836160127988242,
	"loss": 0.57,
	"step": 69
	},
	{
	"epoch": 0.03986332574031891,
	"grad_norm": 0.72255539894104,
	"learning_rate": 0.0001647025710494341,
	"loss": 0.6134,
	"step": 70
	},
	{
	"epoch": 0.040432801822323464,
	"grad_norm": 1.10958731174469,
	"learning_rate": 0.00016103468453995012,
	"loss": 0.9271,
	"step": 71
	},
	{
	"epoch": 0.04100227790432802,
	"grad_norm": 0.5311421751976013,
	"learning_rate": 0.0001573601511491127,
	"loss": 0.6661,
	"step": 72
	},
	{
	"epoch": 0.041571753986332574,
	"grad_norm": 0.8206638097763062,
	"learning_rate": 0.00015368118427843682,
	"loss": 0.8327,
	"step": 73
	},
	{
	"epoch": 0.04214123006833713,
	"grad_norm": 0.5865733027458191,
	"learning_rate": 0.00015,
	"loss": 0.5316,
	"step": 74
	},
	{
	"epoch": 0.042710706150341685,
	"grad_norm": 0.674359917640686,
	"learning_rate": 0.00014631881572156315,
	"loss": 1.232,
	"step": 75
	},
	{
	"epoch": 0.04328018223234624,
	"grad_norm": 0.6954506039619446,
	"learning_rate": 0.0001426398488508873,
	"loss": 0.6289,
	"step": 76
	},
	{
	"epoch": 0.043849658314350795,
	"grad_norm": 0.6149243116378784,
	"learning_rate": 0.00013896531546004988,
	"loss": 0.6659,
	"step": 77
	},
	{
	"epoch": 0.04441913439635535,
	"grad_norm": 0.6586117148399353,
	"learning_rate": 0.0001352974289505659,
	"loss": 0.9493,
	"step": 78
	},
	{
	"epoch": 0.044988610478359906,
	"grad_norm": 0.6128969192504883,
	"learning_rate": 0.00013163839872011758,
	"loss": 1.0356,
	"step": 79
	},
	{
	"epoch": 0.04555808656036447,
	"grad_norm": 0.6175865530967712,
	"learning_rate": 0.00012799042883169574,
	"loss": 0.7532,
	"step": 80
	},
	{
	"epoch": 0.04612756264236902,
	"grad_norm": 0.7808921933174133,
	"learning_rate": 0.0001243557166859548,
	"loss": 1.015,
	"step": 81
	},
	{
	"epoch": 0.04669703872437358,
	"grad_norm": 1.351828932762146,
	"learning_rate": 0.00012073645169758076,
	"loss": 0.9374,
	"step": 82
	},
	{
	"epoch": 0.04726651480637813,
	"grad_norm": 0.598646879196167,
	"learning_rate": 0.00011713481397646953,
	"loss": 0.5562,
	"step": 83
	},
	{
	"epoch": 0.04783599088838269,
	"grad_norm": 0.7442788481712341,
	"learning_rate": 0.00011355297301451042,
	"loss": 0.75,
	"step": 84
	},
	{
	"epoch": 0.048405466970387244,
	"grad_norm": 0.5332076549530029,
	"learning_rate": 0.00010999308637876524,
	"loss": 0.6766,
	"step": 85
	},
	{
	"epoch": 0.0489749430523918,
	"grad_norm": 1.0476224422454834,
	"learning_rate": 0.00010645729841183066,
	"loss": 0.6271,
	"step": 86
	},
	{
	"epoch": 0.049544419134396354,
	"grad_norm": 0.8156277537345886,
	"learning_rate": 0.00010294773894016627,
	"loss": 0.8984,
	"step": 87
	},
	{
	"epoch": 0.05011389521640091,
	"grad_norm": 0.8451378345489502,
	"learning_rate": 9.946652199116699e-05,
	"loss": 1.0814,
	"step": 88
	},
	{
	"epoch": 0.050683371298405465,
	"grad_norm": 0.6506671905517578,
	"learning_rate": 9.601574451975175e-05,
	"loss": 0.5343,
	"step": 89
	},
	{
	"epoch": 0.05125284738041002,
	"grad_norm": 1.0723323822021484,
	"learning_rate": 9.259748514523653e-05,
	"loss": 1.1407,
	"step": 90
	},
	{
	"epoch": 0.051822323462414575,
	"grad_norm": 0.6675905585289001,
	"learning_rate": 8.921380289925153e-05,
	"loss": 0.8981,
	"step": 91
	},
	{
	"epoch": 0.05239179954441914,
	"grad_norm": 0.851328432559967,
	"learning_rate": 8.586673598545771e-05,
	"loss": 0.7855,
	"step": 92
	},
	{
	"epoch": 0.05296127562642369,
	"grad_norm": 0.5953764915466309,
	"learning_rate": 8.255830055180899e-05,
	"loss": 0.6019,
	"step": 93
	},
	{
	"epoch": 0.05353075170842825,
	"grad_norm": 0.6898136138916016,
	"learning_rate": 7.929048947610034e-05,
	"loss": 0.6316,
	"step": 94
	},
	{
	"epoch": 0.0541002277904328,
	"grad_norm": 0.766689658164978,
	"learning_rate": 7.606527116553241e-05,
	"loss": 0.7684,
	"step": 95
	},
	{
	"epoch": 0.05466970387243736,
	"grad_norm": 0.9130173325538635,
	"learning_rate": 7.288458837101675e-05,
	"loss": 1.0119,
	"step": 96
	},
	{
	"epoch": 0.055239179954441914,
	"grad_norm": 0.7758641242980957,
	"learning_rate": 6.975035701693544e-05,
	"loss": 0.7098,
	"step": 97
	},
	{
	"epoch": 0.05580865603644647,
	"grad_norm": 0.5639253258705139,
	"learning_rate": 6.66644650470597e-05,
	"loss": 0.5637,
	"step": 98
	},
	{
	"epoch": 0.056378132118451024,
	"grad_norm": 0.9065825939178467,
	"learning_rate": 6.362877128732319e-05,
	"loss": 1.149,
	"step": 99
	},
	{
	"epoch": 0.05694760820045558,
	"grad_norm": 0.75728839635849,
	"learning_rate": 6.064510432613499e-05,
	"loss": 0.4102,
	"step": 100
	},
	{
	"epoch": 0.057517084282460135,
	"grad_norm": 0.7174970507621765,
	"learning_rate": 5.771526141290599e-05,
	"loss": 0.7149,
	"step": 101
	},
	{
	"epoch": 0.05808656036446469,
	"grad_norm": 0.5997675657272339,
	"learning_rate": 5.4841007375453186e-05,
	"loss": 0.4369,
	"step": 102
	},
	{
	"epoch": 0.058656036446469245,
	"grad_norm": 0.6755107641220093,
	"learning_rate": 5.2024073556933516e-05,
	"loss": 1.361,
	"step": 103
	},
	{
	"epoch": 0.05922551252847381,
	"grad_norm": 0.8155584931373596,
	"learning_rate": 4.926615677294723e-05,
	"loss": 0.6092,
	"step": 104
	},
	{
	"epoch": 0.05979498861047836,
	"grad_norm": 0.7561736702919006,
	"learning_rate": 4.656891828943996e-05,
	"loss": 0.8085,
	"step": 105
	},
	{
	"epoch": 0.06036446469248292,
	"grad_norm": 0.6462244391441345,
	"learning_rate": 4.3933982822017876e-05,
	"loss": 0.661,
	"step": 106
	},
	{
	"epoch": 0.06093394077448747,
	"grad_norm": 0.8051128387451172,
	"learning_rate": 4.136293755727998e-05,
	"loss": 0.7713,
	"step": 107
	},
	{
	"epoch": 0.06150341685649203,
	"grad_norm": 1.8678494691848755,
	"learning_rate": 3.885733119675616e-05,
	"loss": 1.0606,
	"step": 108
	},
	{
	"epoch": 0.062072892938496584,
	"grad_norm": 0.5828897953033447,
	"learning_rate": 3.641867302402731e-05,
	"loss": 0.5834,
	"step": 109
	},
	{
	"epoch": 0.06264236902050115,
	"grad_norm": 0.4921259582042694,
	"learning_rate": 3.404843199558945e-05,
	"loss": 0.6211,
	"step": 110
	},
	{
	"epoch": 0.0632118451025057,
	"grad_norm": 0.7523202896118164,
	"learning_rate": 3.174803585600906e-05,
	"loss": 0.5977,
	"step": 111
	},
	{
	"epoch": 0.06378132118451026,
	"grad_norm": 0.618629515171051,
	"learning_rate": 2.9518870277903274e-05,
	"loss": 0.5802,
	"step": 112
	},
	{
	"epoch": 0.06435079726651481,
	"grad_norm": 0.633359968662262,
	"learning_rate": 2.7362278027262457e-05,
	"loss": 0.8338,
	"step": 113
	},
	{
	"epoch": 0.06492027334851937,
	"grad_norm": 0.5951647758483887,
	"learning_rate": 2.5279558154618197e-05,
	"loss": 0.5764,
	"step": 114
	},
	{
	"epoch": 0.06548974943052392,
	"grad_norm": 0.5431082248687744,
	"learning_rate": 2.3271965212543932e-05,
	"loss": 0.6116,
	"step": 115
	},
	{
	"epoch": 0.06605922551252848,
	"grad_norm": 0.6911126971244812,
	"learning_rate": 2.1340708499959197e-05,
	"loss": 0.8577,
	"step": 116
	},
	{
	"epoch": 0.06662870159453303,
	"grad_norm": 0.7030333280563354,
	"learning_rate": 1.9486951333693296e-05,
	"loss": 0.7916,
	"step": 117
	},
	{
	"epoch": 0.06719817767653759,
	"grad_norm": 0.6063715815544128,
	"learning_rate": 1.7711810347746757e-05,
	"loss": 0.6928,
	"step": 118
	},
	{
	"epoch": 0.06776765375854214,
	"grad_norm": 0.6492345333099365,
	"learning_rate": 1.6016354820672715e-05,
	"loss": 0.6717,
	"step": 119
	},
	{
	"epoch": 0.0683371298405467,
	"grad_norm": 0.658710777759552,
	"learning_rate": 1.4401606031483497e-05,
	"loss": 1.0441,
	"step": 120
	},
	{
	"epoch": 0.06890660592255125,
	"grad_norm": 0.6208887696266174,
	"learning_rate": 1.2868536644470396e-05,
	"loss": 0.793,
	"step": 121
	},
	{
	"epoch": 0.06947608200455581,
	"grad_norm": 0.520664393901825,
	"learning_rate": 1.1418070123306989e-05,
	"loss": 0.5236,
	"step": 122
	},
	{
	"epoch": 0.07004555808656036,
	"grad_norm": 0.5397936701774597,
	"learning_rate": 1.0051080174789172e-05,
	"loss": 0.6599,
	"step": 123
	},
	{
	"epoch": 0.07061503416856492,
	"grad_norm": 0.6907640695571899,
	"learning_rate": 8.768390222546895e-06,
	"loss": 0.7875,
	"step": 124
	},
	{
	"epoch": 0.07118451025056947,
	"grad_norm": 0.573017418384552,
	"learning_rate": 7.570772911044498e-06,
	"loss": 0.5655,
	"step": 125
	},
	{
	"epoch": 0.07175398633257403,
	"grad_norm": 1.2410931587219238,
	"learning_rate": 6.458949640168675e-06,
	"loss": 0.6824,
	"step": 126
	},
	{
	"epoch": 0.07232346241457858,
	"grad_norm": 0.692986786365509,
	"learning_rate": 5.4335901306840235e-06,
	"loss": 0.6636,
	"step": 127
	},
	{
	"epoch": 0.07289293849658314,
	"grad_norm": 0.5771859288215637,
	"learning_rate": 4.495312020818403e-06,
	"loss": 0.9473,
	"step": 128
	},
	{
	"epoch": 0.0734624145785877,
	"grad_norm": 0.8466888666152954,
	"learning_rate": 3.6446804942207306e-06,
	"loss": 0.7754,
	"step": 129
	},
	{
	"epoch": 0.07403189066059225,
	"grad_norm": 0.5004900097846985,
	"learning_rate": 2.882207939515435e-06,
	"loss": 0.7227,
	"step": 130
	},
	{
	"epoch": 0.0746013667425968,
	"grad_norm": 0.8404062390327454,
	"learning_rate": 2.2083536416588165e-06,
	"loss": 0.5737,
	"step": 131
	},
	{
	"epoch": 0.07517084282460136,
	"grad_norm": 0.46463948488235474,
	"learning_rate": 1.6235235052828476e-06,
	"loss": 0.6784,
	"step": 132
	},
	{
	"epoch": 0.07574031890660592,
	"grad_norm": 0.7300965785980225,
	"learning_rate": 1.128069810193505e-06,
	"loss": 0.987,
	"step": 133
	},
	{
	"epoch": 0.07630979498861047,
	"grad_norm": 0.9501856565475464,
	"learning_rate": 7.222909991704773e-07,
	"loss": 0.5392,
	"step": 134
	},
	{
	"epoch": 0.07687927107061504,
	"grad_norm": 0.6093735694885254,
	"learning_rate": 4.064314981964689e-07,
	"loss": 0.801,
	"step": 135
	},
	{
	"epoch": 0.0774487471526196,
	"grad_norm": 0.8983132839202881,
	"learning_rate": 1.8068156922413924e-07,
	"loss": 0.7463,
	"step": 136
	},
	{
	"epoch": 0.07801822323462415,
	"grad_norm": 0.7183220982551575,
	"learning_rate": 4.51771955693625e-08,
	"loss": 0.6387,
	"step": 137
	},
	{
	"epoch": 0.0785876993166287,
	"grad_norm": 0.6416277885437012,
	"learning_rate": 0.0,
	"loss": 1.1154,
	"step": 138
	}
	],
	"logging_steps": 1,
	"max_steps": 138,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.7728037223071744e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}