unsloth_qwen_2.5_32B_bnb_4bit_finetuned / trainer_state.json

update unsloth_qwen_2.5_32B_bnb_4bit_finetuned

700141d verified 3 months ago

58.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.99849510910459,
	"eval_steps": 500,
	"global_step": 332,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006019563581640331,
	"grad_norm": 41.037254333496094,
	"learning_rate": 1.4705882352941177e-06,
	"loss": 4.2766,
	"step": 1
	},
	{
	"epoch": 0.012039127163280662,
	"grad_norm": 43.19103240966797,
	"learning_rate": 2.9411764705882355e-06,
	"loss": 4.2655,
	"step": 2
	},
	{
	"epoch": 0.01805869074492099,
	"grad_norm": 41.71216583251953,
	"learning_rate": 4.411764705882353e-06,
	"loss": 4.1574,
	"step": 3
	},
	{
	"epoch": 0.024078254326561323,
	"grad_norm": 51.17884063720703,
	"learning_rate": 5.882352941176471e-06,
	"loss": 3.3329,
	"step": 4
	},
	{
	"epoch": 0.030097817908201655,
	"grad_norm": 28.706247329711914,
	"learning_rate": 7.3529411764705884e-06,
	"loss": 2.0066,
	"step": 5
	},
	{
	"epoch": 0.03611738148984198,
	"grad_norm": 19.702205657958984,
	"learning_rate": 8.823529411764707e-06,
	"loss": 1.2989,
	"step": 6
	},
	{
	"epoch": 0.042136945071482315,
	"grad_norm": 10.646201133728027,
	"learning_rate": 1.0294117647058824e-05,
	"loss": 0.4697,
	"step": 7
	},
	{
	"epoch": 0.04815650865312265,
	"grad_norm": 7.015563488006592,
	"learning_rate": 1.1764705882352942e-05,
	"loss": 0.167,
	"step": 8
	},
	{
	"epoch": 0.05417607223476298,
	"grad_norm": 2.405210494995117,
	"learning_rate": 1.323529411764706e-05,
	"loss": 0.054,
	"step": 9
	},
	{
	"epoch": 0.06019563581640331,
	"grad_norm": 2.9235267639160156,
	"learning_rate": 1.4705882352941177e-05,
	"loss": 0.1401,
	"step": 10
	},
	{
	"epoch": 0.06621519939804364,
	"grad_norm": 3.1382505893707275,
	"learning_rate": 1.6176470588235296e-05,
	"loss": 0.0757,
	"step": 11
	},
	{
	"epoch": 0.07223476297968397,
	"grad_norm": 2.7751779556274414,
	"learning_rate": 1.7647058823529414e-05,
	"loss": 0.089,
	"step": 12
	},
	{
	"epoch": 0.0782543265613243,
	"grad_norm": 1.7391453981399536,
	"learning_rate": 1.9117647058823528e-05,
	"loss": 0.11,
	"step": 13
	},
	{
	"epoch": 0.08427389014296463,
	"grad_norm": 2.010361671447754,
	"learning_rate": 2.058823529411765e-05,
	"loss": 0.1479,
	"step": 14
	},
	{
	"epoch": 0.09029345372460497,
	"grad_norm": 3.3061070442199707,
	"learning_rate": 2.2058823529411766e-05,
	"loss": 0.0665,
	"step": 15
	},
	{
	"epoch": 0.0963130173062453,
	"grad_norm": 2.8843464851379395,
	"learning_rate": 2.3529411764705884e-05,
	"loss": 0.074,
	"step": 16
	},
	{
	"epoch": 0.10233258088788563,
	"grad_norm": 0.8146764039993286,
	"learning_rate": 2.5e-05,
	"loss": 0.0315,
	"step": 17
	},
	{
	"epoch": 0.10835214446952596,
	"grad_norm": 2.45939040184021,
	"learning_rate": 2.647058823529412e-05,
	"loss": 0.0863,
	"step": 18
	},
	{
	"epoch": 0.1143717080511663,
	"grad_norm": 2.4333105087280273,
	"learning_rate": 2.7941176470588236e-05,
	"loss": 0.1191,
	"step": 19
	},
	{
	"epoch": 0.12039127163280662,
	"grad_norm": 1.5534690618515015,
	"learning_rate": 2.9411764705882354e-05,
	"loss": 0.1213,
	"step": 20
	},
	{
	"epoch": 0.12641083521444696,
	"grad_norm": 1.2200188636779785,
	"learning_rate": 3.0882352941176475e-05,
	"loss": 0.0619,
	"step": 21
	},
	{
	"epoch": 0.13243039879608728,
	"grad_norm": 1.9440735578536987,
	"learning_rate": 3.235294117647059e-05,
	"loss": 0.1123,
	"step": 22
	},
	{
	"epoch": 0.1384499623777276,
	"grad_norm": 1.5800230503082275,
	"learning_rate": 3.382352941176471e-05,
	"loss": 0.0655,
	"step": 23
	},
	{
	"epoch": 0.14446952595936793,
	"grad_norm": 0.6280108690261841,
	"learning_rate": 3.529411764705883e-05,
	"loss": 0.0309,
	"step": 24
	},
	{
	"epoch": 0.1504890895410083,
	"grad_norm": 1.1837276220321655,
	"learning_rate": 3.6764705882352945e-05,
	"loss": 0.082,
	"step": 25
	},
	{
	"epoch": 0.1565086531226486,
	"grad_norm": 3.0979809761047363,
	"learning_rate": 3.8235294117647055e-05,
	"loss": 0.0754,
	"step": 26
	},
	{
	"epoch": 0.16252821670428894,
	"grad_norm": 0.919219434261322,
	"learning_rate": 3.970588235294117e-05,
	"loss": 0.0652,
	"step": 27
	},
	{
	"epoch": 0.16854778028592926,
	"grad_norm": 1.2674806118011475,
	"learning_rate": 4.11764705882353e-05,
	"loss": 0.0524,
	"step": 28
	},
	{
	"epoch": 0.1745673438675696,
	"grad_norm": 1.4973307847976685,
	"learning_rate": 4.2647058823529415e-05,
	"loss": 0.0739,
	"step": 29
	},
	{
	"epoch": 0.18058690744920994,
	"grad_norm": 1.3600691556930542,
	"learning_rate": 4.411764705882353e-05,
	"loss": 0.0932,
	"step": 30
	},
	{
	"epoch": 0.18660647103085026,
	"grad_norm": 0.6800034046173096,
	"learning_rate": 4.558823529411765e-05,
	"loss": 0.0525,
	"step": 31
	},
	{
	"epoch": 0.1926260346124906,
	"grad_norm": 0.27061381936073303,
	"learning_rate": 4.705882352941177e-05,
	"loss": 0.0183,
	"step": 32
	},
	{
	"epoch": 0.1986455981941309,
	"grad_norm": 0.5821884870529175,
	"learning_rate": 4.8529411764705885e-05,
	"loss": 0.0342,
	"step": 33
	},
	{
	"epoch": 0.20466516177577126,
	"grad_norm": 1.5963926315307617,
	"learning_rate": 5e-05,
	"loss": 0.086,
	"step": 34
	},
	{
	"epoch": 0.2106847253574116,
	"grad_norm": 1.2303105592727661,
	"learning_rate": 4.983221476510067e-05,
	"loss": 0.1283,
	"step": 35
	},
	{
	"epoch": 0.21670428893905191,
	"grad_norm": 0.7925997376441956,
	"learning_rate": 4.966442953020135e-05,
	"loss": 0.0465,
	"step": 36
	},
	{
	"epoch": 0.22272385252069224,
	"grad_norm": 0.44674405455589294,
	"learning_rate": 4.9496644295302015e-05,
	"loss": 0.0208,
	"step": 37
	},
	{
	"epoch": 0.2287434161023326,
	"grad_norm": 1.129119873046875,
	"learning_rate": 4.932885906040269e-05,
	"loss": 0.1034,
	"step": 38
	},
	{
	"epoch": 0.23476297968397292,
	"grad_norm": 0.747196614742279,
	"learning_rate": 4.9161073825503354e-05,
	"loss": 0.1117,
	"step": 39
	},
	{
	"epoch": 0.24078254326561324,
	"grad_norm": 1.0140711069107056,
	"learning_rate": 4.8993288590604034e-05,
	"loss": 0.0713,
	"step": 40
	},
	{
	"epoch": 0.24680210684725357,
	"grad_norm": 0.9150713086128235,
	"learning_rate": 4.88255033557047e-05,
	"loss": 0.1045,
	"step": 41
	},
	{
	"epoch": 0.2528216704288939,
	"grad_norm": 0.7237759232521057,
	"learning_rate": 4.865771812080537e-05,
	"loss": 0.0399,
	"step": 42
	},
	{
	"epoch": 0.2588412340105342,
	"grad_norm": 0.4736149311065674,
	"learning_rate": 4.848993288590604e-05,
	"loss": 0.0283,
	"step": 43
	},
	{
	"epoch": 0.26486079759217457,
	"grad_norm": 0.8596872091293335,
	"learning_rate": 4.832214765100672e-05,
	"loss": 0.0516,
	"step": 44
	},
	{
	"epoch": 0.2708803611738149,
	"grad_norm": 0.8274044394493103,
	"learning_rate": 4.8154362416107385e-05,
	"loss": 0.0866,
	"step": 45
	},
	{
	"epoch": 0.2768999247554552,
	"grad_norm": 1.1380550861358643,
	"learning_rate": 4.798657718120805e-05,
	"loss": 0.0628,
	"step": 46
	},
	{
	"epoch": 0.28291948833709557,
	"grad_norm": 1.1349643468856812,
	"learning_rate": 4.7818791946308725e-05,
	"loss": 0.0997,
	"step": 47
	},
	{
	"epoch": 0.28893905191873587,
	"grad_norm": 1.2396087646484375,
	"learning_rate": 4.76510067114094e-05,
	"loss": 0.0668,
	"step": 48
	},
	{
	"epoch": 0.2949586155003762,
	"grad_norm": 0.6159345507621765,
	"learning_rate": 4.748322147651007e-05,
	"loss": 0.0454,
	"step": 49
	},
	{
	"epoch": 0.3009781790820166,
	"grad_norm": 0.9823417663574219,
	"learning_rate": 4.731543624161074e-05,
	"loss": 0.0358,
	"step": 50
	},
	{
	"epoch": 0.30699774266365687,
	"grad_norm": 1.3460859060287476,
	"learning_rate": 4.714765100671141e-05,
	"loss": 0.1146,
	"step": 51
	},
	{
	"epoch": 0.3130173062452972,
	"grad_norm": 0.8716734647750854,
	"learning_rate": 4.697986577181208e-05,
	"loss": 0.0996,
	"step": 52
	},
	{
	"epoch": 0.3190368698269376,
	"grad_norm": 0.8868650794029236,
	"learning_rate": 4.6812080536912756e-05,
	"loss": 0.0607,
	"step": 53
	},
	{
	"epoch": 0.32505643340857787,
	"grad_norm": 0.5762543678283691,
	"learning_rate": 4.664429530201342e-05,
	"loss": 0.0603,
	"step": 54
	},
	{
	"epoch": 0.3310759969902182,
	"grad_norm": 0.5473377704620361,
	"learning_rate": 4.6476510067114095e-05,
	"loss": 0.031,
	"step": 55
	},
	{
	"epoch": 0.3370955605718585,
	"grad_norm": 0.4517374634742737,
	"learning_rate": 4.630872483221477e-05,
	"loss": 0.0318,
	"step": 56
	},
	{
	"epoch": 0.3431151241534989,
	"grad_norm": 1.007686734199524,
	"learning_rate": 4.6140939597315434e-05,
	"loss": 0.0596,
	"step": 57
	},
	{
	"epoch": 0.3491346877351392,
	"grad_norm": 0.5532180666923523,
	"learning_rate": 4.597315436241611e-05,
	"loss": 0.0917,
	"step": 58
	},
	{
	"epoch": 0.3551542513167795,
	"grad_norm": 0.6608918309211731,
	"learning_rate": 4.580536912751678e-05,
	"loss": 0.0768,
	"step": 59
	},
	{
	"epoch": 0.3611738148984199,
	"grad_norm": 0.9971833229064941,
	"learning_rate": 4.5637583892617453e-05,
	"loss": 0.0614,
	"step": 60
	},
	{
	"epoch": 0.3671933784800602,
	"grad_norm": 0.4296749532222748,
	"learning_rate": 4.546979865771812e-05,
	"loss": 0.0503,
	"step": 61
	},
	{
	"epoch": 0.3732129420617005,
	"grad_norm": 0.5677506923675537,
	"learning_rate": 4.530201342281879e-05,
	"loss": 0.0644,
	"step": 62
	},
	{
	"epoch": 0.3792325056433409,
	"grad_norm": 0.6360709071159363,
	"learning_rate": 4.5134228187919466e-05,
	"loss": 0.0989,
	"step": 63
	},
	{
	"epoch": 0.3852520692249812,
	"grad_norm": 1.348215937614441,
	"learning_rate": 4.496644295302014e-05,
	"loss": 0.0967,
	"step": 64
	},
	{
	"epoch": 0.3912716328066215,
	"grad_norm": 0.6315649747848511,
	"learning_rate": 4.4798657718120805e-05,
	"loss": 0.0489,
	"step": 65
	},
	{
	"epoch": 0.3972911963882618,
	"grad_norm": 0.6150538921356201,
	"learning_rate": 4.463087248322148e-05,
	"loss": 0.0634,
	"step": 66
	},
	{
	"epoch": 0.4033107599699022,
	"grad_norm": 0.3067854344844818,
	"learning_rate": 4.446308724832215e-05,
	"loss": 0.0181,
	"step": 67
	},
	{
	"epoch": 0.40933032355154253,
	"grad_norm": 0.7488537430763245,
	"learning_rate": 4.4295302013422824e-05,
	"loss": 0.0847,
	"step": 68
	},
	{
	"epoch": 0.4153498871331828,
	"grad_norm": 0.769372284412384,
	"learning_rate": 4.412751677852349e-05,
	"loss": 0.037,
	"step": 69
	},
	{
	"epoch": 0.4213694507148232,
	"grad_norm": 0.9909029006958008,
	"learning_rate": 4.395973154362416e-05,
	"loss": 0.0417,
	"step": 70
	},
	{
	"epoch": 0.42738901429646353,
	"grad_norm": 0.7407757043838501,
	"learning_rate": 4.3791946308724836e-05,
	"loss": 0.051,
	"step": 71
	},
	{
	"epoch": 0.43340857787810383,
	"grad_norm": 1.149268388748169,
	"learning_rate": 4.36241610738255e-05,
	"loss": 0.0409,
	"step": 72
	},
	{
	"epoch": 0.4394281414597442,
	"grad_norm": 0.9848851561546326,
	"learning_rate": 4.3456375838926176e-05,
	"loss": 0.0149,
	"step": 73
	},
	{
	"epoch": 0.4454477050413845,
	"grad_norm": 1.4406760931015015,
	"learning_rate": 4.328859060402685e-05,
	"loss": 0.0762,
	"step": 74
	},
	{
	"epoch": 0.45146726862302483,
	"grad_norm": 1.003056526184082,
	"learning_rate": 4.312080536912752e-05,
	"loss": 0.0865,
	"step": 75
	},
	{
	"epoch": 0.4574868322046652,
	"grad_norm": 1.0864567756652832,
	"learning_rate": 4.295302013422819e-05,
	"loss": 0.0535,
	"step": 76
	},
	{
	"epoch": 0.4635063957863055,
	"grad_norm": 1.5504230260849,
	"learning_rate": 4.278523489932886e-05,
	"loss": 0.0679,
	"step": 77
	},
	{
	"epoch": 0.46952595936794583,
	"grad_norm": 1.389381766319275,
	"learning_rate": 4.2617449664429534e-05,
	"loss": 0.1011,
	"step": 78
	},
	{
	"epoch": 0.47554552294958613,
	"grad_norm": 0.06696069985628128,
	"learning_rate": 4.244966442953021e-05,
	"loss": 0.0017,
	"step": 79
	},
	{
	"epoch": 0.4815650865312265,
	"grad_norm": 0.8552239537239075,
	"learning_rate": 4.228187919463087e-05,
	"loss": 0.1052,
	"step": 80
	},
	{
	"epoch": 0.48758465011286684,
	"grad_norm": 1.8147671222686768,
	"learning_rate": 4.2114093959731546e-05,
	"loss": 0.0364,
	"step": 81
	},
	{
	"epoch": 0.49360421369450713,
	"grad_norm": 0.7592940330505371,
	"learning_rate": 4.194630872483222e-05,
	"loss": 0.0373,
	"step": 82
	},
	{
	"epoch": 0.4996237772761475,
	"grad_norm": 0.7351986765861511,
	"learning_rate": 4.1778523489932886e-05,
	"loss": 0.1033,
	"step": 83
	},
	{
	"epoch": 0.5056433408577878,
	"grad_norm": 0.3439026176929474,
	"learning_rate": 4.161073825503356e-05,
	"loss": 0.0166,
	"step": 84
	},
	{
	"epoch": 0.5116629044394282,
	"grad_norm": 0.41652995347976685,
	"learning_rate": 4.144295302013423e-05,
	"loss": 0.0591,
	"step": 85
	},
	{
	"epoch": 0.5176824680210684,
	"grad_norm": 0.5505680441856384,
	"learning_rate": 4.1275167785234905e-05,
	"loss": 0.0719,
	"step": 86
	},
	{
	"epoch": 0.5237020316027088,
	"grad_norm": 0.5010355114936829,
	"learning_rate": 4.110738255033557e-05,
	"loss": 0.0598,
	"step": 87
	},
	{
	"epoch": 0.5297215951843491,
	"grad_norm": 0.5710484385490417,
	"learning_rate": 4.0939597315436244e-05,
	"loss": 0.0354,
	"step": 88
	},
	{
	"epoch": 0.5357411587659895,
	"grad_norm": 0.815994381904602,
	"learning_rate": 4.077181208053692e-05,
	"loss": 0.0583,
	"step": 89
	},
	{
	"epoch": 0.5417607223476298,
	"grad_norm": 0.5417527556419373,
	"learning_rate": 4.060402684563759e-05,
	"loss": 0.0551,
	"step": 90
	},
	{
	"epoch": 0.5477802859292701,
	"grad_norm": 0.6098296046257019,
	"learning_rate": 4.0436241610738256e-05,
	"loss": 0.0675,
	"step": 91
	},
	{
	"epoch": 0.5537998495109104,
	"grad_norm": 1.0332790613174438,
	"learning_rate": 4.026845637583892e-05,
	"loss": 0.0726,
	"step": 92
	},
	{
	"epoch": 0.5598194130925508,
	"grad_norm": 0.5562874674797058,
	"learning_rate": 4.01006711409396e-05,
	"loss": 0.0493,
	"step": 93
	},
	{
	"epoch": 0.5658389766741911,
	"grad_norm": 0.8887888789176941,
	"learning_rate": 3.993288590604027e-05,
	"loss": 0.0924,
	"step": 94
	},
	{
	"epoch": 0.5718585402558315,
	"grad_norm": 0.67585688829422,
	"learning_rate": 3.976510067114094e-05,
	"loss": 0.03,
	"step": 95
	},
	{
	"epoch": 0.5778781038374717,
	"grad_norm": 3.7685415744781494,
	"learning_rate": 3.959731543624161e-05,
	"loss": 0.0489,
	"step": 96
	},
	{
	"epoch": 0.5838976674191121,
	"grad_norm": 0.8312086462974548,
	"learning_rate": 3.942953020134229e-05,
	"loss": 0.071,
	"step": 97
	},
	{
	"epoch": 0.5899172310007524,
	"grad_norm": 0.6857490539550781,
	"learning_rate": 3.9261744966442954e-05,
	"loss": 0.0166,
	"step": 98
	},
	{
	"epoch": 0.5959367945823928,
	"grad_norm": 0.6559200882911682,
	"learning_rate": 3.909395973154363e-05,
	"loss": 0.1012,
	"step": 99
	},
	{
	"epoch": 0.6019563581640331,
	"grad_norm": 1.4492859840393066,
	"learning_rate": 3.89261744966443e-05,
	"loss": 0.076,
	"step": 100
	},
	{
	"epoch": 0.6079759217456734,
	"grad_norm": 0.7843137383460999,
	"learning_rate": 3.875838926174497e-05,
	"loss": 0.0577,
	"step": 101
	},
	{
	"epoch": 0.6139954853273137,
	"grad_norm": 0.794602632522583,
	"learning_rate": 3.859060402684564e-05,
	"loss": 0.0626,
	"step": 102
	},
	{
	"epoch": 0.6200150489089541,
	"grad_norm": 1.4473546743392944,
	"learning_rate": 3.8422818791946305e-05,
	"loss": 0.0356,
	"step": 103
	},
	{
	"epoch": 0.6260346124905944,
	"grad_norm": 0.4639027416706085,
	"learning_rate": 3.8255033557046985e-05,
	"loss": 0.0259,
	"step": 104
	},
	{
	"epoch": 0.6320541760722348,
	"grad_norm": 1.1497997045516968,
	"learning_rate": 3.808724832214765e-05,
	"loss": 0.0516,
	"step": 105
	},
	{
	"epoch": 0.6380737396538751,
	"grad_norm": 0.327901691198349,
	"learning_rate": 3.7919463087248324e-05,
	"loss": 0.0405,
	"step": 106
	},
	{
	"epoch": 0.6440933032355154,
	"grad_norm": 0.4509243369102478,
	"learning_rate": 3.775167785234899e-05,
	"loss": 0.0892,
	"step": 107
	},
	{
	"epoch": 0.6501128668171557,
	"grad_norm": 0.6975520849227905,
	"learning_rate": 3.758389261744967e-05,
	"loss": 0.0978,
	"step": 108
	},
	{
	"epoch": 0.6561324303987961,
	"grad_norm": 0.6053667664527893,
	"learning_rate": 3.741610738255034e-05,
	"loss": 0.0318,
	"step": 109
	},
	{
	"epoch": 0.6621519939804364,
	"grad_norm": 0.5161236524581909,
	"learning_rate": 3.724832214765101e-05,
	"loss": 0.0561,
	"step": 110
	},
	{
	"epoch": 0.6681715575620768,
	"grad_norm": 0.4180920124053955,
	"learning_rate": 3.7080536912751676e-05,
	"loss": 0.0404,
	"step": 111
	},
	{
	"epoch": 0.674191121143717,
	"grad_norm": 0.4068116843700409,
	"learning_rate": 3.6912751677852356e-05,
	"loss": 0.0399,
	"step": 112
	},
	{
	"epoch": 0.6802106847253574,
	"grad_norm": 0.25368958711624146,
	"learning_rate": 3.674496644295302e-05,
	"loss": 0.0374,
	"step": 113
	},
	{
	"epoch": 0.6862302483069977,
	"grad_norm": 0.4473256766796112,
	"learning_rate": 3.6577181208053695e-05,
	"loss": 0.0533,
	"step": 114
	},
	{
	"epoch": 0.6922498118886381,
	"grad_norm": 0.39927905797958374,
	"learning_rate": 3.640939597315436e-05,
	"loss": 0.0367,
	"step": 115
	},
	{
	"epoch": 0.6982693754702785,
	"grad_norm": 0.5100545883178711,
	"learning_rate": 3.6241610738255034e-05,
	"loss": 0.0841,
	"step": 116
	},
	{
	"epoch": 0.7042889390519187,
	"grad_norm": 1.113686203956604,
	"learning_rate": 3.607382550335571e-05,
	"loss": 0.0798,
	"step": 117
	},
	{
	"epoch": 0.710308502633559,
	"grad_norm": 0.4927540123462677,
	"learning_rate": 3.5906040268456373e-05,
	"loss": 0.0201,
	"step": 118
	},
	{
	"epoch": 0.7163280662151994,
	"grad_norm": 0.2962929904460907,
	"learning_rate": 3.5738255033557046e-05,
	"loss": 0.0413,
	"step": 119
	},
	{
	"epoch": 0.7223476297968398,
	"grad_norm": 0.4307601749897003,
	"learning_rate": 3.557046979865772e-05,
	"loss": 0.022,
	"step": 120
	},
	{
	"epoch": 0.7283671933784801,
	"grad_norm": 0.5823848247528076,
	"learning_rate": 3.540268456375839e-05,
	"loss": 0.0357,
	"step": 121
	},
	{
	"epoch": 0.7343867569601203,
	"grad_norm": 0.3515729010105133,
	"learning_rate": 3.523489932885906e-05,
	"loss": 0.016,
	"step": 122
	},
	{
	"epoch": 0.7404063205417607,
	"grad_norm": 0.6808828115463257,
	"learning_rate": 3.506711409395974e-05,
	"loss": 0.0143,
	"step": 123
	},
	{
	"epoch": 0.746425884123401,
	"grad_norm": 0.7892507910728455,
	"learning_rate": 3.4899328859060405e-05,
	"loss": 0.0264,
	"step": 124
	},
	{
	"epoch": 0.7524454477050414,
	"grad_norm": 1.1977708339691162,
	"learning_rate": 3.473154362416108e-05,
	"loss": 0.0229,
	"step": 125
	},
	{
	"epoch": 0.7584650112866818,
	"grad_norm": 1.4794739484786987,
	"learning_rate": 3.4563758389261744e-05,
	"loss": 0.0504,
	"step": 126
	},
	{
	"epoch": 0.764484574868322,
	"grad_norm": 0.9014606475830078,
	"learning_rate": 3.439597315436242e-05,
	"loss": 0.0223,
	"step": 127
	},
	{
	"epoch": 0.7705041384499624,
	"grad_norm": 0.5018836855888367,
	"learning_rate": 3.422818791946309e-05,
	"loss": 0.0359,
	"step": 128
	},
	{
	"epoch": 0.7765237020316027,
	"grad_norm": 1.3349637985229492,
	"learning_rate": 3.4060402684563756e-05,
	"loss": 0.0572,
	"step": 129
	},
	{
	"epoch": 0.782543265613243,
	"grad_norm": 1.1911202669143677,
	"learning_rate": 3.389261744966443e-05,
	"loss": 0.0956,
	"step": 130
	},
	{
	"epoch": 0.7885628291948834,
	"grad_norm": 2.8993449211120605,
	"learning_rate": 3.37248322147651e-05,
	"loss": 0.1212,
	"step": 131
	},
	{
	"epoch": 0.7945823927765236,
	"grad_norm": 0.6151400208473206,
	"learning_rate": 3.3557046979865775e-05,
	"loss": 0.0641,
	"step": 132
	},
	{
	"epoch": 0.800601956358164,
	"grad_norm": 1.7681182622909546,
	"learning_rate": 3.338926174496644e-05,
	"loss": 0.1288,
	"step": 133
	},
	{
	"epoch": 0.8066215199398044,
	"grad_norm": 1.9313393831253052,
	"learning_rate": 3.3221476510067115e-05,
	"loss": 0.122,
	"step": 134
	},
	{
	"epoch": 0.8126410835214447,
	"grad_norm": 0.7092230916023254,
	"learning_rate": 3.305369127516779e-05,
	"loss": 0.0395,
	"step": 135
	},
	{
	"epoch": 0.8186606471030851,
	"grad_norm": 0.6039671301841736,
	"learning_rate": 3.288590604026846e-05,
	"loss": 0.0517,
	"step": 136
	},
	{
	"epoch": 0.8246802106847254,
	"grad_norm": 0.6897003054618835,
	"learning_rate": 3.271812080536913e-05,
	"loss": 0.0507,
	"step": 137
	},
	{
	"epoch": 0.8306997742663657,
	"grad_norm": 0.05981295928359032,
	"learning_rate": 3.25503355704698e-05,
	"loss": 0.0023,
	"step": 138
	},
	{
	"epoch": 0.836719337848006,
	"grad_norm": 0.48830369114875793,
	"learning_rate": 3.238255033557047e-05,
	"loss": 0.0652,
	"step": 139
	},
	{
	"epoch": 0.8427389014296464,
	"grad_norm": 1.0506463050842285,
	"learning_rate": 3.221476510067114e-05,
	"loss": 0.0709,
	"step": 140
	},
	{
	"epoch": 0.8487584650112867,
	"grad_norm": 0.3859744668006897,
	"learning_rate": 3.204697986577181e-05,
	"loss": 0.0396,
	"step": 141
	},
	{
	"epoch": 0.8547780285929271,
	"grad_norm": 0.768587052822113,
	"learning_rate": 3.1879194630872485e-05,
	"loss": 0.0599,
	"step": 142
	},
	{
	"epoch": 0.8607975921745673,
	"grad_norm": 0.6868757605552673,
	"learning_rate": 3.171140939597316e-05,
	"loss": 0.0373,
	"step": 143
	},
	{
	"epoch": 0.8668171557562077,
	"grad_norm": 0.7010259628295898,
	"learning_rate": 3.1543624161073825e-05,
	"loss": 0.0717,
	"step": 144
	},
	{
	"epoch": 0.872836719337848,
	"grad_norm": 0.5125268697738647,
	"learning_rate": 3.13758389261745e-05,
	"loss": 0.0457,
	"step": 145
	},
	{
	"epoch": 0.8788562829194884,
	"grad_norm": 0.9679777026176453,
	"learning_rate": 3.120805369127517e-05,
	"loss": 0.0988,
	"step": 146
	},
	{
	"epoch": 0.8848758465011287,
	"grad_norm": 0.7588280439376831,
	"learning_rate": 3.1040268456375844e-05,
	"loss": 0.0691,
	"step": 147
	},
	{
	"epoch": 0.890895410082769,
	"grad_norm": 0.4412769079208374,
	"learning_rate": 3.087248322147651e-05,
	"loss": 0.0243,
	"step": 148
	},
	{
	"epoch": 0.8969149736644093,
	"grad_norm": 0.5840623378753662,
	"learning_rate": 3.070469798657718e-05,
	"loss": 0.0553,
	"step": 149
	},
	{
	"epoch": 0.9029345372460497,
	"grad_norm": 0.34683701395988464,
	"learning_rate": 3.0536912751677856e-05,
	"loss": 0.0568,
	"step": 150
	},
	{
	"epoch": 0.90895410082769,
	"grad_norm": 0.6545599102973938,
	"learning_rate": 3.0369127516778522e-05,
	"loss": 0.0523,
	"step": 151
	},
	{
	"epoch": 0.9149736644093304,
	"grad_norm": 0.3024606704711914,
	"learning_rate": 3.02013422818792e-05,
	"loss": 0.04,
	"step": 152
	},
	{
	"epoch": 0.9209932279909706,
	"grad_norm": 0.40984031558036804,
	"learning_rate": 3.0033557046979865e-05,
	"loss": 0.027,
	"step": 153
	},
	{
	"epoch": 0.927012791572611,
	"grad_norm": 0.3794308602809906,
	"learning_rate": 2.986577181208054e-05,
	"loss": 0.0927,
	"step": 154
	},
	{
	"epoch": 0.9330323551542513,
	"grad_norm": 0.6882305145263672,
	"learning_rate": 2.9697986577181207e-05,
	"loss": 0.0343,
	"step": 155
	},
	{
	"epoch": 0.9390519187358917,
	"grad_norm": 0.6028600335121155,
	"learning_rate": 2.9530201342281884e-05,
	"loss": 0.0479,
	"step": 156
	},
	{
	"epoch": 0.945071482317532,
	"grad_norm": 3.9858436584472656,
	"learning_rate": 2.936241610738255e-05,
	"loss": 0.0709,
	"step": 157
	},
	{
	"epoch": 0.9510910458991723,
	"grad_norm": 0.193309485912323,
	"learning_rate": 2.9194630872483227e-05,
	"loss": 0.0098,
	"step": 158
	},
	{
	"epoch": 0.9571106094808126,
	"grad_norm": 0.6534713506698608,
	"learning_rate": 2.9026845637583893e-05,
	"loss": 0.0519,
	"step": 159
	},
	{
	"epoch": 0.963130173062453,
	"grad_norm": 0.27771925926208496,
	"learning_rate": 2.885906040268457e-05,
	"loss": 0.0238,
	"step": 160
	},
	{
	"epoch": 0.9691497366440933,
	"grad_norm": 0.7335049510002136,
	"learning_rate": 2.8691275167785235e-05,
	"loss": 0.0677,
	"step": 161
	},
	{
	"epoch": 0.9751693002257337,
	"grad_norm": 1.1832383871078491,
	"learning_rate": 2.8523489932885905e-05,
	"loss": 0.1371,
	"step": 162
	},
	{
	"epoch": 0.9811888638073739,
	"grad_norm": 0.7754644155502319,
	"learning_rate": 2.8355704697986578e-05,
	"loss": 0.0619,
	"step": 163
	},
	{
	"epoch": 0.9872084273890143,
	"grad_norm": 0.6826126575469971,
	"learning_rate": 2.8187919463087248e-05,
	"loss": 0.0682,
	"step": 164
	},
	{
	"epoch": 0.9932279909706546,
	"grad_norm": 0.9121167659759521,
	"learning_rate": 2.802013422818792e-05,
	"loss": 0.0234,
	"step": 165
	},
	{
	"epoch": 0.999247554552295,
	"grad_norm": 0.6562134623527527,
	"learning_rate": 2.785234899328859e-05,
	"loss": 0.0615,
	"step": 166
	},
	{
	"epoch": 1.0052671181339352,
	"grad_norm": 2.136812925338745,
	"learning_rate": 2.7684563758389263e-05,
	"loss": 0.0835,
	"step": 167
	},
	{
	"epoch": 1.0112866817155757,
	"grad_norm": 0.430277019739151,
	"learning_rate": 2.7516778523489933e-05,
	"loss": 0.0205,
	"step": 168
	},
	{
	"epoch": 1.017306245297216,
	"grad_norm": 0.37437501549720764,
	"learning_rate": 2.7348993288590606e-05,
	"loss": 0.0147,
	"step": 169
	},
	{
	"epoch": 1.0233258088788564,
	"grad_norm": 0.09916182607412338,
	"learning_rate": 2.7181208053691276e-05,
	"loss": 0.0166,
	"step": 170
	},
	{
	"epoch": 1.0293453724604966,
	"grad_norm": 0.22763441503047943,
	"learning_rate": 2.701342281879195e-05,
	"loss": 0.0296,
	"step": 171
	},
	{
	"epoch": 1.0353649360421369,
	"grad_norm": 0.3235589265823364,
	"learning_rate": 2.6845637583892618e-05,
	"loss": 0.0214,
	"step": 172
	},
	{
	"epoch": 1.0413844996237773,
	"grad_norm": 0.09323552995920181,
	"learning_rate": 2.6677852348993288e-05,
	"loss": 0.0029,
	"step": 173
	},
	{
	"epoch": 1.0474040632054176,
	"grad_norm": 0.18400466442108154,
	"learning_rate": 2.651006711409396e-05,
	"loss": 0.0227,
	"step": 174
	},
	{
	"epoch": 1.053423626787058,
	"grad_norm": 0.4601859450340271,
	"learning_rate": 2.634228187919463e-05,
	"loss": 0.0247,
	"step": 175
	},
	{
	"epoch": 1.0594431903686983,
	"grad_norm": 0.06925185769796371,
	"learning_rate": 2.6174496644295304e-05,
	"loss": 0.0028,
	"step": 176
	},
	{
	"epoch": 1.0654627539503385,
	"grad_norm": 0.7103378772735596,
	"learning_rate": 2.6006711409395973e-05,
	"loss": 0.0679,
	"step": 177
	},
	{
	"epoch": 1.071482317531979,
	"grad_norm": 0.2948612868785858,
	"learning_rate": 2.5838926174496646e-05,
	"loss": 0.0158,
	"step": 178
	},
	{
	"epoch": 1.0775018811136192,
	"grad_norm": 0.5460957288742065,
	"learning_rate": 2.5671140939597316e-05,
	"loss": 0.0252,
	"step": 179
	},
	{
	"epoch": 1.0835214446952597,
	"grad_norm": 0.13775992393493652,
	"learning_rate": 2.550335570469799e-05,
	"loss": 0.0125,
	"step": 180
	},
	{
	"epoch": 1.0895410082769,
	"grad_norm": 0.2737879753112793,
	"learning_rate": 2.533557046979866e-05,
	"loss": 0.0087,
	"step": 181
	},
	{
	"epoch": 1.0955605718585402,
	"grad_norm": 0.37196484208106995,
	"learning_rate": 2.516778523489933e-05,
	"loss": 0.0579,
	"step": 182
	},
	{
	"epoch": 1.1015801354401806,
	"grad_norm": 0.3493405282497406,
	"learning_rate": 2.5e-05,
	"loss": 0.0126,
	"step": 183
	},
	{
	"epoch": 1.1075996990218209,
	"grad_norm": 1.0219722986221313,
	"learning_rate": 2.4832214765100674e-05,
	"loss": 0.0701,
	"step": 184
	},
	{
	"epoch": 1.1136192626034613,
	"grad_norm": 0.32175976037979126,
	"learning_rate": 2.4664429530201344e-05,
	"loss": 0.012,
	"step": 185
	},
	{
	"epoch": 1.1196388261851016,
	"grad_norm": 0.33765479922294617,
	"learning_rate": 2.4496644295302017e-05,
	"loss": 0.0106,
	"step": 186
	},
	{
	"epoch": 1.1256583897667418,
	"grad_norm": 0.17531374096870422,
	"learning_rate": 2.4328859060402687e-05,
	"loss": 0.0161,
	"step": 187
	},
	{
	"epoch": 1.1316779533483823,
	"grad_norm": 0.1013503223657608,
	"learning_rate": 2.416107382550336e-05,
	"loss": 0.0057,
	"step": 188
	},
	{
	"epoch": 1.1376975169300225,
	"grad_norm": 0.5186209082603455,
	"learning_rate": 2.3993288590604026e-05,
	"loss": 0.0189,
	"step": 189
	},
	{
	"epoch": 1.143717080511663,
	"grad_norm": 0.577898383140564,
	"learning_rate": 2.38255033557047e-05,
	"loss": 0.0315,
	"step": 190
	},
	{
	"epoch": 1.1497366440933032,
	"grad_norm": 0.2543765604496002,
	"learning_rate": 2.365771812080537e-05,
	"loss": 0.0259,
	"step": 191
	},
	{
	"epoch": 1.1557562076749435,
	"grad_norm": 1.04751718044281,
	"learning_rate": 2.348993288590604e-05,
	"loss": 0.0267,
	"step": 192
	},
	{
	"epoch": 1.161775771256584,
	"grad_norm": 0.30151480436325073,
	"learning_rate": 2.332214765100671e-05,
	"loss": 0.016,
	"step": 193
	},
	{
	"epoch": 1.1677953348382242,
	"grad_norm": 1.1602953672409058,
	"learning_rate": 2.3154362416107384e-05,
	"loss": 0.0342,
	"step": 194
	},
	{
	"epoch": 1.1738148984198646,
	"grad_norm": 0.6510918140411377,
	"learning_rate": 2.2986577181208054e-05,
	"loss": 0.0367,
	"step": 195
	},
	{
	"epoch": 1.1798344620015049,
	"grad_norm": 0.2937709093093872,
	"learning_rate": 2.2818791946308727e-05,
	"loss": 0.0124,
	"step": 196
	},
	{
	"epoch": 1.1858540255831453,
	"grad_norm": 0.3778565526008606,
	"learning_rate": 2.2651006711409396e-05,
	"loss": 0.0353,
	"step": 197
	},
	{
	"epoch": 1.1918735891647856,
	"grad_norm": 0.34342288970947266,
	"learning_rate": 2.248322147651007e-05,
	"loss": 0.0228,
	"step": 198
	},
	{
	"epoch": 1.1978931527464258,
	"grad_norm": 0.25225672125816345,
	"learning_rate": 2.231543624161074e-05,
	"loss": 0.0037,
	"step": 199
	},
	{
	"epoch": 1.2039127163280663,
	"grad_norm": 0.3875395953655243,
	"learning_rate": 2.2147651006711412e-05,
	"loss": 0.024,
	"step": 200
	},
	{
	"epoch": 1.2099322799097065,
	"grad_norm": 0.48843473196029663,
	"learning_rate": 2.197986577181208e-05,
	"loss": 0.0411,
	"step": 201
	},
	{
	"epoch": 1.215951843491347,
	"grad_norm": 0.008358384482562542,
	"learning_rate": 2.181208053691275e-05,
	"loss": 0.0002,
	"step": 202
	},
	{
	"epoch": 1.2219714070729872,
	"grad_norm": 0.0617498978972435,
	"learning_rate": 2.1644295302013424e-05,
	"loss": 0.0016,
	"step": 203
	},
	{
	"epoch": 1.2279909706546275,
	"grad_norm": 0.5839952826499939,
	"learning_rate": 2.1476510067114094e-05,
	"loss": 0.0255,
	"step": 204
	},
	{
	"epoch": 1.234010534236268,
	"grad_norm": 0.6008470058441162,
	"learning_rate": 2.1308724832214767e-05,
	"loss": 0.0279,
	"step": 205
	},
	{
	"epoch": 1.2400300978179082,
	"grad_norm": 0.08057394623756409,
	"learning_rate": 2.1140939597315437e-05,
	"loss": 0.014,
	"step": 206
	},
	{
	"epoch": 1.2460496613995486,
	"grad_norm": 0.8297271728515625,
	"learning_rate": 2.097315436241611e-05,
	"loss": 0.0433,
	"step": 207
	},
	{
	"epoch": 1.2520692249811889,
	"grad_norm": 1.0753511190414429,
	"learning_rate": 2.080536912751678e-05,
	"loss": 0.0342,
	"step": 208
	},
	{
	"epoch": 1.2580887885628291,
	"grad_norm": 0.11652516573667526,
	"learning_rate": 2.0637583892617452e-05,
	"loss": 0.0122,
	"step": 209
	},
	{
	"epoch": 1.2641083521444696,
	"grad_norm": 0.23289084434509277,
	"learning_rate": 2.0469798657718122e-05,
	"loss": 0.0229,
	"step": 210
	},
	{
	"epoch": 1.2701279157261098,
	"grad_norm": 0.5731219053268433,
	"learning_rate": 2.0302013422818795e-05,
	"loss": 0.0455,
	"step": 211
	},
	{
	"epoch": 1.2761474793077503,
	"grad_norm": 0.8601072430610657,
	"learning_rate": 2.013422818791946e-05,
	"loss": 0.0294,
	"step": 212
	},
	{
	"epoch": 1.2821670428893905,
	"grad_norm": 0.9172778129577637,
	"learning_rate": 1.9966442953020134e-05,
	"loss": 0.0803,
	"step": 213
	},
	{
	"epoch": 1.2881866064710308,
	"grad_norm": 0.18378061056137085,
	"learning_rate": 1.9798657718120804e-05,
	"loss": 0.0151,
	"step": 214
	},
	{
	"epoch": 1.2942061700526712,
	"grad_norm": 0.2338120937347412,
	"learning_rate": 1.9630872483221477e-05,
	"loss": 0.0214,
	"step": 215
	},
	{
	"epoch": 1.3002257336343115,
	"grad_norm": 0.09691441804170609,
	"learning_rate": 1.946308724832215e-05,
	"loss": 0.0087,
	"step": 216
	},
	{
	"epoch": 1.306245297215952,
	"grad_norm": 0.1699642539024353,
	"learning_rate": 1.929530201342282e-05,
	"loss": 0.0088,
	"step": 217
	},
	{
	"epoch": 1.3122648607975922,
	"grad_norm": 0.014856619760394096,
	"learning_rate": 1.9127516778523493e-05,
	"loss": 0.0003,
	"step": 218
	},
	{
	"epoch": 1.3182844243792324,
	"grad_norm": 0.17981240153312683,
	"learning_rate": 1.8959731543624162e-05,
	"loss": 0.0148,
	"step": 219
	},
	{
	"epoch": 1.324303987960873,
	"grad_norm": 0.1564723402261734,
	"learning_rate": 1.8791946308724835e-05,
	"loss": 0.025,
	"step": 220
	},
	{
	"epoch": 1.3303235515425131,
	"grad_norm": 0.05128008872270584,
	"learning_rate": 1.8624161073825505e-05,
	"loss": 0.0013,
	"step": 221
	},
	{
	"epoch": 1.3363431151241536,
	"grad_norm": 0.018907951191067696,
	"learning_rate": 1.8456375838926178e-05,
	"loss": 0.0006,
	"step": 222
	},
	{
	"epoch": 1.3423626787057938,
	"grad_norm": 0.047860465943813324,
	"learning_rate": 1.8288590604026847e-05,
	"loss": 0.0018,
	"step": 223
	},
	{
	"epoch": 1.348382242287434,
	"grad_norm": 1.6964343786239624,
	"learning_rate": 1.8120805369127517e-05,
	"loss": 0.0834,
	"step": 224
	},
	{
	"epoch": 1.3544018058690745,
	"grad_norm": 0.09841305017471313,
	"learning_rate": 1.7953020134228187e-05,
	"loss": 0.0018,
	"step": 225
	},
	{
	"epoch": 1.3604213694507148,
	"grad_norm": 0.29318398237228394,
	"learning_rate": 1.778523489932886e-05,
	"loss": 0.0292,
	"step": 226
	},
	{
	"epoch": 1.3664409330323553,
	"grad_norm": 0.6777030229568481,
	"learning_rate": 1.761744966442953e-05,
	"loss": 0.0453,
	"step": 227
	},
	{
	"epoch": 1.3724604966139955,
	"grad_norm": 0.09742780774831772,
	"learning_rate": 1.7449664429530202e-05,
	"loss": 0.0022,
	"step": 228
	},
	{
	"epoch": 1.3784800601956357,
	"grad_norm": 0.21270929276943207,
	"learning_rate": 1.7281879194630872e-05,
	"loss": 0.0216,
	"step": 229
	},
	{
	"epoch": 1.3844996237772762,
	"grad_norm": 0.10257343202829361,
	"learning_rate": 1.7114093959731545e-05,
	"loss": 0.0032,
	"step": 230
	},
	{
	"epoch": 1.3905191873589164,
	"grad_norm": 0.2899154722690582,
	"learning_rate": 1.6946308724832215e-05,
	"loss": 0.0336,
	"step": 231
	},
	{
	"epoch": 1.396538750940557,
	"grad_norm": 0.560697615146637,
	"learning_rate": 1.6778523489932888e-05,
	"loss": 0.0167,
	"step": 232
	},
	{
	"epoch": 1.4025583145221971,
	"grad_norm": 0.15792670845985413,
	"learning_rate": 1.6610738255033557e-05,
	"loss": 0.0161,
	"step": 233
	},
	{
	"epoch": 1.4085778781038374,
	"grad_norm": 0.112309031188488,
	"learning_rate": 1.644295302013423e-05,
	"loss": 0.0081,
	"step": 234
	},
	{
	"epoch": 1.4145974416854779,
	"grad_norm": 0.6623883247375488,
	"learning_rate": 1.62751677852349e-05,
	"loss": 0.0679,
	"step": 235
	},
	{
	"epoch": 1.420617005267118,
	"grad_norm": 0.27897122502326965,
	"learning_rate": 1.610738255033557e-05,
	"loss": 0.0162,
	"step": 236
	},
	{
	"epoch": 1.4266365688487586,
	"grad_norm": 0.08262226730585098,
	"learning_rate": 1.5939597315436243e-05,
	"loss": 0.0029,
	"step": 237
	},
	{
	"epoch": 1.4326561324303988,
	"grad_norm": 0.13499091565608978,
	"learning_rate": 1.5771812080536912e-05,
	"loss": 0.0147,
	"step": 238
	},
	{
	"epoch": 1.438675696012039,
	"grad_norm": 0.2563413977622986,
	"learning_rate": 1.5604026845637585e-05,
	"loss": 0.0186,
	"step": 239
	},
	{
	"epoch": 1.4446952595936795,
	"grad_norm": 0.38309767842292786,
	"learning_rate": 1.5436241610738255e-05,
	"loss": 0.0042,
	"step": 240
	},
	{
	"epoch": 1.4507148231753197,
	"grad_norm": 0.5308915972709656,
	"learning_rate": 1.5268456375838928e-05,
	"loss": 0.023,
	"step": 241
	},
	{
	"epoch": 1.4567343867569602,
	"grad_norm": 0.5418457984924316,
	"learning_rate": 1.51006711409396e-05,
	"loss": 0.0271,
	"step": 242
	},
	{
	"epoch": 1.4627539503386005,
	"grad_norm": 0.16427500545978546,
	"learning_rate": 1.493288590604027e-05,
	"loss": 0.0167,
	"step": 243
	},
	{
	"epoch": 1.4687735139202407,
	"grad_norm": 0.1764906644821167,
	"learning_rate": 1.4765100671140942e-05,
	"loss": 0.0041,
	"step": 244
	},
	{
	"epoch": 1.4747930775018812,
	"grad_norm": 0.028177335858345032,
	"learning_rate": 1.4597315436241613e-05,
	"loss": 0.0011,
	"step": 245
	},
	{
	"epoch": 1.4808126410835214,
	"grad_norm": 0.28984132409095764,
	"learning_rate": 1.4429530201342285e-05,
	"loss": 0.0037,
	"step": 246
	},
	{
	"epoch": 1.4868322046651619,
	"grad_norm": 0.016668178141117096,
	"learning_rate": 1.4261744966442953e-05,
	"loss": 0.0007,
	"step": 247
	},
	{
	"epoch": 1.492851768246802,
	"grad_norm": 0.11294250190258026,
	"learning_rate": 1.4093959731543624e-05,
	"loss": 0.0117,
	"step": 248
	},
	{
	"epoch": 1.4988713318284423,
	"grad_norm": 0.18805146217346191,
	"learning_rate": 1.3926174496644295e-05,
	"loss": 0.0152,
	"step": 249
	},
	{
	"epoch": 1.5048908954100828,
	"grad_norm": 0.15651652216911316,
	"learning_rate": 1.3758389261744966e-05,
	"loss": 0.0195,
	"step": 250
	},
	{
	"epoch": 1.510910458991723,
	"grad_norm": 0.07596039772033691,
	"learning_rate": 1.3590604026845638e-05,
	"loss": 0.0035,
	"step": 251
	},
	{
	"epoch": 1.5169300225733635,
	"grad_norm": 0.5767983198165894,
	"learning_rate": 1.3422818791946309e-05,
	"loss": 0.0209,
	"step": 252
	},
	{
	"epoch": 1.5229495861550038,
	"grad_norm": 0.14054809510707855,
	"learning_rate": 1.325503355704698e-05,
	"loss": 0.0156,
	"step": 253
	},
	{
	"epoch": 1.528969149736644,
	"grad_norm": 0.5480087995529175,
	"learning_rate": 1.3087248322147652e-05,
	"loss": 0.0372,
	"step": 254
	},
	{
	"epoch": 1.5349887133182845,
	"grad_norm": 0.21327197551727295,
	"learning_rate": 1.2919463087248323e-05,
	"loss": 0.037,
	"step": 255
	},
	{
	"epoch": 1.5410082768999247,
	"grad_norm": 0.8947880268096924,
	"learning_rate": 1.2751677852348994e-05,
	"loss": 0.0352,
	"step": 256
	},
	{
	"epoch": 1.5470278404815652,
	"grad_norm": 0.16651660203933716,
	"learning_rate": 1.2583892617449666e-05,
	"loss": 0.0062,
	"step": 257
	},
	{
	"epoch": 1.5530474040632054,
	"grad_norm": 0.18476413190364838,
	"learning_rate": 1.2416107382550337e-05,
	"loss": 0.0177,
	"step": 258
	},
	{
	"epoch": 1.5590669676448456,
	"grad_norm": 0.013061203993856907,
	"learning_rate": 1.2248322147651008e-05,
	"loss": 0.0005,
	"step": 259
	},
	{
	"epoch": 1.565086531226486,
	"grad_norm": 0.31754836440086365,
	"learning_rate": 1.208053691275168e-05,
	"loss": 0.0181,
	"step": 260
	},
	{
	"epoch": 1.5711060948081266,
	"grad_norm": 0.26034584641456604,
	"learning_rate": 1.191275167785235e-05,
	"loss": 0.0342,
	"step": 261
	},
	{
	"epoch": 1.5771256583897668,
	"grad_norm": 0.15222539007663727,
	"learning_rate": 1.174496644295302e-05,
	"loss": 0.0081,
	"step": 262
	},
	{
	"epoch": 1.583145221971407,
	"grad_norm": 0.1855451464653015,
	"learning_rate": 1.1577181208053692e-05,
	"loss": 0.0222,
	"step": 263
	},
	{
	"epoch": 1.5891647855530473,
	"grad_norm": 0.47386428713798523,
	"learning_rate": 1.1409395973154363e-05,
	"loss": 0.0484,
	"step": 264
	},
	{
	"epoch": 1.5951843491346878,
	"grad_norm": 0.05222529545426369,
	"learning_rate": 1.1241610738255035e-05,
	"loss": 0.0018,
	"step": 265
	},
	{
	"epoch": 1.6012039127163282,
	"grad_norm": 0.36145541071891785,
	"learning_rate": 1.1073825503355706e-05,
	"loss": 0.0256,
	"step": 266
	},
	{
	"epoch": 1.6072234762979685,
	"grad_norm": 0.2200651317834854,
	"learning_rate": 1.0906040268456376e-05,
	"loss": 0.0048,
	"step": 267
	},
	{
	"epoch": 1.6132430398796087,
	"grad_norm": 0.2838999330997467,
	"learning_rate": 1.0738255033557047e-05,
	"loss": 0.0088,
	"step": 268
	},
	{
	"epoch": 1.619262603461249,
	"grad_norm": 0.5340823531150818,
	"learning_rate": 1.0570469798657718e-05,
	"loss": 0.0054,
	"step": 269
	},
	{
	"epoch": 1.6252821670428894,
	"grad_norm": 0.27307260036468506,
	"learning_rate": 1.040268456375839e-05,
	"loss": 0.014,
	"step": 270
	},
	{
	"epoch": 1.6313017306245299,
	"grad_norm": 0.694962739944458,
	"learning_rate": 1.0234899328859061e-05,
	"loss": 0.0126,
	"step": 271
	},
	{
	"epoch": 1.6373212942061701,
	"grad_norm": 0.19789136946201324,
	"learning_rate": 1.006711409395973e-05,
	"loss": 0.0172,
	"step": 272
	},
	{
	"epoch": 1.6433408577878104,
	"grad_norm": 0.5267607569694519,
	"learning_rate": 9.899328859060402e-06,
	"loss": 0.0408,
	"step": 273
	},
	{
	"epoch": 1.6493604213694506,
	"grad_norm": 0.015556755475699902,
	"learning_rate": 9.731543624161075e-06,
	"loss": 0.0006,
	"step": 274
	},
	{
	"epoch": 1.655379984951091,
	"grad_norm": 0.5071566104888916,
	"learning_rate": 9.563758389261746e-06,
	"loss": 0.0281,
	"step": 275
	},
	{
	"epoch": 1.6613995485327315,
	"grad_norm": 0.1441573202610016,
	"learning_rate": 9.395973154362418e-06,
	"loss": 0.0151,
	"step": 276
	},
	{
	"epoch": 1.6674191121143718,
	"grad_norm": 0.22274713218212128,
	"learning_rate": 9.228187919463089e-06,
	"loss": 0.0174,
	"step": 277
	},
	{
	"epoch": 1.673438675696012,
	"grad_norm": 1.108049988746643,
	"learning_rate": 9.060402684563759e-06,
	"loss": 0.0189,
	"step": 278
	},
	{
	"epoch": 1.6794582392776523,
	"grad_norm": 0.47223615646362305,
	"learning_rate": 8.89261744966443e-06,
	"loss": 0.0261,
	"step": 279
	},
	{
	"epoch": 1.6854778028592927,
	"grad_norm": 0.11383321136236191,
	"learning_rate": 8.724832214765101e-06,
	"loss": 0.0139,
	"step": 280
	},
	{
	"epoch": 1.6914973664409332,
	"grad_norm": 0.01508291345089674,
	"learning_rate": 8.557046979865773e-06,
	"loss": 0.0006,
	"step": 281
	},
	{
	"epoch": 1.6975169300225734,
	"grad_norm": 0.572291910648346,
	"learning_rate": 8.389261744966444e-06,
	"loss": 0.0587,
	"step": 282
	},
	{
	"epoch": 1.7035364936042137,
	"grad_norm": 0.8027609586715698,
	"learning_rate": 8.221476510067115e-06,
	"loss": 0.0252,
	"step": 283
	},
	{
	"epoch": 1.709556057185854,
	"grad_norm": 0.0062585920095443726,
	"learning_rate": 8.053691275167785e-06,
	"loss": 0.0002,
	"step": 284
	},
	{
	"epoch": 1.7155756207674944,
	"grad_norm": 0.18026615679264069,
	"learning_rate": 7.885906040268456e-06,
	"loss": 0.0069,
	"step": 285
	},
	{
	"epoch": 1.7215951843491348,
	"grad_norm": 0.02148846536874771,
	"learning_rate": 7.718120805369127e-06,
	"loss": 0.0006,
	"step": 286
	},
	{
	"epoch": 1.727614747930775,
	"grad_norm": 0.40165480971336365,
	"learning_rate": 7.5503355704698e-06,
	"loss": 0.0483,
	"step": 287
	},
	{
	"epoch": 1.7336343115124153,
	"grad_norm": 0.34756484627723694,
	"learning_rate": 7.382550335570471e-06,
	"loss": 0.0089,
	"step": 288
	},
	{
	"epoch": 1.7396538750940556,
	"grad_norm": 0.8310803771018982,
	"learning_rate": 7.214765100671142e-06,
	"loss": 0.0349,
	"step": 289
	},
	{
	"epoch": 1.745673438675696,
	"grad_norm": 0.21227827668190002,
	"learning_rate": 7.046979865771812e-06,
	"loss": 0.0098,
	"step": 290
	},
	{
	"epoch": 1.7516930022573365,
	"grad_norm": 0.18423959612846375,
	"learning_rate": 6.879194630872483e-06,
	"loss": 0.0196,
	"step": 291
	},
	{
	"epoch": 1.7577125658389767,
	"grad_norm": 0.13899557292461395,
	"learning_rate": 6.7114093959731546e-06,
	"loss": 0.0086,
	"step": 292
	},
	{
	"epoch": 1.763732129420617,
	"grad_norm": 0.9509983658790588,
	"learning_rate": 6.543624161073826e-06,
	"loss": 0.0227,
	"step": 293
	},
	{
	"epoch": 1.7697516930022572,
	"grad_norm": 0.2806952893733978,
	"learning_rate": 6.375838926174497e-06,
	"loss": 0.0308,
	"step": 294
	},
	{
	"epoch": 1.7757712565838977,
	"grad_norm": 0.2584255337715149,
	"learning_rate": 6.2080536912751686e-06,
	"loss": 0.0078,
	"step": 295
	},
	{
	"epoch": 1.7817908201655381,
	"grad_norm": 0.6496636867523193,
	"learning_rate": 6.04026845637584e-06,
	"loss": 0.0764,
	"step": 296
	},
	{
	"epoch": 1.7878103837471784,
	"grad_norm": 2.131640672683716,
	"learning_rate": 5.87248322147651e-06,
	"loss": 0.0485,
	"step": 297
	},
	{
	"epoch": 1.7938299473288186,
	"grad_norm": 0.25984302163124084,
	"learning_rate": 5.704697986577182e-06,
	"loss": 0.0256,
	"step": 298
	},
	{
	"epoch": 1.7998495109104589,
	"grad_norm": 0.8501216769218445,
	"learning_rate": 5.536912751677853e-06,
	"loss": 0.0559,
	"step": 299
	},
	{
	"epoch": 1.8058690744920993,
	"grad_norm": 0.3276824355125427,
	"learning_rate": 5.3691275167785235e-06,
	"loss": 0.0228,
	"step": 300
	},
	{
	"epoch": 1.8118886380737398,
	"grad_norm": 0.19804896414279938,
	"learning_rate": 5.201342281879195e-06,
	"loss": 0.0121,
	"step": 301
	},
	{
	"epoch": 1.81790820165538,
	"grad_norm": 0.6229518055915833,
	"learning_rate": 5.033557046979865e-06,
	"loss": 0.0046,
	"step": 302
	},
	{
	"epoch": 1.8239277652370203,
	"grad_norm": 0.16715337336063385,
	"learning_rate": 4.8657718120805375e-06,
	"loss": 0.0107,
	"step": 303
	},
	{
	"epoch": 1.8299473288186605,
	"grad_norm": 0.14998656511306763,
	"learning_rate": 4.697986577181209e-06,
	"loss": 0.0041,
	"step": 304
	},
	{
	"epoch": 1.835966892400301,
	"grad_norm": 0.3184771239757538,
	"learning_rate": 4.530201342281879e-06,
	"loss": 0.0107,
	"step": 305
	},
	{
	"epoch": 1.8419864559819414,
	"grad_norm": 0.665398120880127,
	"learning_rate": 4.362416107382551e-06,
	"loss": 0.0227,
	"step": 306
	},
	{
	"epoch": 1.8480060195635817,
	"grad_norm": 0.19727759063243866,
	"learning_rate": 4.194630872483222e-06,
	"loss": 0.0122,
	"step": 307
	},
	{
	"epoch": 1.854025583145222,
	"grad_norm": 0.13394923508167267,
	"learning_rate": 4.026845637583892e-06,
	"loss": 0.0053,
	"step": 308
	},
	{
	"epoch": 1.8600451467268622,
	"grad_norm": 0.17236709594726562,
	"learning_rate": 3.859060402684564e-06,
	"loss": 0.0184,
	"step": 309
	},
	{
	"epoch": 1.8660647103085026,
	"grad_norm": 1.0638315677642822,
	"learning_rate": 3.6912751677852355e-06,
	"loss": 0.0311,
	"step": 310
	},
	{
	"epoch": 1.872084273890143,
	"grad_norm": 0.06651457399129868,
	"learning_rate": 3.523489932885906e-06,
	"loss": 0.0023,
	"step": 311
	},
	{
	"epoch": 1.8781038374717833,
	"grad_norm": 0.19191402196884155,
	"learning_rate": 3.3557046979865773e-06,
	"loss": 0.0195,
	"step": 312
	},
	{
	"epoch": 1.8841234010534236,
	"grad_norm": 0.004882109817117453,
	"learning_rate": 3.1879194630872486e-06,
	"loss": 0.0002,
	"step": 313
	},
	{
	"epoch": 1.8901429646350638,
	"grad_norm": 0.2256098985671997,
	"learning_rate": 3.02013422818792e-06,
	"loss": 0.0145,
	"step": 314
	},
	{
	"epoch": 1.8961625282167043,
	"grad_norm": 0.49490997195243835,
	"learning_rate": 2.852348993288591e-06,
	"loss": 0.0378,
	"step": 315
	},
	{
	"epoch": 1.9021820917983447,
	"grad_norm": 0.2518860101699829,
	"learning_rate": 2.6845637583892617e-06,
	"loss": 0.0424,
	"step": 316
	},
	{
	"epoch": 1.908201655379985,
	"grad_norm": 0.01092343870550394,
	"learning_rate": 2.5167785234899326e-06,
	"loss": 0.0003,
	"step": 317
	},
	{
	"epoch": 1.9142212189616252,
	"grad_norm": 0.45049425959587097,
	"learning_rate": 2.3489932885906044e-06,
	"loss": 0.053,
	"step": 318
	},
	{
	"epoch": 1.9202407825432655,
	"grad_norm": 0.01676754839718342,
	"learning_rate": 2.1812080536912753e-06,
	"loss": 0.0007,
	"step": 319
	},
	{
	"epoch": 1.926260346124906,
	"grad_norm": 0.08567023277282715,
	"learning_rate": 2.013422818791946e-06,
	"loss": 0.0022,
	"step": 320
	},
	{
	"epoch": 1.9322799097065464,
	"grad_norm": 0.243726447224617,
	"learning_rate": 1.8456375838926177e-06,
	"loss": 0.022,
	"step": 321
	},
	{
	"epoch": 1.9382994732881866,
	"grad_norm": 0.20735050737857819,
	"learning_rate": 1.6778523489932886e-06,
	"loss": 0.0113,
	"step": 322
	},
	{
	"epoch": 1.9443190368698269,
	"grad_norm": 0.013643703423440456,
	"learning_rate": 1.51006711409396e-06,
	"loss": 0.0005,
	"step": 323
	},
	{
	"epoch": 1.9503386004514671,
	"grad_norm": 0.14169737696647644,
	"learning_rate": 1.3422818791946309e-06,
	"loss": 0.004,
	"step": 324
	},
	{
	"epoch": 1.9563581640331076,
	"grad_norm": 0.21097888052463531,
	"learning_rate": 1.1744966442953022e-06,
	"loss": 0.0163,
	"step": 325
	},
	{
	"epoch": 1.962377727614748,
	"grad_norm": 0.3481338620185852,
	"learning_rate": 1.006711409395973e-06,
	"loss": 0.0328,
	"step": 326
	},
	{
	"epoch": 1.9683972911963883,
	"grad_norm": 0.639370858669281,
	"learning_rate": 8.389261744966443e-07,
	"loss": 0.0385,
	"step": 327
	},
	{
	"epoch": 1.9744168547780285,
	"grad_norm": 0.01708345301449299,
	"learning_rate": 6.711409395973154e-07,
	"loss": 0.0006,
	"step": 328
	},
	{
	"epoch": 1.9804364183596688,
	"grad_norm": 1.5634732246398926,
	"learning_rate": 5.033557046979866e-07,
	"loss": 0.0966,
	"step": 329
	},
	{
	"epoch": 1.9864559819413092,
	"grad_norm": 0.03818768635392189,
	"learning_rate": 3.355704697986577e-07,
	"loss": 0.001,
	"step": 330
	},
	{
	"epoch": 1.9924755455229497,
	"grad_norm": 1.7485132217407227,
	"learning_rate": 1.6778523489932886e-07,
	"loss": 0.0881,
	"step": 331
	},
	{
	"epoch": 1.99849510910459,
	"grad_norm": 2.490537643432617,
	"learning_rate": 0.0,
	"loss": 0.0464,
	"step": 332
	}
	],
	"logging_steps": 1,
	"max_steps": 332,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.806882647064781e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}