Training in progress, step 200, checkpoint

6e91b66 verified 6 days ago

35.4 kB

	{
	"best_metric": 0.9818174242973328,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.020891001201232568,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00010445500600616284,
	"grad_norm": 1.0160599946975708,
	"learning_rate": 1.007e-05,
	"loss": 0.9026,
	"step": 1
	},
	{
	"epoch": 0.00010445500600616284,
	"eval_loss": 1.3163843154907227,
	"eval_runtime": 118.417,
	"eval_samples_per_second": 34.041,
	"eval_steps_per_second": 8.512,
	"step": 1
	},
	{
	"epoch": 0.00020891001201232568,
	"grad_norm": 1.103493571281433,
	"learning_rate": 2.014e-05,
	"loss": 0.9891,
	"step": 2
	},
	{
	"epoch": 0.0003133650180184885,
	"grad_norm": 1.031664490699768,
	"learning_rate": 3.0209999999999997e-05,
	"loss": 1.0485,
	"step": 3
	},
	{
	"epoch": 0.00041782002402465136,
	"grad_norm": 0.985599160194397,
	"learning_rate": 4.028e-05,
	"loss": 1.1374,
	"step": 4
	},
	{
	"epoch": 0.0005222750300308142,
	"grad_norm": 0.8242583274841309,
	"learning_rate": 5.035e-05,
	"loss": 1.0288,
	"step": 5
	},
	{
	"epoch": 0.000626730036036977,
	"grad_norm": 0.8407261967658997,
	"learning_rate": 6.0419999999999994e-05,
	"loss": 1.0153,
	"step": 6
	},
	{
	"epoch": 0.0007311850420431399,
	"grad_norm": 1.0834583044052124,
	"learning_rate": 7.049e-05,
	"loss": 0.9715,
	"step": 7
	},
	{
	"epoch": 0.0008356400480493027,
	"grad_norm": 1.1035923957824707,
	"learning_rate": 8.056e-05,
	"loss": 1.0755,
	"step": 8
	},
	{
	"epoch": 0.0009400950540554656,
	"grad_norm": 0.9618456363677979,
	"learning_rate": 9.062999999999999e-05,
	"loss": 0.9921,
	"step": 9
	},
	{
	"epoch": 0.0010445500600616284,
	"grad_norm": 1.0877008438110352,
	"learning_rate": 0.0001007,
	"loss": 1.1217,
	"step": 10
	},
	{
	"epoch": 0.0011490050660677912,
	"grad_norm": 0.9684674739837646,
	"learning_rate": 0.00010017,
	"loss": 1.0438,
	"step": 11
	},
	{
	"epoch": 0.001253460072073954,
	"grad_norm": 0.8440430164337158,
	"learning_rate": 9.963999999999999e-05,
	"loss": 1.0471,
	"step": 12
	},
	{
	"epoch": 0.001357915078080117,
	"grad_norm": 0.7783815860748291,
	"learning_rate": 9.910999999999999e-05,
	"loss": 0.9841,
	"step": 13
	},
	{
	"epoch": 0.0014623700840862798,
	"grad_norm": 0.8125823140144348,
	"learning_rate": 9.858e-05,
	"loss": 1.0053,
	"step": 14
	},
	{
	"epoch": 0.0015668250900924426,
	"grad_norm": 0.8336841464042664,
	"learning_rate": 9.805e-05,
	"loss": 0.9672,
	"step": 15
	},
	{
	"epoch": 0.0016712800960986054,
	"grad_norm": 0.9024210572242737,
	"learning_rate": 9.752e-05,
	"loss": 1.1344,
	"step": 16
	},
	{
	"epoch": 0.0017757351021047683,
	"grad_norm": 0.9698878526687622,
	"learning_rate": 9.698999999999999e-05,
	"loss": 1.1192,
	"step": 17
	},
	{
	"epoch": 0.0018801901081109311,
	"grad_norm": 0.9430877566337585,
	"learning_rate": 9.646e-05,
	"loss": 1.0096,
	"step": 18
	},
	{
	"epoch": 0.001984645114117094,
	"grad_norm": 0.9249778985977173,
	"learning_rate": 9.593e-05,
	"loss": 1.0335,
	"step": 19
	},
	{
	"epoch": 0.002089100120123257,
	"grad_norm": 1.2025758028030396,
	"learning_rate": 9.539999999999999e-05,
	"loss": 1.2275,
	"step": 20
	},
	{
	"epoch": 0.0021935551261294197,
	"grad_norm": 1.0294830799102783,
	"learning_rate": 9.487e-05,
	"loss": 1.1516,
	"step": 21
	},
	{
	"epoch": 0.0022980101321355825,
	"grad_norm": 1.0079749822616577,
	"learning_rate": 9.434e-05,
	"loss": 1.0904,
	"step": 22
	},
	{
	"epoch": 0.0024024651381417453,
	"grad_norm": 1.0860754251480103,
	"learning_rate": 9.381e-05,
	"loss": 1.1063,
	"step": 23
	},
	{
	"epoch": 0.002506920144147908,
	"grad_norm": 1.0929911136627197,
	"learning_rate": 9.327999999999999e-05,
	"loss": 1.213,
	"step": 24
	},
	{
	"epoch": 0.002611375150154071,
	"grad_norm": 1.0362168550491333,
	"learning_rate": 9.274999999999999e-05,
	"loss": 1.105,
	"step": 25
	},
	{
	"epoch": 0.002715830156160234,
	"grad_norm": 1.035015344619751,
	"learning_rate": 9.222e-05,
	"loss": 1.0202,
	"step": 26
	},
	{
	"epoch": 0.0028202851621663967,
	"grad_norm": 1.1152434349060059,
	"learning_rate": 9.169e-05,
	"loss": 1.0801,
	"step": 27
	},
	{
	"epoch": 0.0029247401681725595,
	"grad_norm": 1.1516571044921875,
	"learning_rate": 9.116e-05,
	"loss": 1.0891,
	"step": 28
	},
	{
	"epoch": 0.0030291951741787224,
	"grad_norm": 1.0675947666168213,
	"learning_rate": 9.062999999999999e-05,
	"loss": 1.0438,
	"step": 29
	},
	{
	"epoch": 0.0031336501801848852,
	"grad_norm": 1.0566611289978027,
	"learning_rate": 9.01e-05,
	"loss": 1.0598,
	"step": 30
	},
	{
	"epoch": 0.003238105186191048,
	"grad_norm": 1.0381075143814087,
	"learning_rate": 8.957e-05,
	"loss": 0.9869,
	"step": 31
	},
	{
	"epoch": 0.003342560192197211,
	"grad_norm": 1.0372414588928223,
	"learning_rate": 8.903999999999999e-05,
	"loss": 1.0221,
	"step": 32
	},
	{
	"epoch": 0.0034470151982033737,
	"grad_norm": 1.1146482229232788,
	"learning_rate": 8.850999999999999e-05,
	"loss": 1.1111,
	"step": 33
	},
	{
	"epoch": 0.0035514702042095366,
	"grad_norm": 1.117113471031189,
	"learning_rate": 8.798e-05,
	"loss": 1.0337,
	"step": 34
	},
	{
	"epoch": 0.0036559252102156994,
	"grad_norm": 1.1380937099456787,
	"learning_rate": 8.745e-05,
	"loss": 1.0539,
	"step": 35
	},
	{
	"epoch": 0.0037603802162218623,
	"grad_norm": 1.125671148300171,
	"learning_rate": 8.692e-05,
	"loss": 1.2324,
	"step": 36
	},
	{
	"epoch": 0.003864835222228025,
	"grad_norm": 1.178640604019165,
	"learning_rate": 8.638999999999999e-05,
	"loss": 1.0558,
	"step": 37
	},
	{
	"epoch": 0.003969290228234188,
	"grad_norm": 1.1600550413131714,
	"learning_rate": 8.586e-05,
	"loss": 1.1477,
	"step": 38
	},
	{
	"epoch": 0.004073745234240351,
	"grad_norm": 1.1267294883728027,
	"learning_rate": 8.533e-05,
	"loss": 1.1102,
	"step": 39
	},
	{
	"epoch": 0.004178200240246514,
	"grad_norm": 1.148314118385315,
	"learning_rate": 8.479999999999999e-05,
	"loss": 1.1249,
	"step": 40
	},
	{
	"epoch": 0.004282655246252677,
	"grad_norm": 1.7030447721481323,
	"learning_rate": 8.427e-05,
	"loss": 1.3342,
	"step": 41
	},
	{
	"epoch": 0.004387110252258839,
	"grad_norm": 1.1302878856658936,
	"learning_rate": 8.374e-05,
	"loss": 1.0549,
	"step": 42
	},
	{
	"epoch": 0.004491565258265003,
	"grad_norm": 1.2263422012329102,
	"learning_rate": 8.321e-05,
	"loss": 1.049,
	"step": 43
	},
	{
	"epoch": 0.004596020264271165,
	"grad_norm": 1.1995285749435425,
	"learning_rate": 8.268e-05,
	"loss": 1.0055,
	"step": 44
	},
	{
	"epoch": 0.004700475270277328,
	"grad_norm": 1.2773244380950928,
	"learning_rate": 8.214999999999999e-05,
	"loss": 1.0983,
	"step": 45
	},
	{
	"epoch": 0.004804930276283491,
	"grad_norm": 1.3492332696914673,
	"learning_rate": 8.162e-05,
	"loss": 1.181,
	"step": 46
	},
	{
	"epoch": 0.004909385282289654,
	"grad_norm": 1.35885751247406,
	"learning_rate": 8.108999999999998e-05,
	"loss": 1.0918,
	"step": 47
	},
	{
	"epoch": 0.005013840288295816,
	"grad_norm": 1.250424861907959,
	"learning_rate": 8.056e-05,
	"loss": 0.9498,
	"step": 48
	},
	{
	"epoch": 0.00511829529430198,
	"grad_norm": 1.5273371934890747,
	"learning_rate": 8.003e-05,
	"loss": 1.0708,
	"step": 49
	},
	{
	"epoch": 0.005222750300308142,
	"grad_norm": 1.8503930568695068,
	"learning_rate": 7.95e-05,
	"loss": 1.3104,
	"step": 50
	},
	{
	"epoch": 0.005222750300308142,
	"eval_loss": 1.0883654356002808,
	"eval_runtime": 120.0706,
	"eval_samples_per_second": 33.572,
	"eval_steps_per_second": 8.395,
	"step": 50
	},
	{
	"epoch": 0.005327205306314305,
	"grad_norm": 0.9896413087844849,
	"learning_rate": 7.897e-05,
	"loss": 0.9202,
	"step": 51
	},
	{
	"epoch": 0.005431660312320468,
	"grad_norm": 0.840713381767273,
	"learning_rate": 7.843999999999999e-05,
	"loss": 0.8256,
	"step": 52
	},
	{
	"epoch": 0.005536115318326631,
	"grad_norm": 0.7416518330574036,
	"learning_rate": 7.790999999999999e-05,
	"loss": 0.9071,
	"step": 53
	},
	{
	"epoch": 0.005640570324332793,
	"grad_norm": 0.7955224514007568,
	"learning_rate": 7.738e-05,
	"loss": 0.9046,
	"step": 54
	},
	{
	"epoch": 0.005745025330338957,
	"grad_norm": 0.7123813629150391,
	"learning_rate": 7.685e-05,
	"loss": 1.0314,
	"step": 55
	},
	{
	"epoch": 0.005849480336345119,
	"grad_norm": 0.683822751045227,
	"learning_rate": 7.632e-05,
	"loss": 0.9354,
	"step": 56
	},
	{
	"epoch": 0.005953935342351282,
	"grad_norm": 0.6209269165992737,
	"learning_rate": 7.578999999999999e-05,
	"loss": 0.8914,
	"step": 57
	},
	{
	"epoch": 0.006058390348357445,
	"grad_norm": 0.6532514691352844,
	"learning_rate": 7.526e-05,
	"loss": 1.0181,
	"step": 58
	},
	{
	"epoch": 0.006162845354363608,
	"grad_norm": 0.6706631183624268,
	"learning_rate": 7.473e-05,
	"loss": 0.9697,
	"step": 59
	},
	{
	"epoch": 0.0062673003603697704,
	"grad_norm": 0.6528756022453308,
	"learning_rate": 7.419999999999999e-05,
	"loss": 0.9479,
	"step": 60
	},
	{
	"epoch": 0.006371755366375934,
	"grad_norm": 0.7368625998497009,
	"learning_rate": 7.367e-05,
	"loss": 0.9429,
	"step": 61
	},
	{
	"epoch": 0.006476210372382096,
	"grad_norm": 0.7886870503425598,
	"learning_rate": 7.314e-05,
	"loss": 1.0517,
	"step": 62
	},
	{
	"epoch": 0.006580665378388259,
	"grad_norm": 0.7552511692047119,
	"learning_rate": 7.261e-05,
	"loss": 0.997,
	"step": 63
	},
	{
	"epoch": 0.006685120384394422,
	"grad_norm": 0.7769532799720764,
	"learning_rate": 7.208e-05,
	"loss": 0.9554,
	"step": 64
	},
	{
	"epoch": 0.006789575390400585,
	"grad_norm": 0.8453531265258789,
	"learning_rate": 7.154999999999999e-05,
	"loss": 1.0108,
	"step": 65
	},
	{
	"epoch": 0.0068940303964067475,
	"grad_norm": 0.8387408256530762,
	"learning_rate": 7.102e-05,
	"loss": 0.9538,
	"step": 66
	},
	{
	"epoch": 0.006998485402412911,
	"grad_norm": 0.8454548120498657,
	"learning_rate": 7.049e-05,
	"loss": 0.9305,
	"step": 67
	},
	{
	"epoch": 0.007102940408419073,
	"grad_norm": 0.9299591779708862,
	"learning_rate": 6.996e-05,
	"loss": 1.1564,
	"step": 68
	},
	{
	"epoch": 0.0072073954144252364,
	"grad_norm": 0.863427460193634,
	"learning_rate": 6.943e-05,
	"loss": 0.9635,
	"step": 69
	},
	{
	"epoch": 0.007311850420431399,
	"grad_norm": 0.9572794437408447,
	"learning_rate": 6.89e-05,
	"loss": 1.1278,
	"step": 70
	},
	{
	"epoch": 0.007416305426437562,
	"grad_norm": 0.9274687767028809,
	"learning_rate": 6.837e-05,
	"loss": 1.0153,
	"step": 71
	},
	{
	"epoch": 0.0075207604324437245,
	"grad_norm": 0.8995688557624817,
	"learning_rate": 6.784e-05,
	"loss": 1.0095,
	"step": 72
	},
	{
	"epoch": 0.007625215438449888,
	"grad_norm": 0.9216225743293762,
	"learning_rate": 6.730999999999999e-05,
	"loss": 1.004,
	"step": 73
	},
	{
	"epoch": 0.00772967044445605,
	"grad_norm": 0.8909146785736084,
	"learning_rate": 6.678e-05,
	"loss": 0.9789,
	"step": 74
	},
	{
	"epoch": 0.007834125450462213,
	"grad_norm": 0.8936184048652649,
	"learning_rate": 6.625e-05,
	"loss": 0.9622,
	"step": 75
	},
	{
	"epoch": 0.007938580456468376,
	"grad_norm": 0.9004867672920227,
	"learning_rate": 6.572e-05,
	"loss": 0.9201,
	"step": 76
	},
	{
	"epoch": 0.008043035462474538,
	"grad_norm": 1.025423288345337,
	"learning_rate": 6.519e-05,
	"loss": 1.1964,
	"step": 77
	},
	{
	"epoch": 0.008147490468480702,
	"grad_norm": 1.002456784248352,
	"learning_rate": 6.466e-05,
	"loss": 1.1274,
	"step": 78
	},
	{
	"epoch": 0.008251945474486865,
	"grad_norm": 0.967106819152832,
	"learning_rate": 6.413e-05,
	"loss": 0.9247,
	"step": 79
	},
	{
	"epoch": 0.008356400480493027,
	"grad_norm": 1.0033572912216187,
	"learning_rate": 6.359999999999999e-05,
	"loss": 1.0381,
	"step": 80
	},
	{
	"epoch": 0.00846085548649919,
	"grad_norm": 0.9540228843688965,
	"learning_rate": 6.306999999999999e-05,
	"loss": 0.8963,
	"step": 81
	},
	{
	"epoch": 0.008565310492505354,
	"grad_norm": 1.1677919626235962,
	"learning_rate": 6.254000000000001e-05,
	"loss": 1.1372,
	"step": 82
	},
	{
	"epoch": 0.008669765498511516,
	"grad_norm": 1.0950039625167847,
	"learning_rate": 6.201e-05,
	"loss": 1.052,
	"step": 83
	},
	{
	"epoch": 0.008774220504517679,
	"grad_norm": 1.028153657913208,
	"learning_rate": 6.148e-05,
	"loss": 0.9451,
	"step": 84
	},
	{
	"epoch": 0.008878675510523841,
	"grad_norm": 1.1274486780166626,
	"learning_rate": 6.095e-05,
	"loss": 1.0042,
	"step": 85
	},
	{
	"epoch": 0.008983130516530005,
	"grad_norm": 1.1423695087432861,
	"learning_rate": 6.0419999999999994e-05,
	"loss": 1.094,
	"step": 86
	},
	{
	"epoch": 0.009087585522536168,
	"grad_norm": 1.1429065465927124,
	"learning_rate": 5.988999999999999e-05,
	"loss": 0.9644,
	"step": 87
	},
	{
	"epoch": 0.00919204052854233,
	"grad_norm": 1.2021771669387817,
	"learning_rate": 5.9359999999999994e-05,
	"loss": 1.1807,
	"step": 88
	},
	{
	"epoch": 0.009296495534548492,
	"grad_norm": 1.1174052953720093,
	"learning_rate": 5.8830000000000004e-05,
	"loss": 1.029,
	"step": 89
	},
	{
	"epoch": 0.009400950540554657,
	"grad_norm": 1.2131744623184204,
	"learning_rate": 5.83e-05,
	"loss": 1.2473,
	"step": 90
	},
	{
	"epoch": 0.009505405546560819,
	"grad_norm": 1.1659351587295532,
	"learning_rate": 5.777e-05,
	"loss": 1.1075,
	"step": 91
	},
	{
	"epoch": 0.009609860552566981,
	"grad_norm": 1.155617594718933,
	"learning_rate": 5.7239999999999994e-05,
	"loss": 0.9338,
	"step": 92
	},
	{
	"epoch": 0.009714315558573145,
	"grad_norm": 1.1732633113861084,
	"learning_rate": 5.671e-05,
	"loss": 1.1125,
	"step": 93
	},
	{
	"epoch": 0.009818770564579308,
	"grad_norm": 1.1406437158584595,
	"learning_rate": 5.6179999999999994e-05,
	"loss": 1.0323,
	"step": 94
	},
	{
	"epoch": 0.00992322557058547,
	"grad_norm": 1.25766122341156,
	"learning_rate": 5.5650000000000004e-05,
	"loss": 1.153,
	"step": 95
	},
	{
	"epoch": 0.010027680576591633,
	"grad_norm": 1.3154778480529785,
	"learning_rate": 5.512e-05,
	"loss": 1.1242,
	"step": 96
	},
	{
	"epoch": 0.010132135582597797,
	"grad_norm": 1.355385184288025,
	"learning_rate": 5.459e-05,
	"loss": 1.1835,
	"step": 97
	},
	{
	"epoch": 0.01023659058860396,
	"grad_norm": 1.3438916206359863,
	"learning_rate": 5.406e-05,
	"loss": 1.0795,
	"step": 98
	},
	{
	"epoch": 0.010341045594610122,
	"grad_norm": 1.2769006490707397,
	"learning_rate": 5.353e-05,
	"loss": 0.9322,
	"step": 99
	},
	{
	"epoch": 0.010445500600616284,
	"grad_norm": 1.896607518196106,
	"learning_rate": 5.2999999999999994e-05,
	"loss": 1.1321,
	"step": 100
	},
	{
	"epoch": 0.010445500600616284,
	"eval_loss": 1.0444438457489014,
	"eval_runtime": 118.2357,
	"eval_samples_per_second": 34.093,
	"eval_steps_per_second": 8.525,
	"step": 100
	},
	{
	"epoch": 0.010549955606622448,
	"grad_norm": 0.6772998571395874,
	"learning_rate": 5.246999999999999e-05,
	"loss": 0.8867,
	"step": 101
	},
	{
	"epoch": 0.01065441061262861,
	"grad_norm": 0.6309265494346619,
	"learning_rate": 5.194e-05,
	"loss": 0.9269,
	"step": 102
	},
	{
	"epoch": 0.010758865618634773,
	"grad_norm": 0.6723343729972839,
	"learning_rate": 5.141e-05,
	"loss": 0.9639,
	"step": 103
	},
	{
	"epoch": 0.010863320624640935,
	"grad_norm": 0.6599306464195251,
	"learning_rate": 5.088e-05,
	"loss": 0.9483,
	"step": 104
	},
	{
	"epoch": 0.0109677756306471,
	"grad_norm": 0.5985355973243713,
	"learning_rate": 5.035e-05,
	"loss": 0.9826,
	"step": 105
	},
	{
	"epoch": 0.011072230636653262,
	"grad_norm": 0.6056426763534546,
	"learning_rate": 4.9819999999999994e-05,
	"loss": 0.87,
	"step": 106
	},
	{
	"epoch": 0.011176685642659424,
	"grad_norm": 0.6577640771865845,
	"learning_rate": 4.929e-05,
	"loss": 0.8896,
	"step": 107
	},
	{
	"epoch": 0.011281140648665587,
	"grad_norm": 0.6197834014892578,
	"learning_rate": 4.876e-05,
	"loss": 0.9857,
	"step": 108
	},
	{
	"epoch": 0.011385595654671751,
	"grad_norm": 0.6561485528945923,
	"learning_rate": 4.823e-05,
	"loss": 1.0036,
	"step": 109
	},
	{
	"epoch": 0.011490050660677913,
	"grad_norm": 0.6277485489845276,
	"learning_rate": 4.7699999999999994e-05,
	"loss": 0.9196,
	"step": 110
	},
	{
	"epoch": 0.011594505666684076,
	"grad_norm": 0.6193849444389343,
	"learning_rate": 4.717e-05,
	"loss": 0.8803,
	"step": 111
	},
	{
	"epoch": 0.011698960672690238,
	"grad_norm": 0.64503014087677,
	"learning_rate": 4.6639999999999994e-05,
	"loss": 1.0019,
	"step": 112
	},
	{
	"epoch": 0.011803415678696402,
	"grad_norm": 0.686529278755188,
	"learning_rate": 4.611e-05,
	"loss": 0.9412,
	"step": 113
	},
	{
	"epoch": 0.011907870684702565,
	"grad_norm": 0.7062692642211914,
	"learning_rate": 4.558e-05,
	"loss": 1.0139,
	"step": 114
	},
	{
	"epoch": 0.012012325690708727,
	"grad_norm": 0.7408269643783569,
	"learning_rate": 4.505e-05,
	"loss": 0.9398,
	"step": 115
	},
	{
	"epoch": 0.01211678069671489,
	"grad_norm": 0.8046457767486572,
	"learning_rate": 4.4519999999999994e-05,
	"loss": 1.0817,
	"step": 116
	},
	{
	"epoch": 0.012221235702721054,
	"grad_norm": 0.8560929894447327,
	"learning_rate": 4.399e-05,
	"loss": 0.9393,
	"step": 117
	},
	{
	"epoch": 0.012325690708727216,
	"grad_norm": 0.8270806074142456,
	"learning_rate": 4.346e-05,
	"loss": 1.029,
	"step": 118
	},
	{
	"epoch": 0.012430145714733378,
	"grad_norm": 0.8439892530441284,
	"learning_rate": 4.293e-05,
	"loss": 1.0061,
	"step": 119
	},
	{
	"epoch": 0.012534600720739541,
	"grad_norm": 0.9163686037063599,
	"learning_rate": 4.2399999999999994e-05,
	"loss": 1.1759,
	"step": 120
	},
	{
	"epoch": 0.012639055726745705,
	"grad_norm": 0.9552029371261597,
	"learning_rate": 4.187e-05,
	"loss": 0.9827,
	"step": 121
	},
	{
	"epoch": 0.012743510732751867,
	"grad_norm": 0.9216101169586182,
	"learning_rate": 4.134e-05,
	"loss": 1.0798,
	"step": 122
	},
	{
	"epoch": 0.01284796573875803,
	"grad_norm": 0.9589611887931824,
	"learning_rate": 4.081e-05,
	"loss": 1.077,
	"step": 123
	},
	{
	"epoch": 0.012952420744764192,
	"grad_norm": 0.9211677312850952,
	"learning_rate": 4.028e-05,
	"loss": 1.0484,
	"step": 124
	},
	{
	"epoch": 0.013056875750770356,
	"grad_norm": 0.8966543078422546,
	"learning_rate": 3.975e-05,
	"loss": 0.9896,
	"step": 125
	},
	{
	"epoch": 0.013161330756776519,
	"grad_norm": 0.9282961487770081,
	"learning_rate": 3.9219999999999994e-05,
	"loss": 1.0094,
	"step": 126
	},
	{
	"epoch": 0.013265785762782681,
	"grad_norm": 1.004485011100769,
	"learning_rate": 3.869e-05,
	"loss": 1.1737,
	"step": 127
	},
	{
	"epoch": 0.013370240768788844,
	"grad_norm": 0.9591395854949951,
	"learning_rate": 3.816e-05,
	"loss": 1.0858,
	"step": 128
	},
	{
	"epoch": 0.013474695774795008,
	"grad_norm": 0.9005763530731201,
	"learning_rate": 3.763e-05,
	"loss": 1.0078,
	"step": 129
	},
	{
	"epoch": 0.01357915078080117,
	"grad_norm": 0.9479995965957642,
	"learning_rate": 3.7099999999999994e-05,
	"loss": 1.0498,
	"step": 130
	},
	{
	"epoch": 0.013683605786807333,
	"grad_norm": 1.0200867652893066,
	"learning_rate": 3.657e-05,
	"loss": 1.0824,
	"step": 131
	},
	{
	"epoch": 0.013788060792813495,
	"grad_norm": 0.9186935424804688,
	"learning_rate": 3.604e-05,
	"loss": 0.9936,
	"step": 132
	},
	{
	"epoch": 0.013892515798819659,
	"grad_norm": 0.9905325770378113,
	"learning_rate": 3.551e-05,
	"loss": 1.0225,
	"step": 133
	},
	{
	"epoch": 0.013996970804825822,
	"grad_norm": 1.0167120695114136,
	"learning_rate": 3.498e-05,
	"loss": 1.1188,
	"step": 134
	},
	{
	"epoch": 0.014101425810831984,
	"grad_norm": 0.9497846961021423,
	"learning_rate": 3.445e-05,
	"loss": 0.9271,
	"step": 135
	},
	{
	"epoch": 0.014205880816838146,
	"grad_norm": 1.0277209281921387,
	"learning_rate": 3.392e-05,
	"loss": 1.0421,
	"step": 136
	},
	{
	"epoch": 0.01431033582284431,
	"grad_norm": 0.9843363761901855,
	"learning_rate": 3.339e-05,
	"loss": 0.982,
	"step": 137
	},
	{
	"epoch": 0.014414790828850473,
	"grad_norm": 1.0494071245193481,
	"learning_rate": 3.286e-05,
	"loss": 0.9804,
	"step": 138
	},
	{
	"epoch": 0.014519245834856635,
	"grad_norm": 1.0694974660873413,
	"learning_rate": 3.233e-05,
	"loss": 0.9624,
	"step": 139
	},
	{
	"epoch": 0.014623700840862798,
	"grad_norm": 1.0880765914916992,
	"learning_rate": 3.1799999999999994e-05,
	"loss": 0.9901,
	"step": 140
	},
	{
	"epoch": 0.014728155846868962,
	"grad_norm": 1.053983211517334,
	"learning_rate": 3.1270000000000004e-05,
	"loss": 0.9555,
	"step": 141
	},
	{
	"epoch": 0.014832610852875124,
	"grad_norm": 1.0926487445831299,
	"learning_rate": 3.074e-05,
	"loss": 1.03,
	"step": 142
	},
	{
	"epoch": 0.014937065858881287,
	"grad_norm": 1.1903960704803467,
	"learning_rate": 3.0209999999999997e-05,
	"loss": 1.0765,
	"step": 143
	},
	{
	"epoch": 0.015041520864887449,
	"grad_norm": 1.2311145067214966,
	"learning_rate": 2.9679999999999997e-05,
	"loss": 1.0678,
	"step": 144
	},
	{
	"epoch": 0.015145975870893613,
	"grad_norm": 1.1940836906433105,
	"learning_rate": 2.915e-05,
	"loss": 1.0461,
	"step": 145
	},
	{
	"epoch": 0.015250430876899776,
	"grad_norm": 1.228232979774475,
	"learning_rate": 2.8619999999999997e-05,
	"loss": 0.9819,
	"step": 146
	},
	{
	"epoch": 0.015354885882905938,
	"grad_norm": 1.2038990259170532,
	"learning_rate": 2.8089999999999997e-05,
	"loss": 0.9445,
	"step": 147
	},
	{
	"epoch": 0.0154593408889121,
	"grad_norm": 1.2821253538131714,
	"learning_rate": 2.756e-05,
	"loss": 1.1162,
	"step": 148
	},
	{
	"epoch": 0.015563795894918265,
	"grad_norm": 1.437116265296936,
	"learning_rate": 2.703e-05,
	"loss": 1.0603,
	"step": 149
	},
	{
	"epoch": 0.015668250900924427,
	"grad_norm": 1.6678568124771118,
	"learning_rate": 2.6499999999999997e-05,
	"loss": 1.0682,
	"step": 150
	},
	{
	"epoch": 0.015668250900924427,
	"eval_loss": 0.9961364269256592,
	"eval_runtime": 118.6077,
	"eval_samples_per_second": 33.986,
	"eval_steps_per_second": 8.499,
	"step": 150
	},
	{
	"epoch": 0.01577270590693059,
	"grad_norm": 0.5151348114013672,
	"learning_rate": 2.597e-05,
	"loss": 0.7635,
	"step": 151
	},
	{
	"epoch": 0.015877160912936752,
	"grad_norm": 0.5203879475593567,
	"learning_rate": 2.544e-05,
	"loss": 0.7112,
	"step": 152
	},
	{
	"epoch": 0.015981615918942916,
	"grad_norm": 0.5102455019950867,
	"learning_rate": 2.4909999999999997e-05,
	"loss": 0.8134,
	"step": 153
	},
	{
	"epoch": 0.016086070924949077,
	"grad_norm": 0.5462666153907776,
	"learning_rate": 2.438e-05,
	"loss": 0.925,
	"step": 154
	},
	{
	"epoch": 0.01619052593095524,
	"grad_norm": 0.5957190990447998,
	"learning_rate": 2.3849999999999997e-05,
	"loss": 0.9079,
	"step": 155
	},
	{
	"epoch": 0.016294980936961405,
	"grad_norm": 0.6015512347221375,
	"learning_rate": 2.3319999999999997e-05,
	"loss": 0.9956,
	"step": 156
	},
	{
	"epoch": 0.016399435942967566,
	"grad_norm": 0.5997916460037231,
	"learning_rate": 2.279e-05,
	"loss": 0.9413,
	"step": 157
	},
	{
	"epoch": 0.01650389094897373,
	"grad_norm": 0.5999729037284851,
	"learning_rate": 2.2259999999999997e-05,
	"loss": 0.8335,
	"step": 158
	},
	{
	"epoch": 0.016608345954979894,
	"grad_norm": 0.6232542991638184,
	"learning_rate": 2.173e-05,
	"loss": 0.9134,
	"step": 159
	},
	{
	"epoch": 0.016712800960986054,
	"grad_norm": 0.607313334941864,
	"learning_rate": 2.1199999999999997e-05,
	"loss": 0.874,
	"step": 160
	},
	{
	"epoch": 0.01681725596699222,
	"grad_norm": 0.6412212252616882,
	"learning_rate": 2.067e-05,
	"loss": 0.9721,
	"step": 161
	},
	{
	"epoch": 0.01692171097299838,
	"grad_norm": 0.650705099105835,
	"learning_rate": 2.014e-05,
	"loss": 0.9523,
	"step": 162
	},
	{
	"epoch": 0.017026165979004543,
	"grad_norm": 0.6729899644851685,
	"learning_rate": 1.9609999999999997e-05,
	"loss": 0.9684,
	"step": 163
	},
	{
	"epoch": 0.017130620985010708,
	"grad_norm": 0.6449539065361023,
	"learning_rate": 1.908e-05,
	"loss": 0.808,
	"step": 164
	},
	{
	"epoch": 0.01723507599101687,
	"grad_norm": 0.6991842985153198,
	"learning_rate": 1.8549999999999997e-05,
	"loss": 0.9929,
	"step": 165
	},
	{
	"epoch": 0.017339530997023032,
	"grad_norm": 0.7484295964241028,
	"learning_rate": 1.802e-05,
	"loss": 0.9746,
	"step": 166
	},
	{
	"epoch": 0.017443986003029197,
	"grad_norm": 0.7161227464675903,
	"learning_rate": 1.749e-05,
	"loss": 0.9454,
	"step": 167
	},
	{
	"epoch": 0.017548441009035357,
	"grad_norm": 0.7815462946891785,
	"learning_rate": 1.696e-05,
	"loss": 1.0301,
	"step": 168
	},
	{
	"epoch": 0.01765289601504152,
	"grad_norm": 0.8647356033325195,
	"learning_rate": 1.643e-05,
	"loss": 1.0621,
	"step": 169
	},
	{
	"epoch": 0.017757351021047682,
	"grad_norm": 0.9504815340042114,
	"learning_rate": 1.5899999999999997e-05,
	"loss": 1.0426,
	"step": 170
	},
	{
	"epoch": 0.017861806027053846,
	"grad_norm": 0.8482909202575684,
	"learning_rate": 1.537e-05,
	"loss": 0.9898,
	"step": 171
	},
	{
	"epoch": 0.01796626103306001,
	"grad_norm": 0.8360997438430786,
	"learning_rate": 1.4839999999999999e-05,
	"loss": 0.9783,
	"step": 172
	},
	{
	"epoch": 0.01807071603906617,
	"grad_norm": 0.9085504412651062,
	"learning_rate": 1.4309999999999999e-05,
	"loss": 0.9865,
	"step": 173
	},
	{
	"epoch": 0.018175171045072335,
	"grad_norm": 0.8988630771636963,
	"learning_rate": 1.378e-05,
	"loss": 1.0591,
	"step": 174
	},
	{
	"epoch": 0.0182796260510785,
	"grad_norm": 0.8486796617507935,
	"learning_rate": 1.3249999999999999e-05,
	"loss": 0.9894,
	"step": 175
	},
	{
	"epoch": 0.01838408105708466,
	"grad_norm": 0.8764381408691406,
	"learning_rate": 1.272e-05,
	"loss": 0.9253,
	"step": 176
	},
	{
	"epoch": 0.018488536063090824,
	"grad_norm": 0.9448692798614502,
	"learning_rate": 1.219e-05,
	"loss": 1.0425,
	"step": 177
	},
	{
	"epoch": 0.018592991069096985,
	"grad_norm": 0.9180240631103516,
	"learning_rate": 1.1659999999999998e-05,
	"loss": 0.9328,
	"step": 178
	},
	{
	"epoch": 0.01869744607510315,
	"grad_norm": 0.9340706467628479,
	"learning_rate": 1.1129999999999998e-05,
	"loss": 1.0015,
	"step": 179
	},
	{
	"epoch": 0.018801901081109313,
	"grad_norm": 0.8770861029624939,
	"learning_rate": 1.0599999999999998e-05,
	"loss": 0.9812,
	"step": 180
	},
	{
	"epoch": 0.018906356087115474,
	"grad_norm": 0.9975367188453674,
	"learning_rate": 1.007e-05,
	"loss": 1.0984,
	"step": 181
	},
	{
	"epoch": 0.019010811093121638,
	"grad_norm": 0.9696022868156433,
	"learning_rate": 9.54e-06,
	"loss": 0.9888,
	"step": 182
	},
	{
	"epoch": 0.019115266099127802,
	"grad_norm": 0.8801543116569519,
	"learning_rate": 9.01e-06,
	"loss": 0.8672,
	"step": 183
	},
	{
	"epoch": 0.019219721105133963,
	"grad_norm": 0.9794437885284424,
	"learning_rate": 8.48e-06,
	"loss": 1.0545,
	"step": 184
	},
	{
	"epoch": 0.019324176111140127,
	"grad_norm": 0.9684680700302124,
	"learning_rate": 7.949999999999998e-06,
	"loss": 0.9275,
	"step": 185
	},
	{
	"epoch": 0.01942863111714629,
	"grad_norm": 0.956508219242096,
	"learning_rate": 7.419999999999999e-06,
	"loss": 0.9679,
	"step": 186
	},
	{
	"epoch": 0.01953308612315245,
	"grad_norm": 1.0241084098815918,
	"learning_rate": 6.89e-06,
	"loss": 1.0333,
	"step": 187
	},
	{
	"epoch": 0.019637541129158616,
	"grad_norm": 1.13876211643219,
	"learning_rate": 6.36e-06,
	"loss": 1.189,
	"step": 188
	},
	{
	"epoch": 0.019741996135164776,
	"grad_norm": 1.0502783060073853,
	"learning_rate": 5.829999999999999e-06,
	"loss": 1.0062,
	"step": 189
	},
	{
	"epoch": 0.01984645114117094,
	"grad_norm": 1.0701584815979004,
	"learning_rate": 5.299999999999999e-06,
	"loss": 0.9934,
	"step": 190
	},
	{
	"epoch": 0.019950906147177105,
	"grad_norm": 1.1496695280075073,
	"learning_rate": 4.77e-06,
	"loss": 1.0933,
	"step": 191
	},
	{
	"epoch": 0.020055361153183265,
	"grad_norm": 1.1266313791275024,
	"learning_rate": 4.24e-06,
	"loss": 1.0909,
	"step": 192
	},
	{
	"epoch": 0.02015981615918943,
	"grad_norm": 1.1178048849105835,
	"learning_rate": 3.7099999999999996e-06,
	"loss": 0.9263,
	"step": 193
	},
	{
	"epoch": 0.020264271165195594,
	"grad_norm": 1.1649036407470703,
	"learning_rate": 3.18e-06,
	"loss": 1.0362,
	"step": 194
	},
	{
	"epoch": 0.020368726171201754,
	"grad_norm": 1.1672587394714355,
	"learning_rate": 2.6499999999999996e-06,
	"loss": 1.0083,
	"step": 195
	},
	{
	"epoch": 0.02047318117720792,
	"grad_norm": 1.1676815748214722,
	"learning_rate": 2.12e-06,
	"loss": 0.9924,
	"step": 196
	},
	{
	"epoch": 0.02057763618321408,
	"grad_norm": 1.3110767602920532,
	"learning_rate": 1.59e-06,
	"loss": 0.9344,
	"step": 197
	},
	{
	"epoch": 0.020682091189220243,
	"grad_norm": 1.4102957248687744,
	"learning_rate": 1.06e-06,
	"loss": 1.1094,
	"step": 198
	},
	{
	"epoch": 0.020786546195226407,
	"grad_norm": 1.5473552942276,
	"learning_rate": 5.3e-07,
	"loss": 1.0472,
	"step": 199
	},
	{
	"epoch": 0.020891001201232568,
	"grad_norm": 2.232775926589966,
	"learning_rate": 0.0,
	"loss": 1.3862,
	"step": 200
	},
	{
	"epoch": 0.020891001201232568,
	"eval_loss": 0.9818174242973328,
	"eval_runtime": 118.3422,
	"eval_samples_per_second": 34.062,
	"eval_steps_per_second": 8.518,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.06657392623616e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}