Training in progress, step 600, checkpoint

3ebb3c0 verified 7 days ago

12.5 kB

	{
	"best_metric": 0.4729672074317932,
	"best_model_checkpoint": "miner_id_24/checkpoint-600",
	"epoch": 0.05658242172764994,
	"eval_steps": 150,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 9.43040362127499e-05,
	"eval_loss": 0.9546859264373779,
	"eval_runtime": 92.7204,
	"eval_samples_per_second": 24.083,
	"eval_steps_per_second": 6.029,
	"step": 1
	},
	{
	"epoch": 0.000943040362127499,
	"grad_norm": 0.9397637248039246,
	"learning_rate": 7.333333333333333e-06,
	"loss": 1.0657,
	"step": 10
	},
	{
	"epoch": 0.001886080724254998,
	"grad_norm": 0.9389505982398987,
	"learning_rate": 1.4666666666666666e-05,
	"loss": 0.9028,
	"step": 20
	},
	{
	"epoch": 0.002829121086382497,
	"grad_norm": 1.1130671501159668,
	"learning_rate": 2.2e-05,
	"loss": 0.8773,
	"step": 30
	},
	{
	"epoch": 0.003772161448509996,
	"grad_norm": 1.175963282585144,
	"learning_rate": 2.9333333333333333e-05,
	"loss": 0.8419,
	"step": 40
	},
	{
	"epoch": 0.004715201810637495,
	"grad_norm": 1.3391618728637695,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.722,
	"step": 50
	},
	{
	"epoch": 0.005658242172764994,
	"grad_norm": 0.8508893251419067,
	"learning_rate": 4.4e-05,
	"loss": 0.6673,
	"step": 60
	},
	{
	"epoch": 0.006601282534892493,
	"grad_norm": 0.9721490144729614,
	"learning_rate": 4.39627794819679e-05,
	"loss": 0.6406,
	"step": 70
	},
	{
	"epoch": 0.007544322897019992,
	"grad_norm": 1.2315011024475098,
	"learning_rate": 4.3851243870322744e-05,
	"loss": 0.6032,
	"step": 80
	},
	{
	"epoch": 0.008487363259147491,
	"grad_norm": 1.0548521280288696,
	"learning_rate": 4.366577056626858e-05,
	"loss": 0.6413,
	"step": 90
	},
	{
	"epoch": 0.00943040362127499,
	"grad_norm": 0.9409500956535339,
	"learning_rate": 4.340698715275612e-05,
	"loss": 0.6007,
	"step": 100
	},
	{
	"epoch": 0.01037344398340249,
	"grad_norm": 1.5821508169174194,
	"learning_rate": 4.3075769270940754e-05,
	"loss": 0.5532,
	"step": 110
	},
	{
	"epoch": 0.011316484345529988,
	"grad_norm": 1.399810552597046,
	"learning_rate": 4.267323765728998e-05,
	"loss": 0.6105,
	"step": 120
	},
	{
	"epoch": 0.012259524707657487,
	"grad_norm": 1.087052583694458,
	"learning_rate": 4.220075435136603e-05,
	"loss": 0.6174,
	"step": 130
	},
	{
	"epoch": 0.013202565069784986,
	"grad_norm": 1.5819586515426636,
	"learning_rate": 4.165991808711507e-05,
	"loss": 0.5532,
	"step": 140
	},
	{
	"epoch": 0.014145605431912485,
	"grad_norm": 0.8601478338241577,
	"learning_rate": 4.105255888325765e-05,
	"loss": 0.5277,
	"step": 150
	},
	{
	"epoch": 0.014145605431912485,
	"eval_loss": 0.5393942594528198,
	"eval_runtime": 93.5873,
	"eval_samples_per_second": 23.86,
	"eval_steps_per_second": 5.973,
	"step": 150
	},
	{
	"epoch": 0.015088645794039984,
	"grad_norm": 1.0490013360977173,
	"learning_rate": 4.03807318510846e-05,
	"loss": 0.527,
	"step": 160
	},
	{
	"epoch": 0.016031686156167485,
	"grad_norm": 1.1231379508972168,
	"learning_rate": 3.9646710240610966e-05,
	"loss": 0.5501,
	"step": 170
	},
	{
	"epoch": 0.016974726518294982,
	"grad_norm": 1.4164365530014038,
	"learning_rate": 3.885297774861751e-05,
	"loss": 0.5653,
	"step": 180
	},
	{
	"epoch": 0.017917766880422483,
	"grad_norm": 1.2814961671829224,
	"learning_rate": 3.800222011460707e-05,
	"loss": 0.5362,
	"step": 190
	},
	{
	"epoch": 0.01886080724254998,
	"grad_norm": 1.0821915864944458,
	"learning_rate": 3.709731603311214e-05,
	"loss": 0.4797,
	"step": 200
	},
	{
	"epoch": 0.01980384760467748,
	"grad_norm": 2.1310160160064697,
	"learning_rate": 3.614132741310386e-05,
	"loss": 0.4864,
	"step": 210
	},
	{
	"epoch": 0.02074688796680498,
	"grad_norm": 1.0708684921264648,
	"learning_rate": 3.5137489017461296e-05,
	"loss": 0.5207,
	"step": 220
	},
	{
	"epoch": 0.02168992832893248,
	"grad_norm": 1.3040435314178467,
	"learning_rate": 3.4089197517557735e-05,
	"loss": 0.5583,
	"step": 230
	},
	{
	"epoch": 0.022632968691059976,
	"grad_norm": 1.337860107421875,
	"learning_rate": 3.3e-05,
	"loss": 0.5339,
	"step": 240
	},
	{
	"epoch": 0.023576009053187477,
	"grad_norm": 1.037545919418335,
	"learning_rate": 3.187358196441017e-05,
	"loss": 0.5466,
	"step": 250
	},
	{
	"epoch": 0.024519049415314974,
	"grad_norm": 0.8419134616851807,
	"learning_rate": 3.071375485286145e-05,
	"loss": 0.4922,
	"step": 260
	},
	{
	"epoch": 0.025462089777442475,
	"grad_norm": 1.230167269706726,
	"learning_rate": 2.9524443153164715e-05,
	"loss": 0.5098,
	"step": 270
	},
	{
	"epoch": 0.026405130139569973,
	"grad_norm": 1.1250079870224,
	"learning_rate": 2.8309671119643985e-05,
	"loss": 0.5077,
	"step": 280
	},
	{
	"epoch": 0.027348170501697473,
	"grad_norm": 0.918197512626648,
	"learning_rate": 2.7073549156333684e-05,
	"loss": 0.4052,
	"step": 290
	},
	{
	"epoch": 0.02829121086382497,
	"grad_norm": 1.6295733451843262,
	"learning_rate": 2.5820259908672472e-05,
	"loss": 0.5295,
	"step": 300
	},
	{
	"epoch": 0.02829121086382497,
	"eval_loss": 0.49462634325027466,
	"eval_runtime": 93.6546,
	"eval_samples_per_second": 23.843,
	"eval_steps_per_second": 5.969,
	"step": 300
	},
	{
	"epoch": 0.02923425122595247,
	"grad_norm": 1.1752290725708008,
	"learning_rate": 2.4554044110755066e-05,
	"loss": 0.5023,
	"step": 310
	},
	{
	"epoch": 0.03017729158807997,
	"grad_norm": 1.613908290863037,
	"learning_rate": 2.3279186236030468e-05,
	"loss": 0.452,
	"step": 320
	},
	{
	"epoch": 0.03112033195020747,
	"grad_norm": 1.15360426902771,
	"learning_rate": 2.2e-05,
	"loss": 0.4926,
	"step": 330
	},
	{
	"epoch": 0.03206337231233497,
	"grad_norm": 0.985500693321228,
	"learning_rate": 2.072081376396953e-05,
	"loss": 0.5447,
	"step": 340
	},
	{
	"epoch": 0.033006412674462464,
	"grad_norm": 0.9483439922332764,
	"learning_rate": 1.9445955889244933e-05,
	"loss": 0.5562,
	"step": 350
	},
	{
	"epoch": 0.033949453036589965,
	"grad_norm": 1.3792706727981567,
	"learning_rate": 1.8179740091327534e-05,
	"loss": 0.5402,
	"step": 360
	},
	{
	"epoch": 0.034892493398717465,
	"grad_norm": 0.8846226334571838,
	"learning_rate": 1.6926450843666314e-05,
	"loss": 0.5073,
	"step": 370
	},
	{
	"epoch": 0.035835533760844966,
	"grad_norm": 1.1274725198745728,
	"learning_rate": 1.569032888035602e-05,
	"loss": 0.4089,
	"step": 380
	},
	{
	"epoch": 0.03677857412297246,
	"grad_norm": 1.4087094068527222,
	"learning_rate": 1.447555684683529e-05,
	"loss": 0.5137,
	"step": 390
	},
	{
	"epoch": 0.03772161448509996,
	"grad_norm": 1.4227954149246216,
	"learning_rate": 1.3286245147138549e-05,
	"loss": 0.4764,
	"step": 400
	},
	{
	"epoch": 0.03866465484722746,
	"grad_norm": 1.189937710762024,
	"learning_rate": 1.2126418035589831e-05,
	"loss": 0.4483,
	"step": 410
	},
	{
	"epoch": 0.03960769520935496,
	"grad_norm": 1.5125129222869873,
	"learning_rate": 1.1000000000000005e-05,
	"loss": 0.3932,
	"step": 420
	},
	{
	"epoch": 0.040550735571482456,
	"grad_norm": 1.0411937236785889,
	"learning_rate": 9.910802482442268e-06,
	"loss": 0.47,
	"step": 430
	},
	{
	"epoch": 0.04149377593360996,
	"grad_norm": 2.2022852897644043,
	"learning_rate": 8.86251098253871e-06,
	"loss": 0.5126,
	"step": 440
	},
	{
	"epoch": 0.04243681629573746,
	"grad_norm": 1.1059151887893677,
	"learning_rate": 7.858672586896134e-06,
	"loss": 0.4136,
	"step": 450
	},
	{
	"epoch": 0.04243681629573746,
	"eval_loss": 0.4766067862510681,
	"eval_runtime": 93.545,
	"eval_samples_per_second": 23.871,
	"eval_steps_per_second": 5.976,
	"step": 450
	},
	{
	"epoch": 0.04337985665786496,
	"grad_norm": 1.4336448907852173,
	"learning_rate": 6.902683966887863e-06,
	"loss": 0.4743,
	"step": 460
	},
	{
	"epoch": 0.04432289701999246,
	"grad_norm": 1.0714585781097412,
	"learning_rate": 5.997779885392928e-06,
	"loss": 0.4757,
	"step": 470
	},
	{
	"epoch": 0.04526593738211995,
	"grad_norm": 1.258355975151062,
	"learning_rate": 5.147022251382486e-06,
	"loss": 0.4376,
	"step": 480
	},
	{
	"epoch": 0.046208977744247454,
	"grad_norm": 0.9438008666038513,
	"learning_rate": 4.3532897593890356e-06,
	"loss": 0.483,
	"step": 490
	},
	{
	"epoch": 0.047152018106374954,
	"grad_norm": 1.3534599542617798,
	"learning_rate": 3.619268148915402e-06,
	"loss": 0.4502,
	"step": 500
	},
	{
	"epoch": 0.048095058468502455,
	"grad_norm": 1.6557931900024414,
	"learning_rate": 2.947441116742348e-06,
	"loss": 0.5207,
	"step": 510
	},
	{
	"epoch": 0.04903809883062995,
	"grad_norm": 1.548148512840271,
	"learning_rate": 2.3400819128849325e-06,
	"loss": 0.4162,
	"step": 520
	},
	{
	"epoch": 0.04998113919275745,
	"grad_norm": 1.4258723258972168,
	"learning_rate": 1.7992456486339744e-06,
	"loss": 0.4655,
	"step": 530
	},
	{
	"epoch": 0.05092417955488495,
	"grad_norm": 1.1291389465332031,
	"learning_rate": 1.326762342710017e-06,
	"loss": 0.4796,
	"step": 540
	},
	{
	"epoch": 0.05186721991701245,
	"grad_norm": 1.4239860773086548,
	"learning_rate": 9.242307290592442e-07,
	"loss": 0.4622,
	"step": 550
	},
	{
	"epoch": 0.052810260279139945,
	"grad_norm": 1.2388654947280884,
	"learning_rate": 5.930128472438762e-07,
	"loss": 0.5011,
	"step": 560
	},
	{
	"epoch": 0.053753300641267446,
	"grad_norm": 1.3684238195419312,
	"learning_rate": 3.3422943373142354e-07,
	"loss": 0.446,
	"step": 570
	},
	{
	"epoch": 0.05469634100339495,
	"grad_norm": 1.4726179838180542,
	"learning_rate": 1.4875612967725348e-07,
	"loss": 0.4642,
	"step": 580
	},
	{
	"epoch": 0.05563938136552245,
	"grad_norm": 1.8181157112121582,
	"learning_rate": 3.722051803210014e-08,
	"loss": 0.4721,
	"step": 590
	},
	{
	"epoch": 0.05658242172764994,
	"grad_norm": 1.503574252128601,
	"learning_rate": 0.0,
	"loss": 0.4171,
	"step": 600
	},
	{
	"epoch": 0.05658242172764994,
	"eval_loss": 0.4729672074317932,
	"eval_runtime": 93.8663,
	"eval_samples_per_second": 23.789,
	"eval_steps_per_second": 5.955,
	"step": 600
	}
	],
	"logging_steps": 10,
	"max_steps": 600,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 150,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.12347940585472e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}