Training in progress, step 50, checkpoint

e9b1347 verified 16 days ago

9.95 kB

	{
	"best_metric": 1.2765874862670898,
	"best_model_checkpoint": "miner_id_24/checkpoint-50",
	"epoch": 0.06791171477079797,
	"eval_steps": 50,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0013582342954159593,
	"grad_norm": 0.7695918679237366,
	"learning_rate": 1e-05,
	"loss": 1.3733,
	"step": 1
	},
	{
	"epoch": 0.0013582342954159593,
	"eval_loss": 1.4100896120071411,
	"eval_runtime": 74.7293,
	"eval_samples_per_second": 16.593,
	"eval_steps_per_second": 4.148,
	"step": 1
	},
	{
	"epoch": 0.0027164685908319186,
	"grad_norm": 0.7374516129493713,
	"learning_rate": 2e-05,
	"loss": 1.4754,
	"step": 2
	},
	{
	"epoch": 0.0040747028862478775,
	"grad_norm": 0.7155938148498535,
	"learning_rate": 3e-05,
	"loss": 1.3174,
	"step": 3
	},
	{
	"epoch": 0.005432937181663837,
	"grad_norm": 0.6224644184112549,
	"learning_rate": 4e-05,
	"loss": 1.3707,
	"step": 4
	},
	{
	"epoch": 0.006791171477079796,
	"grad_norm": 0.4430236220359802,
	"learning_rate": 5e-05,
	"loss": 1.3729,
	"step": 5
	},
	{
	"epoch": 0.008149405772495755,
	"grad_norm": 0.40971505641937256,
	"learning_rate": 6e-05,
	"loss": 1.3221,
	"step": 6
	},
	{
	"epoch": 0.009507640067911714,
	"grad_norm": 0.3615075945854187,
	"learning_rate": 7e-05,
	"loss": 1.3454,
	"step": 7
	},
	{
	"epoch": 0.010865874363327675,
	"grad_norm": 0.35050615668296814,
	"learning_rate": 8e-05,
	"loss": 1.309,
	"step": 8
	},
	{
	"epoch": 0.012224108658743633,
	"grad_norm": 0.30065447092056274,
	"learning_rate": 9e-05,
	"loss": 1.2385,
	"step": 9
	},
	{
	"epoch": 0.013582342954159592,
	"grad_norm": 0.3258337378501892,
	"learning_rate": 0.0001,
	"loss": 1.2086,
	"step": 10
	},
	{
	"epoch": 0.014940577249575551,
	"grad_norm": 0.3569473326206207,
	"learning_rate": 9.99983777858264e-05,
	"loss": 1.3262,
	"step": 11
	},
	{
	"epoch": 0.01629881154499151,
	"grad_norm": 0.37945055961608887,
	"learning_rate": 9.999351124856874e-05,
	"loss": 1.3609,
	"step": 12
	},
	{
	"epoch": 0.01765704584040747,
	"grad_norm": 0.3099724352359772,
	"learning_rate": 9.998540070400966e-05,
	"loss": 1.2673,
	"step": 13
	},
	{
	"epoch": 0.019015280135823428,
	"grad_norm": 0.31235983967781067,
	"learning_rate": 9.997404667843075e-05,
	"loss": 1.2393,
	"step": 14
	},
	{
	"epoch": 0.02037351443123939,
	"grad_norm": 0.27202108502388,
	"learning_rate": 9.995944990857849e-05,
	"loss": 1.2544,
	"step": 15
	},
	{
	"epoch": 0.02173174872665535,
	"grad_norm": 0.27280139923095703,
	"learning_rate": 9.994161134161634e-05,
	"loss": 1.2061,
	"step": 16
	},
	{
	"epoch": 0.023089983022071308,
	"grad_norm": 0.293769896030426,
	"learning_rate": 9.992053213506334e-05,
	"loss": 1.1964,
	"step": 17
	},
	{
	"epoch": 0.024448217317487267,
	"grad_norm": 0.28996336460113525,
	"learning_rate": 9.989621365671902e-05,
	"loss": 1.2483,
	"step": 18
	},
	{
	"epoch": 0.025806451612903226,
	"grad_norm": 0.271930456161499,
	"learning_rate": 9.986865748457457e-05,
	"loss": 1.2141,
	"step": 19
	},
	{
	"epoch": 0.027164685908319185,
	"grad_norm": 0.2686532735824585,
	"learning_rate": 9.983786540671051e-05,
	"loss": 1.2347,
	"step": 20
	},
	{
	"epoch": 0.028522920203735144,
	"grad_norm": 0.2654222249984741,
	"learning_rate": 9.980383942118066e-05,
	"loss": 1.2133,
	"step": 21
	},
	{
	"epoch": 0.029881154499151102,
	"grad_norm": 0.2612136900424957,
	"learning_rate": 9.976658173588244e-05,
	"loss": 1.2274,
	"step": 22
	},
	{
	"epoch": 0.03123938879456706,
	"grad_norm": 0.24660049378871918,
	"learning_rate": 9.972609476841367e-05,
	"loss": 1.2137,
	"step": 23
	},
	{
	"epoch": 0.03259762308998302,
	"grad_norm": 0.2399974763393402,
	"learning_rate": 9.968238114591566e-05,
	"loss": 1.1527,
	"step": 24
	},
	{
	"epoch": 0.03395585738539898,
	"grad_norm": 0.24953867495059967,
	"learning_rate": 9.96354437049027e-05,
	"loss": 1.2337,
	"step": 25
	},
	{
	"epoch": 0.03531409168081494,
	"grad_norm": 0.25382018089294434,
	"learning_rate": 9.95852854910781e-05,
	"loss": 1.2282,
	"step": 26
	},
	{
	"epoch": 0.0366723259762309,
	"grad_norm": 0.26546919345855713,
	"learning_rate": 9.953190975913647e-05,
	"loss": 1.2031,
	"step": 27
	},
	{
	"epoch": 0.038030560271646856,
	"grad_norm": 0.2536904513835907,
	"learning_rate": 9.947531997255256e-05,
	"loss": 1.218,
	"step": 28
	},
	{
	"epoch": 0.03938879456706282,
	"grad_norm": 0.2628403902053833,
	"learning_rate": 9.941551980335652e-05,
	"loss": 1.1947,
	"step": 29
	},
	{
	"epoch": 0.04074702886247878,
	"grad_norm": 0.26902860403060913,
	"learning_rate": 9.935251313189564e-05,
	"loss": 1.2258,
	"step": 30
	},
	{
	"epoch": 0.042105263157894736,
	"grad_norm": 0.264118492603302,
	"learning_rate": 9.928630404658255e-05,
	"loss": 1.2215,
	"step": 31
	},
	{
	"epoch": 0.0434634974533107,
	"grad_norm": 0.2503666579723358,
	"learning_rate": 9.921689684362989e-05,
	"loss": 1.2607,
	"step": 32
	},
	{
	"epoch": 0.044821731748726654,
	"grad_norm": 0.2590126693248749,
	"learning_rate": 9.914429602677162e-05,
	"loss": 1.236,
	"step": 33
	},
	{
	"epoch": 0.046179966044142616,
	"grad_norm": 0.2683681845664978,
	"learning_rate": 9.906850630697068e-05,
	"loss": 1.195,
	"step": 34
	},
	{
	"epoch": 0.04753820033955857,
	"grad_norm": 0.2629988491535187,
	"learning_rate": 9.898953260211338e-05,
	"loss": 1.1939,
	"step": 35
	},
	{
	"epoch": 0.048896434634974534,
	"grad_norm": 0.28124624490737915,
	"learning_rate": 9.890738003669029e-05,
	"loss": 1.277,
	"step": 36
	},
	{
	"epoch": 0.05025466893039049,
	"grad_norm": 0.27577537298202515,
	"learning_rate": 9.882205394146361e-05,
	"loss": 1.1631,
	"step": 37
	},
	{
	"epoch": 0.05161290322580645,
	"grad_norm": 0.26586708426475525,
	"learning_rate": 9.87335598531214e-05,
	"loss": 1.1817,
	"step": 38
	},
	{
	"epoch": 0.052971137521222414,
	"grad_norm": 0.28580763936042786,
	"learning_rate": 9.864190351391822e-05,
	"loss": 1.2785,
	"step": 39
	},
	{
	"epoch": 0.05432937181663837,
	"grad_norm": 0.28752267360687256,
	"learning_rate": 9.85470908713026e-05,
	"loss": 1.1675,
	"step": 40
	},
	{
	"epoch": 0.05568760611205433,
	"grad_norm": 0.2884860634803772,
	"learning_rate": 9.844912807753104e-05,
	"loss": 1.1855,
	"step": 41
	},
	{
	"epoch": 0.05704584040747029,
	"grad_norm": 0.2822176218032837,
	"learning_rate": 9.834802148926882e-05,
	"loss": 1.2276,
	"step": 42
	},
	{
	"epoch": 0.05840407470288625,
	"grad_norm": 0.28766173124313354,
	"learning_rate": 9.824377766717759e-05,
	"loss": 1.1655,
	"step": 43
	},
	{
	"epoch": 0.059762308998302205,
	"grad_norm": 0.30563387274742126,
	"learning_rate": 9.813640337548954e-05,
	"loss": 1.2651,
	"step": 44
	},
	{
	"epoch": 0.06112054329371817,
	"grad_norm": 0.3028828799724579,
	"learning_rate": 9.802590558156862e-05,
	"loss": 1.1419,
	"step": 45
	},
	{
	"epoch": 0.06247877758913412,
	"grad_norm": 0.3264331817626953,
	"learning_rate": 9.791229145545831e-05,
	"loss": 1.1629,
	"step": 46
	},
	{
	"epoch": 0.06383701188455009,
	"grad_norm": 0.3301156163215637,
	"learning_rate": 9.779556836941645e-05,
	"loss": 1.2186,
	"step": 47
	},
	{
	"epoch": 0.06519524617996604,
	"grad_norm": 0.3410678505897522,
	"learning_rate": 9.767574389743682e-05,
	"loss": 1.2162,
	"step": 48
	},
	{
	"epoch": 0.06655348047538201,
	"grad_norm": 0.36292213201522827,
	"learning_rate": 9.755282581475769e-05,
	"loss": 1.1575,
	"step": 49
	},
	{
	"epoch": 0.06791171477079797,
	"grad_norm": 0.5214879512786865,
	"learning_rate": 9.742682209735727e-05,
	"loss": 1.1233,
	"step": 50
	},
	{
	"epoch": 0.06791171477079797,
	"eval_loss": 1.2765874862670898,
	"eval_runtime": 75.9116,
	"eval_samples_per_second": 16.335,
	"eval_steps_per_second": 4.084,
	"step": 50
	}
	],
	"logging_steps": 1,
	"max_steps": 400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.041831845619302e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}