{"loss": 5.88650322, "grad_norm": 47.92485809, "learning_rate": 5e-05, "memory(GiB)": 30.84, "train_speed(iter/s)": 0.018393, "rewards/chosen": 0.0, "rewards/rejected": 0.0, "rewards/accuracies": 0.0, "rewards/margins": 0.0, "logps/rejected": -212.57785034, "logps/chosen": -191.52467346, "logits/rejected": -1.90206158, "logits/chosen": -1.82370186, "nll_loss": 0.42665723, "epoch": 0.22857143, "global_step/max_steps": "1/20", "percentage": "5.00%", "elapsed_time": "54s", "remaining_time": "17m 8s"}
{"loss": 4.4658556, "grad_norm": 18.60601997, "learning_rate": 4.473e-05, "memory(GiB)": 31.66, "train_speed(iter/s)": 0.020714, "rewards/chosen": 0.32109097, "rewards/rejected": 0.15035971, "rewards/accuracies": 0.66666669, "rewards/margins": 0.17073126, "logps/rejected": -217.26387024, "logps/chosen": -195.32687378, "logits/rejected": -1.96450555, "logits/chosen": -1.89265287, "nll_loss": 0.43571264, "epoch": 1.0, "global_step/max_steps": "5/20", "percentage": "25.00%", "elapsed_time": "4m 1s", "remaining_time": "12m 3s"}
{"loss": 1.8374548, "grad_norm": 6.94702291, "learning_rate": 2.706e-05, "memory(GiB)": 26.6, "train_speed(iter/s)": 0.021154, "rewards/chosen": 2.14170194, "rewards/rejected": 0.49172407, "rewards/accuracies": 1.0, "rewards/margins": 1.64997768, "logps/rejected": -212.43545532, "logps/chosen": -175.51777649, "logits/rejected": -1.87311924, "logits/chosen": -1.80443537, "nll_loss": 0.38992596, "epoch": 2.0, "global_step/max_steps": "10/20", "percentage": "50.00%", "elapsed_time": "7m 52s", "remaining_time": "7m 52s"}
{"loss": 0.79830809, "grad_norm": 1.78515828, "learning_rate": 8.07e-06, "memory(GiB)": 26.6, "train_speed(iter/s)": 0.021297, "rewards/chosen": 3.30233383, "rewards/rejected": -0.08677243, "rewards/accuracies": 1.0, "rewards/margins": 3.38910604, "logps/rejected": -218.22042847, "logps/chosen": -163.91143799, "logits/rejected": -1.78839099, "logits/chosen": -1.7281152, "nll_loss": 0.36455366, "epoch": 3.0, "global_step/max_steps": "15/20", "percentage": "75.00%", "elapsed_time": "11m 44s", "remaining_time": "3m 54s"}
{"loss": 0.61259127, "grad_norm": 2.07688808, "learning_rate": 0.0, "memory(GiB)": 26.6, "train_speed(iter/s)": 0.021369, "rewards/chosen": 3.69910145, "rewards/rejected": -0.57025796, "rewards/accuracies": 1.0, "rewards/margins": 4.26936007, "logps/rejected": -223.05526733, "logps/chosen": -159.9437561, "logits/rejected": -1.75272477, "logits/chosen": -1.6956352, "nll_loss": 0.35501873, "epoch": 4.0, "global_step/max_steps": "20/20", "percentage": "100.00%", "elapsed_time": "15m 35s", "remaining_time": "0s"}
{"eval_loss": 0.26913971, "eval_runtime": 80.7016, "eval_samples_per_second": 0.186, "eval_steps_per_second": 0.186, "eval_rewards/chosen": 3.33348179, "eval_rewards/rejected": 1.7646755, "eval_rewards/accuracies": 1.0, "eval_rewards/margins": 1.56880629, "eval_logps/rejected": -185.40473938, "eval_logps/chosen": -159.05787659, "eval_logits/rejected": -1.82700586, "eval_logits/chosen": -1.80320179, "eval_nll_loss": 0.41014081, "epoch": 4.0, "global_step/max_steps": "20/20", "percentage": "100.00%", "elapsed_time": "16m 56s", "remaining_time": "0s"}
{"train_runtime": 1016.6199, "train_samples_per_second": 0.172, "train_steps_per_second": 0.02, "total_flos": 4272401148051456.0, "train_loss": 1.99958482, "epoch": 4.0, "global_step/max_steps": "20/20", "percentage": "100.00%", "elapsed_time": "16m 56s", "remaining_time": "0s"}
{"memory": {"cuda": "31.66GiB"}, "last_model_checkpoint": "/home/ec2-user/output/qwen2-vl-2b-instruct/v0-20241209-111947/checkpoint-20", "best_model_checkpoint": "/home/ec2-user/output/qwen2-vl-2b-instruct/v0-20241209-111947/checkpoint-20", "best_metric": 0.26913971, "global_step": 20, "log_history": [{"loss": 5.88650322, "grad_norm": 47.92485809326172, "learning_rate": 5e-05, "memory(GiB)": 30.84, "train_speed(iter/s)": 0.018393, "rewards/chosen": 0.0, "rewards/rejected": 0.0, "rewards/accuracies": 0.0, "rewards/margins": 0.0, "logps/rejected": -212.57785034179688, "logps/chosen": -191.52467346191406, "logits/rejected": -1.9020615816116333, "logits/chosen": -1.8237018585205078, "nll_loss": 0.42665722966194153, "epoch": 0.22857142857142856, "step": 1}, {"loss": 4.4658556, "grad_norm": 18.606019973754883, "learning_rate": 4.4728512734909844e-05, "memory(GiB)": 31.66, "train_speed(iter/s)": 0.020714, "rewards/chosen": 0.321090966463089, "rewards/rejected": 0.15035970509052277, "rewards/accuracies": 0.6666666865348816, "rewards/margins": 0.17073126137256622, "logps/rejected": -217.2638702392578, "logps/chosen": -195.32687377929688, "logits/rejected": -1.9645055532455444, "logits/chosen": -1.8926528692245483, "nll_loss": 0.43571263551712036, "epoch": 1.0, "step": 5}, {"loss": 1.8374548, "grad_norm": 6.947022914886475, "learning_rate": 2.7064483636808313e-05, "memory(GiB)": 26.6, "train_speed(iter/s)": 0.021154, "rewards/chosen": 2.1417019367218018, "rewards/rejected": 0.49172407388687134, "rewards/accuracies": 1.0, "rewards/margins": 1.649977684020996, "logps/rejected": -212.43545532226562, "logps/chosen": -175.5177764892578, "logits/rejected": -1.8731192350387573, "logits/chosen": -1.8044353723526, "nll_loss": 0.3899259567260742, "epoch": 2.0, "step": 10}, {"loss": 0.79830809, "grad_norm": 1.7851582765579224, "learning_rate": 8.067960709356478e-06, "memory(GiB)": 26.6, "train_speed(iter/s)": 0.021297, "rewards/chosen": 3.3023338317871094, "rewards/rejected": -0.08677242696285248, "rewards/accuracies": 1.0, "rewards/margins": 3.389106035232544, "logps/rejected": -218.22042846679688, "logps/chosen": -163.91143798828125, "logits/rejected": -1.7883909940719604, "logits/chosen": -1.728115200996399, "nll_loss": 0.36455366015434265, "epoch": 3.0, "step": 15}, {"loss": 0.61259127, "grad_norm": 2.076888084411621, "learning_rate": 0.0, "memory(GiB)": 26.6, "train_speed(iter/s)": 0.021369, "rewards/chosen": 3.699101448059082, "rewards/rejected": -0.5702579617500305, "rewards/accuracies": 1.0, "rewards/margins": 4.269360065460205, "logps/rejected": -223.05526733398438, "logps/chosen": -159.94375610351562, "logits/rejected": -1.7527247667312622, "logits/chosen": -1.695635199546814, "nll_loss": 0.3550187349319458, "epoch": 4.0, "step": 20}, {"eval_loss": 0.26913970708847046, "eval_runtime": 80.7016, "eval_samples_per_second": 0.186, "eval_steps_per_second": 0.186, "eval_rewards/chosen": 3.333481788635254, "eval_rewards/rejected": 1.764675498008728, "eval_rewards/accuracies": 1.0, "eval_rewards/margins": 1.5688062906265259, "eval_logps/rejected": -185.4047393798828, "eval_logps/chosen": -159.05787658691406, "eval_logits/rejected": -1.8270058631896973, "eval_logits/chosen": -1.8032017946243286, "eval_nll_loss": 0.4101408123970032, "epoch": 4.0, "step": 20}, {"train_runtime": 1016.6199, "train_samples_per_second": 0.172, "train_steps_per_second": 0.02, "total_flos": 4272401148051456.0, "train_loss": 1.9995848178863525, "epoch": 4.0, "step": 20}], "dataset_info": {}, "train_time": {"train_runtime": 1016.6199, "n_train_samples": 35, "train_samples_per_second": 0.03442781318760335}}