{
  "best_metric": 2.918982982635498,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 0.007439922624804702,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002975969049921881,
      "grad_norm": 1.2201961278915405,
      "learning_rate": 2e-05,
      "loss": 3.5145,
      "step": 1
    },
    {
      "epoch": 0.0002975969049921881,
      "eval_loss": 3.596099376678467,
      "eval_runtime": 210.5516,
      "eval_samples_per_second": 6.72,
      "eval_steps_per_second": 3.363,
      "step": 1
    },
    {
      "epoch": 0.0005951938099843762,
      "grad_norm": 0.9010210633277893,
      "learning_rate": 4e-05,
      "loss": 3.4533,
      "step": 2
    },
    {
      "epoch": 0.0008927907149765642,
      "grad_norm": 0.9715231657028198,
      "learning_rate": 6e-05,
      "loss": 3.5449,
      "step": 3
    },
    {
      "epoch": 0.0011903876199687523,
      "grad_norm": 1.2497024536132812,
      "learning_rate": 8e-05,
      "loss": 3.7983,
      "step": 4
    },
    {
      "epoch": 0.0014879845249609403,
      "grad_norm": 0.753951370716095,
      "learning_rate": 0.0001,
      "loss": 2.8686,
      "step": 5
    },
    {
      "epoch": 0.0014879845249609403,
      "eval_loss": 3.5702109336853027,
      "eval_runtime": 208.4985,
      "eval_samples_per_second": 6.787,
      "eval_steps_per_second": 3.396,
      "step": 5
    },
    {
      "epoch": 0.0017855814299531285,
      "grad_norm": 3.0282704830169678,
      "learning_rate": 0.00012,
      "loss": 3.9264,
      "step": 6
    },
    {
      "epoch": 0.0020831783349453165,
      "grad_norm": 1.5496526956558228,
      "learning_rate": 0.00014,
      "loss": 3.6897,
      "step": 7
    },
    {
      "epoch": 0.0023807752399375047,
      "grad_norm": 1.3300939798355103,
      "learning_rate": 0.00016,
      "loss": 3.5496,
      "step": 8
    },
    {
      "epoch": 0.002678372144929693,
      "grad_norm": 1.7203272581100464,
      "learning_rate": 0.00018,
      "loss": 3.5882,
      "step": 9
    },
    {
      "epoch": 0.0029759690499218806,
      "grad_norm": 1.7154964208602905,
      "learning_rate": 0.0002,
      "loss": 3.2587,
      "step": 10
    },
    {
      "epoch": 0.0029759690499218806,
      "eval_loss": 3.2639832496643066,
      "eval_runtime": 206.9786,
      "eval_samples_per_second": 6.836,
      "eval_steps_per_second": 3.421,
      "step": 10
    },
    {
      "epoch": 0.003273565954914069,
      "grad_norm": 0.9878728985786438,
      "learning_rate": 0.00019781476007338058,
      "loss": 2.6803,
      "step": 11
    },
    {
      "epoch": 0.003571162859906257,
      "grad_norm": 1.574928641319275,
      "learning_rate": 0.0001913545457642601,
      "loss": 2.7333,
      "step": 12
    },
    {
      "epoch": 0.003868759764898445,
      "grad_norm": 1.003582239151001,
      "learning_rate": 0.00018090169943749476,
      "loss": 2.3235,
      "step": 13
    },
    {
      "epoch": 0.004166356669890633,
      "grad_norm": 3.6163458824157715,
      "learning_rate": 0.00016691306063588583,
      "loss": 3.3288,
      "step": 14
    },
    {
      "epoch": 0.004463953574882822,
      "grad_norm": 2.079414129257202,
      "learning_rate": 0.00015000000000000001,
      "loss": 3.2876,
      "step": 15
    },
    {
      "epoch": 0.004463953574882822,
      "eval_loss": 3.017209529876709,
      "eval_runtime": 207.1151,
      "eval_samples_per_second": 6.832,
      "eval_steps_per_second": 3.418,
      "step": 15
    },
    {
      "epoch": 0.004761550479875009,
      "grad_norm": 2.635293483734131,
      "learning_rate": 0.00013090169943749476,
      "loss": 2.9188,
      "step": 16
    },
    {
      "epoch": 0.005059147384867197,
      "grad_norm": 1.4033870697021484,
      "learning_rate": 0.00011045284632676536,
      "loss": 2.9699,
      "step": 17
    },
    {
      "epoch": 0.005356744289859386,
      "grad_norm": 1.1146005392074585,
      "learning_rate": 8.954715367323468e-05,
      "loss": 2.4964,
      "step": 18
    },
    {
      "epoch": 0.0056543411948515735,
      "grad_norm": 1.1843448877334595,
      "learning_rate": 6.909830056250527e-05,
      "loss": 2.6175,
      "step": 19
    },
    {
      "epoch": 0.005951938099843761,
      "grad_norm": 1.4018208980560303,
      "learning_rate": 5.000000000000002e-05,
      "loss": 2.7782,
      "step": 20
    },
    {
      "epoch": 0.005951938099843761,
      "eval_loss": 2.9345433712005615,
      "eval_runtime": 208.701,
      "eval_samples_per_second": 6.78,
      "eval_steps_per_second": 3.392,
      "step": 20
    },
    {
      "epoch": 0.00624953500483595,
      "grad_norm": 1.3665261268615723,
      "learning_rate": 3.308693936411421e-05,
      "loss": 2.6325,
      "step": 21
    },
    {
      "epoch": 0.006547131909828138,
      "grad_norm": 1.5116671323776245,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 2.823,
      "step": 22
    },
    {
      "epoch": 0.006844728814820326,
      "grad_norm": 1.0619993209838867,
      "learning_rate": 8.645454235739903e-06,
      "loss": 2.5133,
      "step": 23
    },
    {
      "epoch": 0.007142325719812514,
      "grad_norm": 1.546810269355774,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 3.0059,
      "step": 24
    },
    {
      "epoch": 0.007439922624804702,
      "grad_norm": 1.2780280113220215,
      "learning_rate": 0.0,
      "loss": 2.6926,
      "step": 25
    },
    {
      "epoch": 0.007439922624804702,
      "eval_loss": 2.918982982635498,
      "eval_runtime": 207.8276,
      "eval_samples_per_second": 6.809,
      "eval_steps_per_second": 3.407,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4808867045179392.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}