{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0017662227560139884,
  "eval_steps": 4,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 7.064891024055954e-05,
      "grad_norm": 0.19808828830718994,
      "learning_rate": 1e-05,
      "loss": 10.8451,
      "step": 1
    },
    {
      "epoch": 7.064891024055954e-05,
      "eval_loss": 10.840682029724121,
      "eval_runtime": 109.04,
      "eval_samples_per_second": 109.318,
      "eval_steps_per_second": 13.665,
      "step": 1
    },
    {
      "epoch": 0.00014129782048111908,
      "grad_norm": 0.28033849596977234,
      "learning_rate": 2e-05,
      "loss": 10.8368,
      "step": 2
    },
    {
      "epoch": 0.0002119467307216786,
      "grad_norm": 0.15979540348052979,
      "learning_rate": 3e-05,
      "loss": 10.8309,
      "step": 3
    },
    {
      "epoch": 0.00028259564096223816,
      "grad_norm": 0.16328372061252594,
      "learning_rate": 4e-05,
      "loss": 10.8373,
      "step": 4
    },
    {
      "epoch": 0.00028259564096223816,
      "eval_loss": 10.840532302856445,
      "eval_runtime": 110.6329,
      "eval_samples_per_second": 107.744,
      "eval_steps_per_second": 13.468,
      "step": 4
    },
    {
      "epoch": 0.0003532445512027977,
      "grad_norm": 0.21912690997123718,
      "learning_rate": 5e-05,
      "loss": 10.8261,
      "step": 5
    },
    {
      "epoch": 0.0004238934614433572,
      "grad_norm": 0.18377596139907837,
      "learning_rate": 6e-05,
      "loss": 10.8472,
      "step": 6
    },
    {
      "epoch": 0.0004945423716839168,
      "grad_norm": 0.2194622904062271,
      "learning_rate": 7e-05,
      "loss": 10.8302,
      "step": 7
    },
    {
      "epoch": 0.0005651912819244763,
      "grad_norm": 0.1710224747657776,
      "learning_rate": 8e-05,
      "loss": 10.8376,
      "step": 8
    },
    {
      "epoch": 0.0005651912819244763,
      "eval_loss": 10.839580535888672,
      "eval_runtime": 110.2165,
      "eval_samples_per_second": 108.151,
      "eval_steps_per_second": 13.519,
      "step": 8
    },
    {
      "epoch": 0.0006358401921650359,
      "grad_norm": 0.20081011950969696,
      "learning_rate": 9e-05,
      "loss": 10.8387,
      "step": 9
    },
    {
      "epoch": 0.0007064891024055954,
      "grad_norm": 0.2011719048023224,
      "learning_rate": 0.0001,
      "loss": 10.8379,
      "step": 10
    },
    {
      "epoch": 0.000777138012646155,
      "grad_norm": 0.18795593082904816,
      "learning_rate": 9.890738003669029e-05,
      "loss": 10.8468,
      "step": 11
    },
    {
      "epoch": 0.0008477869228867144,
      "grad_norm": 0.2438293993473053,
      "learning_rate": 9.567727288213005e-05,
      "loss": 10.8286,
      "step": 12
    },
    {
      "epoch": 0.0008477869228867144,
      "eval_loss": 10.83804702758789,
      "eval_runtime": 110.372,
      "eval_samples_per_second": 107.998,
      "eval_steps_per_second": 13.5,
      "step": 12
    },
    {
      "epoch": 0.000918435833127274,
      "grad_norm": 0.19443967938423157,
      "learning_rate": 9.045084971874738e-05,
      "loss": 10.8456,
      "step": 13
    },
    {
      "epoch": 0.0009890847433678335,
      "grad_norm": 0.2138381451368332,
      "learning_rate": 8.345653031794292e-05,
      "loss": 10.8358,
      "step": 14
    },
    {
      "epoch": 0.001059733653608393,
      "grad_norm": 0.19764497876167297,
      "learning_rate": 7.500000000000001e-05,
      "loss": 10.8268,
      "step": 15
    },
    {
      "epoch": 0.0011303825638489526,
      "grad_norm": 0.17294973134994507,
      "learning_rate": 6.545084971874738e-05,
      "loss": 10.8385,
      "step": 16
    },
    {
      "epoch": 0.0011303825638489526,
      "eval_loss": 10.836559295654297,
      "eval_runtime": 110.3795,
      "eval_samples_per_second": 107.991,
      "eval_steps_per_second": 13.499,
      "step": 16
    },
    {
      "epoch": 0.0012010314740895122,
      "grad_norm": 0.2707149386405945,
      "learning_rate": 5.522642316338268e-05,
      "loss": 10.8263,
      "step": 17
    },
    {
      "epoch": 0.0012716803843300717,
      "grad_norm": 0.20493124425411224,
      "learning_rate": 4.477357683661734e-05,
      "loss": 10.8287,
      "step": 18
    },
    {
      "epoch": 0.0013423292945706313,
      "grad_norm": 0.2238752841949463,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 10.8406,
      "step": 19
    },
    {
      "epoch": 0.0014129782048111909,
      "grad_norm": 0.21351857483386993,
      "learning_rate": 2.500000000000001e-05,
      "loss": 10.8349,
      "step": 20
    },
    {
      "epoch": 0.0014129782048111909,
      "eval_loss": 10.835684776306152,
      "eval_runtime": 110.343,
      "eval_samples_per_second": 108.027,
      "eval_steps_per_second": 13.503,
      "step": 20
    },
    {
      "epoch": 0.0014836271150517504,
      "grad_norm": 0.19081443548202515,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 10.8478,
      "step": 21
    },
    {
      "epoch": 0.00155427602529231,
      "grad_norm": 0.22004647552967072,
      "learning_rate": 9.549150281252633e-06,
      "loss": 10.8386,
      "step": 22
    },
    {
      "epoch": 0.0016249249355328693,
      "grad_norm": 0.17752231657505035,
      "learning_rate": 4.322727117869951e-06,
      "loss": 10.8384,
      "step": 23
    },
    {
      "epoch": 0.0016955738457734289,
      "grad_norm": 0.1781408041715622,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 10.8405,
      "step": 24
    },
    {
      "epoch": 0.0016955738457734289,
      "eval_loss": 10.835437774658203,
      "eval_runtime": 110.3494,
      "eval_samples_per_second": 108.021,
      "eval_steps_per_second": 13.503,
      "step": 24
    },
    {
      "epoch": 0.0017662227560139884,
      "grad_norm": 0.25101661682128906,
      "learning_rate": 0.0,
      "loss": 10.8305,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8250929971200.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}