{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.00046078702423739745,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.607870242373975e-05,
      "grad_norm": 0.323437362909317,
      "learning_rate": 2e-05,
      "loss": 4.5458,
      "step": 1
    },
    {
      "epoch": 4.607870242373975e-05,
      "eval_loss": 1.1763094663619995,
      "eval_runtime": 685.8318,
      "eval_samples_per_second": 13.324,
      "eval_steps_per_second": 6.662,
      "step": 1
    },
    {
      "epoch": 9.21574048474795e-05,
      "grad_norm": 0.32721254229545593,
      "learning_rate": 4e-05,
      "loss": 3.6827,
      "step": 2
    },
    {
      "epoch": 0.00013823610727121925,
      "grad_norm": 0.35817116498947144,
      "learning_rate": 6e-05,
      "loss": 4.3021,
      "step": 3
    },
    {
      "epoch": 0.00013823610727121925,
      "eval_loss": 1.1759949922561646,
      "eval_runtime": 761.442,
      "eval_samples_per_second": 12.001,
      "eval_steps_per_second": 6.0,
      "step": 3
    },
    {
      "epoch": 0.000184314809694959,
      "grad_norm": 0.29292038083076477,
      "learning_rate": 8e-05,
      "loss": 3.0989,
      "step": 4
    },
    {
      "epoch": 0.00023039351211869873,
      "grad_norm": 0.3303835690021515,
      "learning_rate": 0.0001,
      "loss": 3.9467,
      "step": 5
    },
    {
      "epoch": 0.0002764722145424385,
      "grad_norm": 0.40217289328575134,
      "learning_rate": 0.00012,
      "loss": 4.5857,
      "step": 6
    },
    {
      "epoch": 0.0002764722145424385,
      "eval_loss": 1.1704449653625488,
      "eval_runtime": 981.3093,
      "eval_samples_per_second": 9.312,
      "eval_steps_per_second": 4.656,
      "step": 6
    },
    {
      "epoch": 0.00032255091696617823,
      "grad_norm": 0.8704009652137756,
      "learning_rate": 0.00014,
      "loss": 4.4659,
      "step": 7
    },
    {
      "epoch": 0.000368629619389918,
      "grad_norm": 0.5341410040855408,
      "learning_rate": 0.00016,
      "loss": 5.1402,
      "step": 8
    },
    {
      "epoch": 0.0004147083218136577,
      "grad_norm": 0.5640665888786316,
      "learning_rate": 0.00018,
      "loss": 4.77,
      "step": 9
    },
    {
      "epoch": 0.0004147083218136577,
      "eval_loss": 1.1383893489837646,
      "eval_runtime": 690.0329,
      "eval_samples_per_second": 13.243,
      "eval_steps_per_second": 6.621,
      "step": 9
    },
    {
      "epoch": 0.00046078702423739745,
      "grad_norm": 0.7399348020553589,
      "learning_rate": 0.0002,
      "loss": 4.753,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5065958888570880.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}