{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.009078529278256923,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009078529278256923,
      "grad_norm": 0.8286917805671692,
      "learning_rate": 2e-05,
      "loss": 5.0013,
      "step": 1
    },
    {
      "epoch": 0.0009078529278256923,
      "eval_loss": 1.143707275390625,
      "eval_runtime": 25.0105,
      "eval_samples_per_second": 18.552,
      "eval_steps_per_second": 9.276,
      "step": 1
    },
    {
      "epoch": 0.0018157058556513845,
      "grad_norm": 0.6585343480110168,
      "learning_rate": 4e-05,
      "loss": 4.3061,
      "step": 2
    },
    {
      "epoch": 0.0027235587834770767,
      "grad_norm": 0.7599719166755676,
      "learning_rate": 6e-05,
      "loss": 4.5859,
      "step": 3
    },
    {
      "epoch": 0.0027235587834770767,
      "eval_loss": 1.142884612083435,
      "eval_runtime": 24.8599,
      "eval_samples_per_second": 18.665,
      "eval_steps_per_second": 9.332,
      "step": 3
    },
    {
      "epoch": 0.003631411711302769,
      "grad_norm": 0.7997715473175049,
      "learning_rate": 8e-05,
      "loss": 4.2254,
      "step": 4
    },
    {
      "epoch": 0.004539264639128461,
      "grad_norm": 0.7820596694946289,
      "learning_rate": 0.0001,
      "loss": 4.3416,
      "step": 5
    },
    {
      "epoch": 0.005447117566954153,
      "grad_norm": 0.8330199122428894,
      "learning_rate": 0.00012,
      "loss": 4.3534,
      "step": 6
    },
    {
      "epoch": 0.005447117566954153,
      "eval_loss": 1.1332733631134033,
      "eval_runtime": 25.1453,
      "eval_samples_per_second": 18.453,
      "eval_steps_per_second": 9.226,
      "step": 6
    },
    {
      "epoch": 0.006354970494779845,
      "grad_norm": 0.9027072191238403,
      "learning_rate": 0.00014,
      "loss": 4.2215,
      "step": 7
    },
    {
      "epoch": 0.007262823422605538,
      "grad_norm": 0.9025977849960327,
      "learning_rate": 0.00016,
      "loss": 4.6906,
      "step": 8
    },
    {
      "epoch": 0.008170676350431231,
      "grad_norm": 1.036542296409607,
      "learning_rate": 0.00018,
      "loss": 4.3896,
      "step": 9
    },
    {
      "epoch": 0.008170676350431231,
      "eval_loss": 1.103284239768982,
      "eval_runtime": 25.0511,
      "eval_samples_per_second": 18.522,
      "eval_steps_per_second": 9.261,
      "step": 9
    },
    {
      "epoch": 0.009078529278256923,
      "grad_norm": 0.9466410875320435,
      "learning_rate": 0.0002,
      "loss": 4.1999,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3257466271825920.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}