{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.006063055780113177,
  "eval_steps": 8,
  "global_step": 30,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002021018593371059,
      "eval_loss": 2.123032331466675,
      "eval_runtime": 236.6008,
      "eval_samples_per_second": 8.808,
      "eval_steps_per_second": 4.404,
      "step": 1
    },
    {
      "epoch": 0.0006063055780113178,
      "grad_norm": 3.1338932514190674,
      "learning_rate": 6e-05,
      "loss": 8.7251,
      "step": 3
    },
    {
      "epoch": 0.0012126111560226355,
      "grad_norm": 2.535696029663086,
      "learning_rate": 0.00012,
      "loss": 7.3551,
      "step": 6
    },
    {
      "epoch": 0.0016168148746968471,
      "eval_loss": 1.7895063161849976,
      "eval_runtime": 236.6772,
      "eval_samples_per_second": 8.805,
      "eval_steps_per_second": 4.403,
      "step": 8
    },
    {
      "epoch": 0.001818916734033953,
      "grad_norm": 5.0467047691345215,
      "learning_rate": 0.00018,
      "loss": 7.4483,
      "step": 9
    },
    {
      "epoch": 0.002425222312045271,
      "grad_norm": 5.255463123321533,
      "learning_rate": 0.00019510565162951537,
      "loss": 6.3648,
      "step": 12
    },
    {
      "epoch": 0.0030315278900565883,
      "grad_norm": 2.216106653213501,
      "learning_rate": 0.00017071067811865476,
      "loss": 5.8742,
      "step": 15
    },
    {
      "epoch": 0.0032336297493936943,
      "eval_loss": 1.366114854812622,
      "eval_runtime": 236.62,
      "eval_samples_per_second": 8.807,
      "eval_steps_per_second": 4.404,
      "step": 16
    },
    {
      "epoch": 0.003637833468067906,
      "grad_norm": 2.676602840423584,
      "learning_rate": 0.00013090169943749476,
      "loss": 5.694,
      "step": 18
    },
    {
      "epoch": 0.004244139046079224,
      "grad_norm": 1.9780032634735107,
      "learning_rate": 8.435655349597689e-05,
      "loss": 4.9153,
      "step": 21
    },
    {
      "epoch": 0.004850444624090542,
      "grad_norm": 1.9625349044799805,
      "learning_rate": 4.12214747707527e-05,
      "loss": 5.4398,
      "step": 24
    },
    {
      "epoch": 0.004850444624090542,
      "eval_loss": 1.2876747846603394,
      "eval_runtime": 236.7206,
      "eval_samples_per_second": 8.804,
      "eval_steps_per_second": 4.402,
      "step": 24
    },
    {
      "epoch": 0.005456750202101859,
      "grad_norm": 2.144939661026001,
      "learning_rate": 1.0899347581163221e-05,
      "loss": 5.0995,
      "step": 27
    },
    {
      "epoch": 0.006063055780113177,
      "grad_norm": 1.977967381477356,
      "learning_rate": 0.0,
      "loss": 4.9248,
      "step": 30
    }
  ],
  "logging_steps": 3,
  "max_steps": 30,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.90434898870272e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}