{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0006046710841248646,
  "eval_steps": 8,
  "global_step": 30,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0155702804162153e-05,
      "eval_loss": 2.184415817260742,
      "eval_runtime": 3154.5083,
      "eval_samples_per_second": 6.622,
      "eval_steps_per_second": 3.311,
      "step": 1
    },
    {
      "epoch": 6.0467108412486456e-05,
      "grad_norm": 5.219749450683594,
      "learning_rate": 3e-05,
      "loss": 2.2242,
      "step": 3
    },
    {
      "epoch": 0.00012093421682497291,
      "grad_norm": 1.6268922090530396,
      "learning_rate": 6e-05,
      "loss": 2.3599,
      "step": 6
    },
    {
      "epoch": 0.00016124562243329722,
      "eval_loss": 1.7152659893035889,
      "eval_runtime": 3172.8246,
      "eval_samples_per_second": 6.584,
      "eval_steps_per_second": 3.292,
      "step": 8
    },
    {
      "epoch": 0.00018140132523745937,
      "grad_norm": 1.9990330934524536,
      "learning_rate": 9e-05,
      "loss": 1.9295,
      "step": 9
    },
    {
      "epoch": 0.00024186843364994582,
      "grad_norm": 1.2975496053695679,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.5978,
      "step": 12
    },
    {
      "epoch": 0.0003023355420624323,
      "grad_norm": 0.6814125180244446,
      "learning_rate": 8.535533905932738e-05,
      "loss": 1.4508,
      "step": 15
    },
    {
      "epoch": 0.00032249124486659445,
      "eval_loss": 1.2675302028656006,
      "eval_runtime": 3170.8594,
      "eval_samples_per_second": 6.588,
      "eval_steps_per_second": 3.294,
      "step": 16
    },
    {
      "epoch": 0.00036280265047491873,
      "grad_norm": 0.8964759111404419,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.7469,
      "step": 18
    },
    {
      "epoch": 0.0004232697588874052,
      "grad_norm": 1.5816017389297485,
      "learning_rate": 4.2178276747988446e-05,
      "loss": 1.3555,
      "step": 21
    },
    {
      "epoch": 0.00048373686729989165,
      "grad_norm": 1.1720322370529175,
      "learning_rate": 2.061073738537635e-05,
      "loss": 1.4403,
      "step": 24
    },
    {
      "epoch": 0.00048373686729989165,
      "eval_loss": 1.1646610498428345,
      "eval_runtime": 3170.6024,
      "eval_samples_per_second": 6.589,
      "eval_steps_per_second": 3.294,
      "step": 24
    },
    {
      "epoch": 0.0005442039757123781,
      "grad_norm": 0.5967589616775513,
      "learning_rate": 5.449673790581611e-06,
      "loss": 1.0736,
      "step": 27
    },
    {
      "epoch": 0.0006046710841248646,
      "grad_norm": 0.8571016192436218,
      "learning_rate": 0.0,
      "loss": 1.3354,
      "step": 30
    }
  ],
  "logging_steps": 3,
  "max_steps": 30,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3261235193643008e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}