{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.000799696115476119,
  "eval_steps": 5,
  "global_step": 30,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.6656537182537304e-05,
      "eval_loss": 10.834497451782227,
      "eval_runtime": 55.775,
      "eval_samples_per_second": 283.209,
      "eval_steps_per_second": 141.605,
      "step": 1
    },
    {
      "epoch": 7.996961154761191e-05,
      "grad_norm": 0.13088709115982056,
      "learning_rate": 4e-05,
      "loss": 10.8343,
      "step": 3
    },
    {
      "epoch": 0.00013328268591268651,
      "eval_loss": 10.833935737609863,
      "eval_runtime": 54.5008,
      "eval_samples_per_second": 289.83,
      "eval_steps_per_second": 144.915,
      "step": 5
    },
    {
      "epoch": 0.00015993922309522383,
      "grad_norm": 0.1264154613018036,
      "learning_rate": 8e-05,
      "loss": 10.8359,
      "step": 6
    },
    {
      "epoch": 0.00023990883464283572,
      "grad_norm": 0.163180410861969,
      "learning_rate": 0.00012,
      "loss": 10.8311,
      "step": 9
    },
    {
      "epoch": 0.00026656537182537303,
      "eval_loss": 10.831684112548828,
      "eval_runtime": 55.2746,
      "eval_samples_per_second": 285.773,
      "eval_steps_per_second": 142.886,
      "step": 10
    },
    {
      "epoch": 0.00031987844619044766,
      "grad_norm": 0.13704435527324677,
      "learning_rate": 0.00016,
      "loss": 10.8342,
      "step": 12
    },
    {
      "epoch": 0.0003998480577380595,
      "grad_norm": 0.16538847982883453,
      "learning_rate": 0.0002,
      "loss": 10.831,
      "step": 15
    },
    {
      "epoch": 0.0003998480577380595,
      "eval_loss": 10.827657699584961,
      "eval_runtime": 55.704,
      "eval_samples_per_second": 283.57,
      "eval_steps_per_second": 141.785,
      "step": 15
    },
    {
      "epoch": 0.00047981766928567143,
      "grad_norm": 0.12842810153961182,
      "learning_rate": 0.00018090169943749476,
      "loss": 10.8272,
      "step": 18
    },
    {
      "epoch": 0.0005331307436507461,
      "eval_loss": 10.822318077087402,
      "eval_runtime": 54.6856,
      "eval_samples_per_second": 288.851,
      "eval_steps_per_second": 144.426,
      "step": 20
    },
    {
      "epoch": 0.0005597872808332833,
      "grad_norm": 0.14309553802013397,
      "learning_rate": 0.00013090169943749476,
      "loss": 10.8227,
      "step": 21
    },
    {
      "epoch": 0.0006397568923808953,
      "grad_norm": 0.1528816521167755,
      "learning_rate": 6.909830056250527e-05,
      "loss": 10.8191,
      "step": 24
    },
    {
      "epoch": 0.0006664134295634326,
      "eval_loss": 10.818819046020508,
      "eval_runtime": 54.7728,
      "eval_samples_per_second": 288.391,
      "eval_steps_per_second": 144.196,
      "step": 25
    },
    {
      "epoch": 0.0007197265039285072,
      "grad_norm": 0.16032205522060394,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 10.8209,
      "step": 27
    },
    {
      "epoch": 0.000799696115476119,
      "grad_norm": 0.13892126083374023,
      "learning_rate": 0.0,
      "loss": 10.813,
      "step": 30
    },
    {
      "epoch": 0.000799696115476119,
      "eval_loss": 10.818060874938965,
      "eval_runtime": 54.3111,
      "eval_samples_per_second": 290.843,
      "eval_steps_per_second": 145.421,
      "step": 30
    }
  ],
  "logging_steps": 3,
  "max_steps": 30,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 15,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5115576582144.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}