{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.08790242830458192,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004395121415229096,
      "eval_loss": 4.934887886047363,
      "eval_runtime": 52.8404,
      "eval_samples_per_second": 18.149,
      "eval_steps_per_second": 9.084,
      "step": 1
    },
    {
      "epoch": 0.004395121415229096,
      "grad_norm": 16.140071868896484,
      "learning_rate": 0.0002,
      "loss": 14.1671,
      "step": 10
    },
    {
      "epoch": 0.008790242830458192,
      "grad_norm": 12.486281394958496,
      "learning_rate": 0.0002,
      "loss": 4.3222,
      "step": 20
    },
    {
      "epoch": 0.013185364245687286,
      "grad_norm": 9.944640159606934,
      "learning_rate": 0.0002,
      "loss": 1.4907,
      "step": 30
    },
    {
      "epoch": 0.017580485660916384,
      "grad_norm": 5.2189178466796875,
      "learning_rate": 0.0002,
      "loss": 1.0,
      "step": 40
    },
    {
      "epoch": 0.02197560707614548,
      "grad_norm": 11.882987976074219,
      "learning_rate": 0.0002,
      "loss": 0.4725,
      "step": 50
    },
    {
      "epoch": 0.02197560707614548,
      "eval_loss": 0.0736045315861702,
      "eval_runtime": 52.7897,
      "eval_samples_per_second": 18.166,
      "eval_steps_per_second": 9.093,
      "step": 50
    },
    {
      "epoch": 0.026370728491374573,
      "grad_norm": 8.649742126464844,
      "learning_rate": 0.0002,
      "loss": 0.3513,
      "step": 60
    },
    {
      "epoch": 0.03076584990660367,
      "grad_norm": 11.820034980773926,
      "learning_rate": 0.0002,
      "loss": 0.4011,
      "step": 70
    },
    {
      "epoch": 0.03516097132183277,
      "grad_norm": 4.739223957061768,
      "learning_rate": 0.0002,
      "loss": 0.3105,
      "step": 80
    },
    {
      "epoch": 0.039556092737061864,
      "grad_norm": 3.959333896636963,
      "learning_rate": 0.0002,
      "loss": 0.3885,
      "step": 90
    },
    {
      "epoch": 0.04395121415229096,
      "grad_norm": 7.995823860168457,
      "learning_rate": 0.0002,
      "loss": 0.4986,
      "step": 100
    },
    {
      "epoch": 0.04395121415229096,
      "eval_loss": 0.08041178435087204,
      "eval_runtime": 52.7416,
      "eval_samples_per_second": 18.183,
      "eval_steps_per_second": 9.101,
      "step": 100
    },
    {
      "epoch": 0.048346335567520056,
      "grad_norm": 2.872164011001587,
      "learning_rate": 0.0002,
      "loss": 0.4823,
      "step": 110
    },
    {
      "epoch": 0.052741456982749145,
      "grad_norm": 1.444300889968872,
      "learning_rate": 0.0002,
      "loss": 0.3751,
      "step": 120
    },
    {
      "epoch": 0.05713657839797824,
      "grad_norm": 6.023801803588867,
      "learning_rate": 0.0002,
      "loss": 0.4278,
      "step": 130
    },
    {
      "epoch": 0.06153169981320734,
      "grad_norm": 5.9031782150268555,
      "learning_rate": 0.0002,
      "loss": 0.2955,
      "step": 140
    },
    {
      "epoch": 0.06592682122843643,
      "grad_norm": 4.795778274536133,
      "learning_rate": 0.0002,
      "loss": 0.282,
      "step": 150
    },
    {
      "epoch": 0.06592682122843643,
      "eval_loss": 0.07622317224740982,
      "eval_runtime": 52.8602,
      "eval_samples_per_second": 18.142,
      "eval_steps_per_second": 9.081,
      "step": 150
    },
    {
      "epoch": 0.07032194264366554,
      "grad_norm": 2.814330816268921,
      "learning_rate": 0.0002,
      "loss": 0.2583,
      "step": 160
    },
    {
      "epoch": 0.07471706405889462,
      "grad_norm": 5.426441669464111,
      "learning_rate": 0.0002,
      "loss": 0.267,
      "step": 170
    },
    {
      "epoch": 0.07911218547412373,
      "grad_norm": 10.835411071777344,
      "learning_rate": 0.0002,
      "loss": 0.2031,
      "step": 180
    },
    {
      "epoch": 0.08350730688935282,
      "grad_norm": 6.394276142120361,
      "learning_rate": 0.0002,
      "loss": 0.3164,
      "step": 190
    },
    {
      "epoch": 0.08790242830458192,
      "grad_norm": 3.249331474304199,
      "learning_rate": 0.0002,
      "loss": 0.2643,
      "step": 200
    },
    {
      "epoch": 0.08790242830458192,
      "eval_loss": 0.07121116667985916,
      "eval_runtime": 52.7891,
      "eval_samples_per_second": 18.167,
      "eval_steps_per_second": 9.093,
      "step": 200
    }
  ],
  "logging_steps": 10,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.216069447634125e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}