{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.6060606060606061,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.006060606060606061,
      "eval_loss": 1.8532999753952026,
      "eval_runtime": 18.1771,
      "eval_samples_per_second": 15.294,
      "eval_steps_per_second": 1.925,
      "step": 1
    },
    {
      "epoch": 0.01818181818181818,
      "grad_norm": 9.931358337402344,
      "learning_rate": 3e-05,
      "loss": 7.3464,
      "step": 3
    },
    {
      "epoch": 0.03636363636363636,
      "grad_norm": 8.992347717285156,
      "learning_rate": 6e-05,
      "loss": 6.9614,
      "step": 6
    },
    {
      "epoch": 0.05454545454545454,
      "grad_norm": 4.576257228851318,
      "learning_rate": 9e-05,
      "loss": 5.9426,
      "step": 9
    },
    {
      "epoch": 0.05454545454545454,
      "eval_loss": 1.2918708324432373,
      "eval_runtime": 18.5765,
      "eval_samples_per_second": 14.965,
      "eval_steps_per_second": 1.884,
      "step": 9
    },
    {
      "epoch": 0.07272727272727272,
      "grad_norm": 1.6276062726974487,
      "learning_rate": 9.987820251299122e-05,
      "loss": 4.9528,
      "step": 12
    },
    {
      "epoch": 0.09090909090909091,
      "grad_norm": 1.592602014541626,
      "learning_rate": 9.924038765061042e-05,
      "loss": 4.3828,
      "step": 15
    },
    {
      "epoch": 0.10909090909090909,
      "grad_norm": 1.0682902336120605,
      "learning_rate": 9.806308479691595e-05,
      "loss": 4.0017,
      "step": 18
    },
    {
      "epoch": 0.10909090909090909,
      "eval_loss": 0.9796959161758423,
      "eval_runtime": 18.6493,
      "eval_samples_per_second": 14.907,
      "eval_steps_per_second": 1.877,
      "step": 18
    },
    {
      "epoch": 0.12727272727272726,
      "grad_norm": 0.9210547804832458,
      "learning_rate": 9.635919272833938e-05,
      "loss": 3.8069,
      "step": 21
    },
    {
      "epoch": 0.14545454545454545,
      "grad_norm": 0.9161646366119385,
      "learning_rate": 9.414737964294636e-05,
      "loss": 3.8631,
      "step": 24
    },
    {
      "epoch": 0.16363636363636364,
      "grad_norm": 0.8398711681365967,
      "learning_rate": 9.145187862775209e-05,
      "loss": 3.6524,
      "step": 27
    },
    {
      "epoch": 0.16363636363636364,
      "eval_loss": 0.8919903635978699,
      "eval_runtime": 18.6987,
      "eval_samples_per_second": 14.867,
      "eval_steps_per_second": 1.872,
      "step": 27
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 1.0765219926834106,
      "learning_rate": 8.83022221559489e-05,
      "loss": 3.5482,
      "step": 30
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8640583157539368,
      "learning_rate": 8.473291852294987e-05,
      "loss": 3.4842,
      "step": 33
    },
    {
      "epoch": 0.21818181818181817,
      "grad_norm": 0.8722397685050964,
      "learning_rate": 8.07830737662829e-05,
      "loss": 3.4147,
      "step": 36
    },
    {
      "epoch": 0.21818181818181817,
      "eval_loss": 0.836762011051178,
      "eval_runtime": 18.671,
      "eval_samples_per_second": 14.889,
      "eval_steps_per_second": 1.875,
      "step": 36
    },
    {
      "epoch": 0.23636363636363636,
      "grad_norm": 0.9485547542572021,
      "learning_rate": 7.649596321166024e-05,
      "loss": 3.3582,
      "step": 39
    },
    {
      "epoch": 0.2545454545454545,
      "grad_norm": 0.9922736883163452,
      "learning_rate": 7.191855733945387e-05,
      "loss": 3.4027,
      "step": 42
    },
    {
      "epoch": 0.2727272727272727,
      "grad_norm": 1.040021300315857,
      "learning_rate": 6.710100716628344e-05,
      "loss": 3.2551,
      "step": 45
    },
    {
      "epoch": 0.2727272727272727,
      "eval_loss": 0.7936623692512512,
      "eval_runtime": 18.6482,
      "eval_samples_per_second": 14.908,
      "eval_steps_per_second": 1.877,
      "step": 45
    },
    {
      "epoch": 0.2909090909090909,
      "grad_norm": 1.053855061531067,
      "learning_rate": 6.209609477998338e-05,
      "loss": 3.2379,
      "step": 48
    },
    {
      "epoch": 0.3090909090909091,
      "grad_norm": 1.0481888055801392,
      "learning_rate": 5.695865504800327e-05,
      "loss": 3.1603,
      "step": 51
    },
    {
      "epoch": 0.32727272727272727,
      "grad_norm": 1.0904399156570435,
      "learning_rate": 5.174497483512506e-05,
      "loss": 3.02,
      "step": 54
    },
    {
      "epoch": 0.32727272727272727,
      "eval_loss": 0.7579103112220764,
      "eval_runtime": 18.6721,
      "eval_samples_per_second": 14.889,
      "eval_steps_per_second": 1.874,
      "step": 54
    },
    {
      "epoch": 0.34545454545454546,
      "grad_norm": 1.1162407398223877,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 3.0236,
      "step": 57
    },
    {
      "epoch": 0.36363636363636365,
      "grad_norm": 1.1796866655349731,
      "learning_rate": 4.131759111665349e-05,
      "loss": 3.0509,
      "step": 60
    },
    {
      "epoch": 0.38181818181818183,
      "grad_norm": 1.2765783071517944,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 2.9563,
      "step": 63
    },
    {
      "epoch": 0.38181818181818183,
      "eval_loss": 0.7293450236320496,
      "eval_runtime": 18.6793,
      "eval_samples_per_second": 14.883,
      "eval_steps_per_second": 1.874,
      "step": 63
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.302100419998169,
      "learning_rate": 3.12696703292044e-05,
      "loss": 3.0128,
      "step": 66
    },
    {
      "epoch": 0.41818181818181815,
      "grad_norm": 1.21757173538208,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 2.8253,
      "step": 69
    },
    {
      "epoch": 0.43636363636363634,
      "grad_norm": 1.2210811376571655,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 2.8113,
      "step": 72
    },
    {
      "epoch": 0.43636363636363634,
      "eval_loss": 0.7113783359527588,
      "eval_runtime": 18.6976,
      "eval_samples_per_second": 14.868,
      "eval_steps_per_second": 1.872,
      "step": 72
    },
    {
      "epoch": 0.45454545454545453,
      "grad_norm": 1.2573843002319336,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 2.749,
      "step": 75
    },
    {
      "epoch": 0.4727272727272727,
      "grad_norm": 1.3279057741165161,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 2.902,
      "step": 78
    },
    {
      "epoch": 0.4909090909090909,
      "grad_norm": 1.3652307987213135,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 2.8863,
      "step": 81
    },
    {
      "epoch": 0.4909090909090909,
      "eval_loss": 0.6996650695800781,
      "eval_runtime": 18.7057,
      "eval_samples_per_second": 14.862,
      "eval_steps_per_second": 1.871,
      "step": 81
    },
    {
      "epoch": 0.509090909090909,
      "grad_norm": 1.321984052658081,
      "learning_rate": 7.597595192178702e-06,
      "loss": 2.7266,
      "step": 84
    },
    {
      "epoch": 0.5272727272727272,
      "grad_norm": 1.2952314615249634,
      "learning_rate": 5.060297685041659e-06,
      "loss": 2.7999,
      "step": 87
    },
    {
      "epoch": 0.5454545454545454,
      "grad_norm": 1.2621047496795654,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 2.8209,
      "step": 90
    },
    {
      "epoch": 0.5454545454545454,
      "eval_loss": 0.6950810551643372,
      "eval_runtime": 18.675,
      "eval_samples_per_second": 14.886,
      "eval_steps_per_second": 1.874,
      "step": 90
    },
    {
      "epoch": 0.5636363636363636,
      "grad_norm": 1.4816004037857056,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 3.0237,
      "step": 93
    },
    {
      "epoch": 0.5818181818181818,
      "grad_norm": 1.3314423561096191,
      "learning_rate": 4.865965629214819e-07,
      "loss": 2.9197,
      "step": 96
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3787914514541626,
      "learning_rate": 3.04586490452119e-08,
      "loss": 2.7699,
      "step": 99
    },
    {
      "epoch": 0.6,
      "eval_loss": 0.6941416263580322,
      "eval_runtime": 18.6793,
      "eval_samples_per_second": 14.883,
      "eval_steps_per_second": 1.874,
      "step": 99
    }
  ],
  "logging_steps": 3,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 9,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.313450985825239e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}