{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9102844638949672,
  "eval_steps": 50,
  "global_step": 65,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01400437636761488,
      "grad_norm": 61.57242965698242,
      "learning_rate": 7.499999999999999e-06,
      "loss": 74.331,
      "step": 1
    },
    {
      "epoch": 0.01400437636761488,
      "eval_loss": 2.3031234741210938,
      "eval_runtime": 37.3633,
      "eval_samples_per_second": 6.45,
      "eval_steps_per_second": 3.238,
      "step": 1
    },
    {
      "epoch": 0.02800875273522976,
      "grad_norm": 61.468421936035156,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 75.5051,
      "step": 2
    },
    {
      "epoch": 0.04201312910284464,
      "grad_norm": 63.76738739013672,
      "learning_rate": 2.2499999999999998e-05,
      "loss": 73.1192,
      "step": 3
    },
    {
      "epoch": 0.05601750547045952,
      "grad_norm": 56.45806884765625,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 69.8715,
      "step": 4
    },
    {
      "epoch": 0.0700218818380744,
      "grad_norm": 58.627620697021484,
      "learning_rate": 3.75e-05,
      "loss": 69.0347,
      "step": 5
    },
    {
      "epoch": 0.08402625820568928,
      "grad_norm": 60.42095947265625,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 66.3695,
      "step": 6
    },
    {
      "epoch": 0.09803063457330416,
      "grad_norm": 57.68213653564453,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 56.7572,
      "step": 7
    },
    {
      "epoch": 0.11203501094091904,
      "grad_norm": 56.33690643310547,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 51.2878,
      "step": 8
    },
    {
      "epoch": 0.12603938730853392,
      "grad_norm": 52.97846221923828,
      "learning_rate": 6.75e-05,
      "loss": 36.918,
      "step": 9
    },
    {
      "epoch": 0.1400437636761488,
      "grad_norm": 46.914066314697266,
      "learning_rate": 7.5e-05,
      "loss": 27.3805,
      "step": 10
    },
    {
      "epoch": 0.1540481400437637,
      "grad_norm": 44.001502990722656,
      "learning_rate": 8.25e-05,
      "loss": 23.6946,
      "step": 11
    },
    {
      "epoch": 0.16805251641137856,
      "grad_norm": 30.6370849609375,
      "learning_rate": 8.999999999999999e-05,
      "loss": 15.6086,
      "step": 12
    },
    {
      "epoch": 0.18205689277899342,
      "grad_norm": 51.051727294921875,
      "learning_rate": 9.75e-05,
      "loss": 16.2046,
      "step": 13
    },
    {
      "epoch": 0.19606126914660832,
      "grad_norm": 64.03682708740234,
      "learning_rate": 0.00010499999999999999,
      "loss": 13.2331,
      "step": 14
    },
    {
      "epoch": 0.2100656455142232,
      "grad_norm": 34.19150924682617,
      "learning_rate": 0.0001125,
      "loss": 11.2453,
      "step": 15
    },
    {
      "epoch": 0.22407002188183808,
      "grad_norm": 34.346343994140625,
      "learning_rate": 0.00011999999999999999,
      "loss": 9.5668,
      "step": 16
    },
    {
      "epoch": 0.23807439824945295,
      "grad_norm": 26.109838485717773,
      "learning_rate": 0.00012749999999999998,
      "loss": 6.7749,
      "step": 17
    },
    {
      "epoch": 0.25207877461706785,
      "grad_norm": 17.14702606201172,
      "learning_rate": 0.000135,
      "loss": 6.2887,
      "step": 18
    },
    {
      "epoch": 0.2660831509846827,
      "grad_norm": 15.40426254272461,
      "learning_rate": 0.0001425,
      "loss": 5.1345,
      "step": 19
    },
    {
      "epoch": 0.2800875273522976,
      "grad_norm": 13.663360595703125,
      "learning_rate": 0.00015,
      "loss": 4.3361,
      "step": 20
    },
    {
      "epoch": 0.29409190371991245,
      "grad_norm": 14.994868278503418,
      "learning_rate": 0.00014997810105601446,
      "loss": 3.2669,
      "step": 21
    },
    {
      "epoch": 0.3080962800875274,
      "grad_norm": 17.923627853393555,
      "learning_rate": 0.0001499124170124245,
      "loss": 2.8837,
      "step": 22
    },
    {
      "epoch": 0.32210065645514224,
      "grad_norm": 10.781777381896973,
      "learning_rate": 0.00014980298622686183,
      "loss": 2.5867,
      "step": 23
    },
    {
      "epoch": 0.3361050328227571,
      "grad_norm": 17.933012008666992,
      "learning_rate": 0.00014964987260382363,
      "loss": 3.79,
      "step": 24
    },
    {
      "epoch": 0.350109409190372,
      "grad_norm": 14.919720649719238,
      "learning_rate": 0.00014945316555735403,
      "loss": 3.5252,
      "step": 25
    },
    {
      "epoch": 0.36411378555798685,
      "grad_norm": 13.19090747833252,
      "learning_rate": 0.0001492129799588288,
      "loss": 2.2783,
      "step": 26
    },
    {
      "epoch": 0.37811816192560177,
      "grad_norm": 14.870774269104004,
      "learning_rate": 0.0001489294560698738,
      "loss": 3.1369,
      "step": 27
    },
    {
      "epoch": 0.39212253829321664,
      "grad_norm": 14.277947425842285,
      "learning_rate": 0.000148602759460456,
      "loss": 2.5122,
      "step": 28
    },
    {
      "epoch": 0.4061269146608315,
      "grad_norm": 17.441390991210938,
      "learning_rate": 0.0001482330809121954,
      "loss": 2.9346,
      "step": 29
    },
    {
      "epoch": 0.4201312910284464,
      "grad_norm": 10.07897663116455,
      "learning_rate": 0.00014782063630695388,
      "loss": 2.3027,
      "step": 30
    },
    {
      "epoch": 0.43413566739606124,
      "grad_norm": 9.020223617553711,
      "learning_rate": 0.00014736566650076636,
      "loss": 1.944,
      "step": 31
    },
    {
      "epoch": 0.44814004376367617,
      "grad_norm": 12.858219146728516,
      "learning_rate": 0.00014686843718318744,
      "loss": 1.5195,
      "step": 32
    },
    {
      "epoch": 0.46214442013129103,
      "grad_norm": 10.95540714263916,
      "learning_rate": 0.00014632923872213652,
      "loss": 2.419,
      "step": 33
    },
    {
      "epoch": 0.4761487964989059,
      "grad_norm": 10.858210563659668,
      "learning_rate": 0.0001457483859943307,
      "loss": 2.6077,
      "step": 34
    },
    {
      "epoch": 0.49015317286652077,
      "grad_norm": 7.009860515594482,
      "learning_rate": 0.00014512621820140611,
      "loss": 2.3664,
      "step": 35
    },
    {
      "epoch": 0.5041575492341357,
      "grad_norm": 6.658543109893799,
      "learning_rate": 0.0001444630986718332,
      "loss": 1.1082,
      "step": 36
    },
    {
      "epoch": 0.5181619256017506,
      "grad_norm": 5.971487998962402,
      "learning_rate": 0.00014375941464874368,
      "loss": 1.558,
      "step": 37
    },
    {
      "epoch": 0.5321663019693654,
      "grad_norm": 7.628395080566406,
      "learning_rate": 0.0001430155770637909,
      "loss": 1.949,
      "step": 38
    },
    {
      "epoch": 0.5461706783369803,
      "grad_norm": 14.131255149841309,
      "learning_rate": 0.00014223202029717776,
      "loss": 2.6442,
      "step": 39
    },
    {
      "epoch": 0.5601750547045952,
      "grad_norm": 7.39982271194458,
      "learning_rate": 0.0001414092019239907,
      "loss": 1.7663,
      "step": 40
    },
    {
      "epoch": 0.57417943107221,
      "grad_norm": 8.183086395263672,
      "learning_rate": 0.00014054760244698884,
      "loss": 1.7819,
      "step": 41
    },
    {
      "epoch": 0.5881838074398249,
      "grad_norm": 6.441479682922363,
      "learning_rate": 0.00013964772501600368,
      "loss": 1.7133,
      "step": 42
    },
    {
      "epoch": 0.6021881838074398,
      "grad_norm": 11.74283504486084,
      "learning_rate": 0.00013871009513411408,
      "loss": 2.4207,
      "step": 43
    },
    {
      "epoch": 0.6161925601750547,
      "grad_norm": 6.086061477661133,
      "learning_rate": 0.00013773526035076698,
      "loss": 1.271,
      "step": 44
    },
    {
      "epoch": 0.6301969365426696,
      "grad_norm": 8.047619819641113,
      "learning_rate": 0.00013672378994202423,
      "loss": 1.837,
      "step": 45
    },
    {
      "epoch": 0.6442013129102845,
      "grad_norm": 11.720404624938965,
      "learning_rate": 0.00013567627457812106,
      "loss": 1.9628,
      "step": 46
    },
    {
      "epoch": 0.6582056892778994,
      "grad_norm": 7.418464660644531,
      "learning_rate": 0.00013459332597853157,
      "loss": 2.1906,
      "step": 47
    },
    {
      "epoch": 0.6722100656455142,
      "grad_norm": 5.253023147583008,
      "learning_rate": 0.00013347557655474167,
      "loss": 1.2249,
      "step": 48
    },
    {
      "epoch": 0.6862144420131291,
      "grad_norm": 6.372616291046143,
      "learning_rate": 0.0001323236790409386,
      "loss": 1.5337,
      "step": 49
    },
    {
      "epoch": 0.700218818380744,
      "grad_norm": 6.444860458374023,
      "learning_rate": 0.00013113830611283258,
      "loss": 1.9269,
      "step": 50
    },
    {
      "epoch": 0.700218818380744,
      "eval_loss": 0.06303766369819641,
      "eval_runtime": 37.4056,
      "eval_samples_per_second": 6.443,
      "eval_steps_per_second": 3.235,
      "step": 50
    },
    {
      "epoch": 0.7142231947483588,
      "grad_norm": 6.532812118530273,
      "learning_rate": 0.00012992014999483302,
      "loss": 1.7148,
      "step": 51
    },
    {
      "epoch": 0.7282275711159737,
      "grad_norm": 5.408838748931885,
      "learning_rate": 0.00012866992205580908,
      "loss": 2.6251,
      "step": 52
    },
    {
      "epoch": 0.7422319474835887,
      "grad_norm": 8.420281410217285,
      "learning_rate": 0.00012738835239367027,
      "loss": 1.8761,
      "step": 53
    },
    {
      "epoch": 0.7562363238512035,
      "grad_norm": 5.919778347015381,
      "learning_rate": 0.00012607618940900977,
      "loss": 1.8202,
      "step": 54
    },
    {
      "epoch": 0.7702407002188184,
      "grad_norm": 7.590326309204102,
      "learning_rate": 0.00012473419936805962,
      "loss": 2.0368,
      "step": 55
    },
    {
      "epoch": 0.7842450765864333,
      "grad_norm": 5.551327228546143,
      "learning_rate": 0.0001233631659552128,
      "loss": 1.5056,
      "step": 56
    },
    {
      "epoch": 0.7982494529540481,
      "grad_norm": 4.756547451019287,
      "learning_rate": 0.00012196388981537352,
      "loss": 1.9188,
      "step": 57
    },
    {
      "epoch": 0.812253829321663,
      "grad_norm": 5.172512054443359,
      "learning_rate": 0.00012053718808640333,
      "loss": 1.4091,
      "step": 58
    },
    {
      "epoch": 0.8262582056892779,
      "grad_norm": 8.058588981628418,
      "learning_rate": 0.00011908389392193547,
      "loss": 2.8933,
      "step": 59
    },
    {
      "epoch": 0.8402625820568927,
      "grad_norm": 5.907708168029785,
      "learning_rate": 0.00011760485600483667,
      "loss": 1.4843,
      "step": 60
    },
    {
      "epoch": 0.8542669584245076,
      "grad_norm": 6.655636310577393,
      "learning_rate": 0.00011610093805160025,
      "loss": 2.0464,
      "step": 61
    },
    {
      "epoch": 0.8682713347921225,
      "grad_norm": 7.76405668258667,
      "learning_rate": 0.00011457301830795994,
      "loss": 2.042,
      "step": 62
    },
    {
      "epoch": 0.8822757111597375,
      "grad_norm": 8.136941909790039,
      "learning_rate": 0.00011302198903601928,
      "loss": 1.8616,
      "step": 63
    },
    {
      "epoch": 0.8962800875273523,
      "grad_norm": 4.971902370452881,
      "learning_rate": 0.00011144875599319543,
      "loss": 1.8062,
      "step": 64
    },
    {
      "epoch": 0.9102844638949672,
      "grad_norm": 4.203851222991943,
      "learning_rate": 0.00010985423790328263,
      "loss": 1.1645,
      "step": 65
    }
  ],
  "logging_steps": 1,
  "max_steps": 150,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 13,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.633736372224e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}