{
  "best_metric": 0.4655110836029053,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 0.8213552361396304,
  "eval_steps": 25,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01642710472279261,
      "grad_norm": 15.568214416503906,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 30.9052,
      "step": 1
    },
    {
      "epoch": 0.01642710472279261,
      "eval_loss": 2.286381721496582,
      "eval_runtime": 5.621,
      "eval_samples_per_second": 8.895,
      "eval_steps_per_second": 2.313,
      "step": 1
    },
    {
      "epoch": 0.03285420944558522,
      "grad_norm": 22.54844856262207,
      "learning_rate": 6.666666666666667e-05,
      "loss": 39.0535,
      "step": 2
    },
    {
      "epoch": 0.049281314168377825,
      "grad_norm": 21.040302276611328,
      "learning_rate": 0.0001,
      "loss": 42.1069,
      "step": 3
    },
    {
      "epoch": 0.06570841889117043,
      "grad_norm": 26.574378967285156,
      "learning_rate": 9.99571699711836e-05,
      "loss": 43.8405,
      "step": 4
    },
    {
      "epoch": 0.08213552361396304,
      "grad_norm": 37.71279525756836,
      "learning_rate": 9.982876141412856e-05,
      "loss": 41.3258,
      "step": 5
    },
    {
      "epoch": 0.09856262833675565,
      "grad_norm": 56.77770233154297,
      "learning_rate": 9.961501876182148e-05,
      "loss": 42.9491,
      "step": 6
    },
    {
      "epoch": 0.11498973305954825,
      "grad_norm": 66.04659271240234,
      "learning_rate": 9.931634888554937e-05,
      "loss": 42.2035,
      "step": 7
    },
    {
      "epoch": 0.13141683778234087,
      "grad_norm": 53.754615783691406,
      "learning_rate": 9.893332032039701e-05,
      "loss": 39.494,
      "step": 8
    },
    {
      "epoch": 0.14784394250513347,
      "grad_norm": 44.190670013427734,
      "learning_rate": 9.846666218300807e-05,
      "loss": 35.664,
      "step": 9
    },
    {
      "epoch": 0.16427104722792607,
      "grad_norm": 26.31325340270996,
      "learning_rate": 9.791726278367022e-05,
      "loss": 30.8286,
      "step": 10
    },
    {
      "epoch": 0.1806981519507187,
      "grad_norm": 24.82964324951172,
      "learning_rate": 9.728616793536588e-05,
      "loss": 31.1001,
      "step": 11
    },
    {
      "epoch": 0.1971252566735113,
      "grad_norm": 30.97334861755371,
      "learning_rate": 9.657457896300791e-05,
      "loss": 26.235,
      "step": 12
    },
    {
      "epoch": 0.2135523613963039,
      "grad_norm": 26.34403419494629,
      "learning_rate": 9.578385041664925e-05,
      "loss": 16.5872,
      "step": 13
    },
    {
      "epoch": 0.2299794661190965,
      "grad_norm": 42.33058166503906,
      "learning_rate": 9.491548749301997e-05,
      "loss": 19.7948,
      "step": 14
    },
    {
      "epoch": 0.2464065708418891,
      "grad_norm": 43.08834457397461,
      "learning_rate": 9.397114317029975e-05,
      "loss": 20.5257,
      "step": 15
    },
    {
      "epoch": 0.26283367556468173,
      "grad_norm": 59.110679626464844,
      "learning_rate": 9.295261506157986e-05,
      "loss": 19.222,
      "step": 16
    },
    {
      "epoch": 0.2792607802874743,
      "grad_norm": 30.87586212158203,
      "learning_rate": 9.186184199300464e-05,
      "loss": 19.1409,
      "step": 17
    },
    {
      "epoch": 0.29568788501026694,
      "grad_norm": 39.186458587646484,
      "learning_rate": 9.070090031310558e-05,
      "loss": 20.3124,
      "step": 18
    },
    {
      "epoch": 0.31211498973305957,
      "grad_norm": 34.167564392089844,
      "learning_rate": 8.947199994035401e-05,
      "loss": 20.4534,
      "step": 19
    },
    {
      "epoch": 0.32854209445585214,
      "grad_norm": 31.283676147460938,
      "learning_rate": 8.817748015645558e-05,
      "loss": 19.5705,
      "step": 20
    },
    {
      "epoch": 0.34496919917864477,
      "grad_norm": 19.11994171142578,
      "learning_rate": 8.681980515339464e-05,
      "loss": 21.0683,
      "step": 21
    },
    {
      "epoch": 0.3613963039014374,
      "grad_norm": 16.854135513305664,
      "learning_rate": 8.540155934270471e-05,
      "loss": 21.02,
      "step": 22
    },
    {
      "epoch": 0.37782340862423,
      "grad_norm": 12.07785701751709,
      "learning_rate": 8.392544243589427e-05,
      "loss": 20.4653,
      "step": 23
    },
    {
      "epoch": 0.3942505133470226,
      "grad_norm": 19.570072174072266,
      "learning_rate": 8.239426430539243e-05,
      "loss": 21.2586,
      "step": 24
    },
    {
      "epoch": 0.4106776180698152,
      "grad_norm": 28.12590980529785,
      "learning_rate": 8.081093963579707e-05,
      "loss": 20.6126,
      "step": 25
    },
    {
      "epoch": 0.4106776180698152,
      "eval_loss": 0.5971322655677795,
      "eval_runtime": 5.7109,
      "eval_samples_per_second": 8.755,
      "eval_steps_per_second": 2.276,
      "step": 25
    },
    {
      "epoch": 0.4271047227926078,
      "grad_norm": 24.593185424804688,
      "learning_rate": 7.917848237560709e-05,
      "loss": 14.0883,
      "step": 26
    },
    {
      "epoch": 0.44353182751540043,
      "grad_norm": 20.8594970703125,
      "learning_rate": 7.75e-05,
      "loss": 14.9155,
      "step": 27
    },
    {
      "epoch": 0.459958932238193,
      "grad_norm": 14.129776954650879,
      "learning_rate": 7.577868759557654e-05,
      "loss": 16.0266,
      "step": 28
    },
    {
      "epoch": 0.47638603696098564,
      "grad_norm": 11.421152114868164,
      "learning_rate": 7.401782177833148e-05,
      "loss": 16.268,
      "step": 29
    },
    {
      "epoch": 0.4928131416837782,
      "grad_norm": 8.77751350402832,
      "learning_rate": 7.222075445642904e-05,
      "loss": 15.4968,
      "step": 30
    },
    {
      "epoch": 0.5092402464065708,
      "grad_norm": 8.126062393188477,
      "learning_rate": 7.03909064496551e-05,
      "loss": 16.2933,
      "step": 31
    },
    {
      "epoch": 0.5256673511293635,
      "grad_norm": 9.534149169921875,
      "learning_rate": 6.853176097769229e-05,
      "loss": 18.2007,
      "step": 32
    },
    {
      "epoch": 0.5420944558521561,
      "grad_norm": 9.915535926818848,
      "learning_rate": 6.664685702961344e-05,
      "loss": 16.2263,
      "step": 33
    },
    {
      "epoch": 0.5585215605749486,
      "grad_norm": 10.236954689025879,
      "learning_rate": 6.473978262721463e-05,
      "loss": 17.5051,
      "step": 34
    },
    {
      "epoch": 0.5749486652977412,
      "grad_norm": 12.080739974975586,
      "learning_rate": 6.281416799501188e-05,
      "loss": 16.8991,
      "step": 35
    },
    {
      "epoch": 0.5913757700205339,
      "grad_norm": 13.376237869262695,
      "learning_rate": 6.087367864990233e-05,
      "loss": 17.6223,
      "step": 36
    },
    {
      "epoch": 0.6078028747433265,
      "grad_norm": 15.929511070251465,
      "learning_rate": 5.8922008423644624e-05,
      "loss": 18.6204,
      "step": 37
    },
    {
      "epoch": 0.6242299794661191,
      "grad_norm": 11.249287605285645,
      "learning_rate": 5.696287243144013e-05,
      "loss": 13.2654,
      "step": 38
    },
    {
      "epoch": 0.6406570841889117,
      "grad_norm": 8.463708877563477,
      "learning_rate": 5.500000000000001e-05,
      "loss": 14.5936,
      "step": 39
    },
    {
      "epoch": 0.6570841889117043,
      "grad_norm": 9.492480278015137,
      "learning_rate": 5.303712756855988e-05,
      "loss": 13.5542,
      "step": 40
    },
    {
      "epoch": 0.6735112936344969,
      "grad_norm": 9.737853050231934,
      "learning_rate": 5.107799157635538e-05,
      "loss": 14.0081,
      "step": 41
    },
    {
      "epoch": 0.6899383983572895,
      "grad_norm": 8.300447463989258,
      "learning_rate": 4.912632135009769e-05,
      "loss": 13.108,
      "step": 42
    },
    {
      "epoch": 0.7063655030800822,
      "grad_norm": 7.692556858062744,
      "learning_rate": 4.718583200498814e-05,
      "loss": 15.0314,
      "step": 43
    },
    {
      "epoch": 0.7227926078028748,
      "grad_norm": 9.348422050476074,
      "learning_rate": 4.526021737278538e-05,
      "loss": 16.3044,
      "step": 44
    },
    {
      "epoch": 0.7392197125256673,
      "grad_norm": 9.944343566894531,
      "learning_rate": 4.3353142970386564e-05,
      "loss": 14.7704,
      "step": 45
    },
    {
      "epoch": 0.75564681724846,
      "grad_norm": 11.046955108642578,
      "learning_rate": 4.146823902230772e-05,
      "loss": 15.9394,
      "step": 46
    },
    {
      "epoch": 0.7720739219712526,
      "grad_norm": 11.804484367370605,
      "learning_rate": 3.960909355034491e-05,
      "loss": 15.4152,
      "step": 47
    },
    {
      "epoch": 0.7885010266940452,
      "grad_norm": 11.646093368530273,
      "learning_rate": 3.777924554357096e-05,
      "loss": 14.4148,
      "step": 48
    },
    {
      "epoch": 0.8049281314168378,
      "grad_norm": 14.222677230834961,
      "learning_rate": 3.598217822166854e-05,
      "loss": 17.4141,
      "step": 49
    },
    {
      "epoch": 0.8213552361396304,
      "grad_norm": 13.688545227050781,
      "learning_rate": 3.422131240442349e-05,
      "loss": 15.3378,
      "step": 50
    },
    {
      "epoch": 0.8213552361396304,
      "eval_loss": 0.4655110836029053,
      "eval_runtime": 5.7595,
      "eval_samples_per_second": 8.681,
      "eval_steps_per_second": 2.257,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 75,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 5.259156315439104e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}