{
  "best_metric": 0.8842460513114929,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 0.03139224611520954,
  "eval_steps": 50,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0006278449223041908,
      "grad_norm": 0.29474231600761414,
      "learning_rate": 1e-05,
      "loss": 0.5215,
      "step": 1
    },
    {
      "epoch": 0.0006278449223041908,
      "eval_loss": 1.0530985593795776,
      "eval_runtime": 83.8983,
      "eval_samples_per_second": 31.979,
      "eval_steps_per_second": 7.998,
      "step": 1
    },
    {
      "epoch": 0.0012556898446083817,
      "grad_norm": 0.3529818058013916,
      "learning_rate": 2e-05,
      "loss": 0.6006,
      "step": 2
    },
    {
      "epoch": 0.0018835347669125726,
      "grad_norm": 0.33801841735839844,
      "learning_rate": 3e-05,
      "loss": 0.711,
      "step": 3
    },
    {
      "epoch": 0.0025113796892167633,
      "grad_norm": 0.3358214795589447,
      "learning_rate": 4e-05,
      "loss": 0.6543,
      "step": 4
    },
    {
      "epoch": 0.0031392246115209545,
      "grad_norm": 0.34503278136253357,
      "learning_rate": 5e-05,
      "loss": 0.7748,
      "step": 5
    },
    {
      "epoch": 0.003767069533825145,
      "grad_norm": 0.38686808943748474,
      "learning_rate": 6e-05,
      "loss": 0.7512,
      "step": 6
    },
    {
      "epoch": 0.004394914456129336,
      "grad_norm": 0.3241465985774994,
      "learning_rate": 7e-05,
      "loss": 0.7033,
      "step": 7
    },
    {
      "epoch": 0.005022759378433527,
      "grad_norm": 0.3426409065723419,
      "learning_rate": 8e-05,
      "loss": 0.6909,
      "step": 8
    },
    {
      "epoch": 0.005650604300737718,
      "grad_norm": 0.3962495028972626,
      "learning_rate": 9e-05,
      "loss": 0.7669,
      "step": 9
    },
    {
      "epoch": 0.006278449223041909,
      "grad_norm": 0.3876018226146698,
      "learning_rate": 0.0001,
      "loss": 0.798,
      "step": 10
    },
    {
      "epoch": 0.006906294145346099,
      "grad_norm": 0.4307634234428406,
      "learning_rate": 9.999316524962345e-05,
      "loss": 0.7384,
      "step": 11
    },
    {
      "epoch": 0.00753413906765029,
      "grad_norm": 0.4623281955718994,
      "learning_rate": 9.997266286704631e-05,
      "loss": 0.8388,
      "step": 12
    },
    {
      "epoch": 0.00816198398995448,
      "grad_norm": 0.4244893491268158,
      "learning_rate": 9.993849845741524e-05,
      "loss": 0.8525,
      "step": 13
    },
    {
      "epoch": 0.008789828912258673,
      "grad_norm": 0.4223202168941498,
      "learning_rate": 9.989068136093873e-05,
      "loss": 0.7995,
      "step": 14
    },
    {
      "epoch": 0.009417673834562863,
      "grad_norm": 0.4026021361351013,
      "learning_rate": 9.98292246503335e-05,
      "loss": 0.8481,
      "step": 15
    },
    {
      "epoch": 0.010045518756867053,
      "grad_norm": 0.4413195252418518,
      "learning_rate": 9.975414512725057e-05,
      "loss": 0.916,
      "step": 16
    },
    {
      "epoch": 0.010673363679171245,
      "grad_norm": 0.4151124060153961,
      "learning_rate": 9.966546331768191e-05,
      "loss": 0.8271,
      "step": 17
    },
    {
      "epoch": 0.011301208601475436,
      "grad_norm": 0.42092135548591614,
      "learning_rate": 9.956320346634876e-05,
      "loss": 0.8536,
      "step": 18
    },
    {
      "epoch": 0.011929053523779626,
      "grad_norm": 0.4100762903690338,
      "learning_rate": 9.944739353007344e-05,
      "loss": 0.905,
      "step": 19
    },
    {
      "epoch": 0.012556898446083818,
      "grad_norm": 0.4030074179172516,
      "learning_rate": 9.931806517013612e-05,
      "loss": 0.8836,
      "step": 20
    },
    {
      "epoch": 0.013184743368388008,
      "grad_norm": 0.4809715747833252,
      "learning_rate": 9.917525374361912e-05,
      "loss": 1.0331,
      "step": 21
    },
    {
      "epoch": 0.013812588290692198,
      "grad_norm": 0.4507080912590027,
      "learning_rate": 9.901899829374047e-05,
      "loss": 0.8735,
      "step": 22
    },
    {
      "epoch": 0.01444043321299639,
      "grad_norm": 0.44013890624046326,
      "learning_rate": 9.884934153917997e-05,
      "loss": 0.8703,
      "step": 23
    },
    {
      "epoch": 0.01506827813530058,
      "grad_norm": 0.4327889680862427,
      "learning_rate": 9.86663298624003e-05,
      "loss": 0.8117,
      "step": 24
    },
    {
      "epoch": 0.01569612305760477,
      "grad_norm": 0.4711591899394989,
      "learning_rate": 9.847001329696653e-05,
      "loss": 0.8307,
      "step": 25
    },
    {
      "epoch": 0.01632396797990896,
      "grad_norm": 0.47128742933273315,
      "learning_rate": 9.826044551386744e-05,
      "loss": 0.7942,
      "step": 26
    },
    {
      "epoch": 0.016951812902213155,
      "grad_norm": 0.484572172164917,
      "learning_rate": 9.803768380684242e-05,
      "loss": 0.8771,
      "step": 27
    },
    {
      "epoch": 0.017579657824517345,
      "grad_norm": 0.4840153157711029,
      "learning_rate": 9.780178907671789e-05,
      "loss": 0.7735,
      "step": 28
    },
    {
      "epoch": 0.018207502746821536,
      "grad_norm": 0.48889270424842834,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.8289,
      "step": 29
    },
    {
      "epoch": 0.018835347669125726,
      "grad_norm": 0.4968271255493164,
      "learning_rate": 9.729086208503174e-05,
      "loss": 0.869,
      "step": 30
    },
    {
      "epoch": 0.019463192591429916,
      "grad_norm": 0.5126733183860779,
      "learning_rate": 9.701596950580806e-05,
      "loss": 0.7811,
      "step": 31
    },
    {
      "epoch": 0.020091037513734106,
      "grad_norm": 0.5412195920944214,
      "learning_rate": 9.672822322997305e-05,
      "loss": 0.8547,
      "step": 32
    },
    {
      "epoch": 0.0207188824360383,
      "grad_norm": 0.5129484534263611,
      "learning_rate": 9.642770192448536e-05,
      "loss": 0.8867,
      "step": 33
    },
    {
      "epoch": 0.02134672735834249,
      "grad_norm": 0.5988695025444031,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.7868,
      "step": 34
    },
    {
      "epoch": 0.02197457228064668,
      "grad_norm": 0.5805250406265259,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.7404,
      "step": 35
    },
    {
      "epoch": 0.02260241720295087,
      "grad_norm": 0.5965076684951782,
      "learning_rate": 9.545032675245813e-05,
      "loss": 0.9184,
      "step": 36
    },
    {
      "epoch": 0.02323026212525506,
      "grad_norm": 0.6509871482849121,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.7976,
      "step": 37
    },
    {
      "epoch": 0.02385810704755925,
      "grad_norm": 0.622890830039978,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.9548,
      "step": 38
    },
    {
      "epoch": 0.024485951969863445,
      "grad_norm": 0.6913728713989258,
      "learning_rate": 9.43611409721806e-05,
      "loss": 0.9519,
      "step": 39
    },
    {
      "epoch": 0.025113796892167636,
      "grad_norm": 0.6338409185409546,
      "learning_rate": 9.397368756032445e-05,
      "loss": 0.8095,
      "step": 40
    },
    {
      "epoch": 0.025741641814471826,
      "grad_norm": 0.7815749645233154,
      "learning_rate": 9.357421218136386e-05,
      "loss": 0.8146,
      "step": 41
    },
    {
      "epoch": 0.026369486736776016,
      "grad_norm": 0.7960447669029236,
      "learning_rate": 9.316282404787871e-05,
      "loss": 0.8733,
      "step": 42
    },
    {
      "epoch": 0.026997331659080206,
      "grad_norm": 0.8016958236694336,
      "learning_rate": 9.273963562927695e-05,
      "loss": 0.8721,
      "step": 43
    },
    {
      "epoch": 0.027625176581384397,
      "grad_norm": 0.9644938707351685,
      "learning_rate": 9.230476262104677e-05,
      "loss": 1.0231,
      "step": 44
    },
    {
      "epoch": 0.02825302150368859,
      "grad_norm": 0.8886382579803467,
      "learning_rate": 9.185832391312644e-05,
      "loss": 0.8915,
      "step": 45
    },
    {
      "epoch": 0.02888086642599278,
      "grad_norm": 1.0618637800216675,
      "learning_rate": 9.140044155740101e-05,
      "loss": 1.075,
      "step": 46
    },
    {
      "epoch": 0.02950871134829697,
      "grad_norm": 1.19996178150177,
      "learning_rate": 9.093124073433463e-05,
      "loss": 0.9996,
      "step": 47
    },
    {
      "epoch": 0.03013655627060116,
      "grad_norm": 1.4232078790664673,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.1055,
      "step": 48
    },
    {
      "epoch": 0.03076440119290535,
      "grad_norm": 1.5065048933029175,
      "learning_rate": 8.995939984474624e-05,
      "loss": 1.3109,
      "step": 49
    },
    {
      "epoch": 0.03139224611520954,
      "grad_norm": 1.9556245803833008,
      "learning_rate": 8.945702546981969e-05,
      "loss": 1.0269,
      "step": 50
    },
    {
      "epoch": 0.03139224611520954,
      "eval_loss": 0.8842460513114929,
      "eval_runtime": 84.4095,
      "eval_samples_per_second": 31.786,
      "eval_steps_per_second": 7.949,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.421956217831424e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}