{
  "best_metric": 0.646575927734375,
  "best_model_checkpoint": "miner_id_24/checkpoint-1840",
  "epoch": 2.798001427551749,
  "eval_steps": 40,
  "global_step": 1960,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0014275517487508922,
      "eval_loss": 2.6241602897644043,
      "eval_runtime": 3.454,
      "eval_samples_per_second": 33.295,
      "eval_steps_per_second": 1.158,
      "step": 1
    },
    {
      "epoch": 0.05710206995003569,
      "eval_loss": 2.2859995365142822,
      "eval_runtime": 3.4369,
      "eval_samples_per_second": 33.461,
      "eval_steps_per_second": 1.164,
      "step": 40
    },
    {
      "epoch": 0.11420413990007137,
      "eval_loss": 1.9066081047058105,
      "eval_runtime": 3.569,
      "eval_samples_per_second": 32.222,
      "eval_steps_per_second": 1.121,
      "step": 80
    },
    {
      "epoch": 0.14275517487508924,
      "grad_norm": 6.376378536224365,
      "learning_rate": 0.00013761467889908255,
      "loss": 4.9536,
      "step": 100
    },
    {
      "epoch": 0.17130620985010706,
      "eval_loss": 1.7338049411773682,
      "eval_runtime": 3.5172,
      "eval_samples_per_second": 32.696,
      "eval_steps_per_second": 1.137,
      "step": 120
    },
    {
      "epoch": 0.22840827980014275,
      "eval_loss": 1.6253185272216797,
      "eval_runtime": 3.4638,
      "eval_samples_per_second": 33.201,
      "eval_steps_per_second": 1.155,
      "step": 160
    },
    {
      "epoch": 0.28551034975017847,
      "grad_norm": 3.5151774883270264,
      "learning_rate": 0.0002752293577981651,
      "loss": 3.6406,
      "step": 200
    },
    {
      "epoch": 0.28551034975017847,
      "eval_loss": 1.5643784999847412,
      "eval_runtime": 3.5326,
      "eval_samples_per_second": 32.554,
      "eval_steps_per_second": 1.132,
      "step": 200
    },
    {
      "epoch": 0.3426124197002141,
      "eval_loss": 1.4933531284332275,
      "eval_runtime": 3.5491,
      "eval_samples_per_second": 32.402,
      "eval_steps_per_second": 1.127,
      "step": 240
    },
    {
      "epoch": 0.3997144896502498,
      "eval_loss": 1.4442161321640015,
      "eval_runtime": 3.5073,
      "eval_samples_per_second": 32.789,
      "eval_steps_per_second": 1.14,
      "step": 280
    },
    {
      "epoch": 0.4282655246252677,
      "grad_norm": 3.7754976749420166,
      "learning_rate": 0.0002999958858736361,
      "loss": 3.1356,
      "step": 300
    },
    {
      "epoch": 0.4568165596002855,
      "eval_loss": 1.3713915348052979,
      "eval_runtime": 3.4547,
      "eval_samples_per_second": 33.288,
      "eval_steps_per_second": 1.158,
      "step": 320
    },
    {
      "epoch": 0.5139186295503212,
      "eval_loss": 1.3405636548995972,
      "eval_runtime": 3.4457,
      "eval_samples_per_second": 33.375,
      "eval_steps_per_second": 1.161,
      "step": 360
    },
    {
      "epoch": 0.5710206995003569,
      "grad_norm": 4.63564920425415,
      "learning_rate": 0.00029997973321299517,
      "loss": 2.8521,
      "step": 400
    },
    {
      "epoch": 0.5710206995003569,
      "eval_loss": 1.3139711618423462,
      "eval_runtime": 3.5109,
      "eval_samples_per_second": 32.756,
      "eval_steps_per_second": 1.139,
      "step": 400
    },
    {
      "epoch": 0.6281227694503926,
      "eval_loss": 1.229024052619934,
      "eval_runtime": 3.4196,
      "eval_samples_per_second": 33.63,
      "eval_steps_per_second": 1.17,
      "step": 440
    },
    {
      "epoch": 0.6852248394004282,
      "eval_loss": 1.1974313259124756,
      "eval_runtime": 3.4703,
      "eval_samples_per_second": 33.138,
      "eval_steps_per_second": 1.153,
      "step": 480
    },
    {
      "epoch": 0.7137758743754461,
      "grad_norm": 3.106452226638794,
      "learning_rate": 0.0002999513450932977,
      "loss": 2.7573,
      "step": 500
    },
    {
      "epoch": 0.742326909350464,
      "eval_loss": 1.1787874698638916,
      "eval_runtime": 3.47,
      "eval_samples_per_second": 33.141,
      "eval_steps_per_second": 1.153,
      "step": 520
    },
    {
      "epoch": 0.7994289793004996,
      "eval_loss": 1.1294182538986206,
      "eval_runtime": 3.4194,
      "eval_samples_per_second": 33.632,
      "eval_steps_per_second": 1.17,
      "step": 560
    },
    {
      "epoch": 0.8565310492505354,
      "grad_norm": 4.655078411102295,
      "learning_rate": 0.00029991072383046797,
      "loss": 2.3985,
      "step": 600
    },
    {
      "epoch": 0.8565310492505354,
      "eval_loss": 1.1245826482772827,
      "eval_runtime": 3.472,
      "eval_samples_per_second": 33.122,
      "eval_steps_per_second": 1.152,
      "step": 600
    },
    {
      "epoch": 0.913633119200571,
      "eval_loss": 1.0636686086654663,
      "eval_runtime": 3.4569,
      "eval_samples_per_second": 33.267,
      "eval_steps_per_second": 1.157,
      "step": 640
    },
    {
      "epoch": 0.9707351891506067,
      "eval_loss": 1.0166677236557007,
      "eval_runtime": 3.6167,
      "eval_samples_per_second": 31.797,
      "eval_steps_per_second": 1.106,
      "step": 680
    },
    {
      "epoch": 0.9992862241256245,
      "grad_norm": 4.026608467102051,
      "learning_rate": 0.0002998578727384189,
      "loss": 2.2745,
      "step": 700
    },
    {
      "epoch": 1.0278372591006424,
      "eval_loss": 1.0103121995925903,
      "eval_runtime": 3.4673,
      "eval_samples_per_second": 33.167,
      "eval_steps_per_second": 1.154,
      "step": 720
    },
    {
      "epoch": 1.0849393290506781,
      "eval_loss": 0.9873223900794983,
      "eval_runtime": 3.4608,
      "eval_samples_per_second": 33.229,
      "eval_steps_per_second": 1.156,
      "step": 760
    },
    {
      "epoch": 1.1420413990007137,
      "grad_norm": 6.209025859832764,
      "learning_rate": 0.00029979279612878226,
      "loss": 1.8141,
      "step": 800
    },
    {
      "epoch": 1.1420413990007137,
      "eval_loss": 0.9796751141548157,
      "eval_runtime": 3.5186,
      "eval_samples_per_second": 32.683,
      "eval_steps_per_second": 1.137,
      "step": 800
    },
    {
      "epoch": 1.1991434689507494,
      "eval_loss": 0.9596832990646362,
      "eval_runtime": 3.4646,
      "eval_samples_per_second": 33.193,
      "eval_steps_per_second": 1.155,
      "step": 840
    },
    {
      "epoch": 1.2562455389007852,
      "eval_loss": 0.945811927318573,
      "eval_runtime": 3.4319,
      "eval_samples_per_second": 33.509,
      "eval_steps_per_second": 1.166,
      "step": 880
    },
    {
      "epoch": 1.284796573875803,
      "grad_norm": 4.082645416259766,
      "learning_rate": 0.0002997154993105566,
      "loss": 1.5585,
      "step": 900
    },
    {
      "epoch": 1.313347608850821,
      "eval_loss": 0.9203804135322571,
      "eval_runtime": 3.4359,
      "eval_samples_per_second": 33.47,
      "eval_steps_per_second": 1.164,
      "step": 920
    },
    {
      "epoch": 1.3704496788008567,
      "eval_loss": 0.9172277450561523,
      "eval_runtime": 3.479,
      "eval_samples_per_second": 33.056,
      "eval_steps_per_second": 1.15,
      "step": 960
    },
    {
      "epoch": 1.4275517487508922,
      "grad_norm": 4.086517333984375,
      "learning_rate": 0.0002996259885896743,
      "loss": 1.5745,
      "step": 1000
    },
    {
      "epoch": 1.4275517487508922,
      "eval_loss": 0.9019652009010315,
      "eval_runtime": 3.5068,
      "eval_samples_per_second": 32.793,
      "eval_steps_per_second": 1.141,
      "step": 1000
    },
    {
      "epoch": 1.484653818700928,
      "eval_loss": 0.8774219751358032,
      "eval_runtime": 3.5022,
      "eval_samples_per_second": 32.836,
      "eval_steps_per_second": 1.142,
      "step": 1040
    },
    {
      "epoch": 1.5417558886509637,
      "eval_loss": 0.8411704897880554,
      "eval_runtime": 3.4781,
      "eval_samples_per_second": 33.064,
      "eval_steps_per_second": 1.15,
      "step": 1080
    },
    {
      "epoch": 1.5703069236259815,
      "grad_norm": 1.3416516780853271,
      "learning_rate": 0.0002995242712684871,
      "loss": 1.3623,
      "step": 1100
    },
    {
      "epoch": 1.5988579586009992,
      "eval_loss": 0.8341473340988159,
      "eval_runtime": 3.5251,
      "eval_samples_per_second": 32.623,
      "eval_steps_per_second": 1.135,
      "step": 1120
    },
    {
      "epoch": 1.655960028551035,
      "eval_loss": 0.8323267102241516,
      "eval_runtime": 3.4934,
      "eval_samples_per_second": 32.919,
      "eval_steps_per_second": 1.145,
      "step": 1160
    },
    {
      "epoch": 1.7130620985010707,
      "grad_norm": 5.395486354827881,
      "learning_rate": 0.0002994103556451703,
      "loss": 1.3262,
      "step": 1200
    },
    {
      "epoch": 1.7130620985010707,
      "eval_loss": 0.7996125221252441,
      "eval_runtime": 3.4858,
      "eval_samples_per_second": 32.991,
      "eval_steps_per_second": 1.147,
      "step": 1200
    },
    {
      "epoch": 1.7701641684511062,
      "eval_loss": 0.8066531419754028,
      "eval_runtime": 3.4788,
      "eval_samples_per_second": 33.057,
      "eval_steps_per_second": 1.15,
      "step": 1240
    },
    {
      "epoch": 1.827266238401142,
      "eval_loss": 0.7751766443252563,
      "eval_runtime": 3.4563,
      "eval_samples_per_second": 33.273,
      "eval_steps_per_second": 1.157,
      "step": 1280
    },
    {
      "epoch": 1.85581727337616,
      "grad_norm": 1.97977876663208,
      "learning_rate": 0.00029928425101304583,
      "loss": 1.2514,
      "step": 1300
    },
    {
      "epoch": 1.8843683083511777,
      "eval_loss": 0.7176135778427124,
      "eval_runtime": 3.4289,
      "eval_samples_per_second": 33.539,
      "eval_steps_per_second": 1.167,
      "step": 1320
    },
    {
      "epoch": 1.9414703783012133,
      "eval_loss": 0.7170359492301941,
      "eval_runtime": 3.4671,
      "eval_samples_per_second": 33.168,
      "eval_steps_per_second": 1.154,
      "step": 1360
    },
    {
      "epoch": 1.9985724482512492,
      "grad_norm": 3.208996057510376,
      "learning_rate": 0.0002991459676598241,
      "loss": 1.2277,
      "step": 1400
    },
    {
      "epoch": 1.9985724482512492,
      "eval_loss": 0.7038947939872742,
      "eval_runtime": 3.4967,
      "eval_samples_per_second": 32.888,
      "eval_steps_per_second": 1.144,
      "step": 1400
    },
    {
      "epoch": 2.0556745182012848,
      "eval_loss": 0.7032578587532043,
      "eval_runtime": 3.4286,
      "eval_samples_per_second": 33.542,
      "eval_steps_per_second": 1.167,
      "step": 1440
    },
    {
      "epoch": 2.1127765881513203,
      "eval_loss": 0.7024741172790527,
      "eval_runtime": 3.4401,
      "eval_samples_per_second": 33.429,
      "eval_steps_per_second": 1.163,
      "step": 1480
    },
    {
      "epoch": 2.1413276231263385,
      "grad_norm": 5.024557113647461,
      "learning_rate": 0.0002989955168667647,
      "loss": 0.68,
      "step": 1500
    },
    {
      "epoch": 2.1698786581013563,
      "eval_loss": 0.7079240083694458,
      "eval_runtime": 3.4687,
      "eval_samples_per_second": 33.154,
      "eval_steps_per_second": 1.153,
      "step": 1520
    },
    {
      "epoch": 2.226980728051392,
      "eval_loss": 0.7214464545249939,
      "eval_runtime": 3.4537,
      "eval_samples_per_second": 33.297,
      "eval_steps_per_second": 1.158,
      "step": 1560
    },
    {
      "epoch": 2.2840827980014273,
      "grad_norm": 2.2797622680664062,
      "learning_rate": 0.0002988329109077561,
      "loss": 0.809,
      "step": 1600
    },
    {
      "epoch": 2.2840827980014273,
      "eval_loss": 0.6896761059761047,
      "eval_runtime": 3.4437,
      "eval_samples_per_second": 33.394,
      "eval_steps_per_second": 1.162,
      "step": 1600
    },
    {
      "epoch": 2.3411848679514633,
      "eval_loss": 0.7046868801116943,
      "eval_runtime": 3.4498,
      "eval_samples_per_second": 33.335,
      "eval_steps_per_second": 1.159,
      "step": 1640
    },
    {
      "epoch": 2.398286937901499,
      "eval_loss": 0.7042288780212402,
      "eval_runtime": 3.425,
      "eval_samples_per_second": 33.577,
      "eval_steps_per_second": 1.168,
      "step": 1680
    },
    {
      "epoch": 2.4268379728765166,
      "grad_norm": 2.373941421508789,
      "learning_rate": 0.00029865816304831436,
      "loss": 0.7931,
      "step": 1700
    },
    {
      "epoch": 2.455389007851535,
      "eval_loss": 0.6791558861732483,
      "eval_runtime": 3.4601,
      "eval_samples_per_second": 33.236,
      "eval_steps_per_second": 1.156,
      "step": 1720
    },
    {
      "epoch": 2.5124910778015703,
      "eval_loss": 0.6776650547981262,
      "eval_runtime": 3.4939,
      "eval_samples_per_second": 32.915,
      "eval_steps_per_second": 1.145,
      "step": 1760
    },
    {
      "epoch": 2.569593147751606,
      "grad_norm": 3.9278931617736816,
      "learning_rate": 0.0002984712875445008,
      "loss": 0.6957,
      "step": 1800
    },
    {
      "epoch": 2.569593147751606,
      "eval_loss": 0.6809150576591492,
      "eval_runtime": 3.4802,
      "eval_samples_per_second": 33.044,
      "eval_steps_per_second": 1.149,
      "step": 1800
    },
    {
      "epoch": 2.626695217701642,
      "eval_loss": 0.646575927734375,
      "eval_runtime": 3.462,
      "eval_samples_per_second": 33.218,
      "eval_steps_per_second": 1.155,
      "step": 1840
    },
    {
      "epoch": 2.6837972876516774,
      "eval_loss": 0.6704702377319336,
      "eval_runtime": 3.4863,
      "eval_samples_per_second": 32.986,
      "eval_steps_per_second": 1.147,
      "step": 1880
    },
    {
      "epoch": 2.712348322626695,
      "grad_norm": 3.325489044189453,
      "learning_rate": 0.0002982722996417592,
      "loss": 0.7611,
      "step": 1900
    },
    {
      "epoch": 2.7408993576017133,
      "eval_loss": 0.6548537015914917,
      "eval_runtime": 3.5385,
      "eval_samples_per_second": 32.5,
      "eval_steps_per_second": 1.13,
      "step": 1920
    },
    {
      "epoch": 2.798001427551749,
      "eval_loss": 0.6539962887763977,
      "eval_runtime": 3.4712,
      "eval_samples_per_second": 33.13,
      "eval_steps_per_second": 1.152,
      "step": 1960
    }
  ],
  "logging_steps": 100,
  "max_steps": 35000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 40,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 3
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.3002531516841984e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}