Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +296 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1308 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,296 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-960h-lv60-self",
+  "activation_dropout": 0.1,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "calendar_set",
+    "1": "wavs/audio_volume_up",
+    "10": "qa_stock",
+    "11": "play_music",
+    "12": "recommendation_events",
+    "13": "qa_definition",
+    "14": "alarm_remove",
+    "15": "play_podcasts",
+    "16": "social_query",
+    "17": "email_addcontact",
+    "18": "news_query",
+    "19": "calendar_query",
+    "2": "iot_hue_lightup",
+    "20": "music_likeness",
+    "21": "general_quirky",
+    "22": "qa_factoid",
+    "23": "takeaway_order",
+    "24": "play_wavs/audiobook",
+    "25": "iot_cleaning",
+    "26": "general_greet",
+    "27": "transport_query",
+    "28": "transport_taxi",
+    "29": "email_sendemail",
+    "3": "weather_query",
+    "30": "general_joke",
+    "31": "qa_maths",
+    "32": "social_post",
+    "33": "transport_ticket",
+    "34": "cooking_recipe",
+    "35": "music_settings",
+    "36": "calendar_remove",
+    "37": "iot_wemo_on",
+    "38": "iot_hue_lightchange",
+    "39": "play_radio",
+    "4": "iot_coffee",
+    "40": "email_querycontact",
+    "41": "transport_traffic",
+    "42": "qa_currency",
+    "43": "datetime_query",
+    "44": "iot_hue_lightoff",
+    "45": "takeaway_query",
+    "46": "lists_createoradd",
+    "47": "music_query",
+    "48": "recommendation_locations",
+    "49": "lists_query",
+    "5": "wavs/audio_volume_mute",
+    "50": "recommendation_movies",
+    "51": "iot_wemo_off",
+    "52": "iot_hue_lighton",
+    "53": "sendemail",
+    "54": "wavs/audio_volume_down",
+    "55": "play_game",
+    "56": "music",
+    "57": "datetime_convert",
+    "58": "iot_hue_lightdim",
+    "59": "query",
+    "6": "lists_remove",
+    "60": "createoradd",
+    "61": "music_dislikeness",
+    "62": "podcasts",
+    "63": "joke",
+    "64": "set",
+    "65": "hue_lightup",
+    "66": "factoid",
+    "67": "wavs/audio_volume_other",
+    "68": "hue_lightoff",
+    "69": "quirky",
+    "7": "email_query",
+    "70": "querycontact",
+    "71": "radio",
+    "72": "addcontact",
+    "73": "greet",
+    "74": "ticket",
+    "75": "traffic",
+    "76": "cooking_query",
+    "77": "remove",
+    "78": "currency",
+    "79": "coffee",
+    "8": "alarm_set",
+    "80": "game",
+    "81": "wemo_on",
+    "82": "definition",
+    "83": "events",
+    "84": "post",
+    "85": "hue_lightdim",
+    "86": "convert",
+    "87": "wemo_off",
+    "88": "cleaning",
+    "89": "settings",
+    "9": "alarm_query",
+    "90": "volume_other"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "addcontact": "72",
+    "alarm_query": "9",
+    "alarm_remove": "14",
+    "alarm_set": "8",
+    "calendar_query": "19",
+    "calendar_remove": "36",
+    "calendar_set": "0",
+    "cleaning": "88",
+    "coffee": "79",
+    "convert": "86",
+    "cooking_query": "76",
+    "cooking_recipe": "34",
+    "createoradd": "60",
+    "currency": "78",
+    "datetime_convert": "57",
+    "datetime_query": "43",
+    "definition": "82",
+    "email_addcontact": "17",
+    "email_query": "7",
+    "email_querycontact": "40",
+    "email_sendemail": "29",
+    "events": "83",
+    "factoid": "66",
+    "game": "80",
+    "general_greet": "26",
+    "general_joke": "30",
+    "general_quirky": "21",
+    "greet": "73",
+    "hue_lightdim": "85",
+    "hue_lightoff": "68",
+    "hue_lightup": "65",
+    "iot_cleaning": "25",
+    "iot_coffee": "4",
+    "iot_hue_lightchange": "38",
+    "iot_hue_lightdim": "58",
+    "iot_hue_lightoff": "44",
+    "iot_hue_lighton": "52",
+    "iot_hue_lightup": "2",
+    "iot_wemo_off": "51",
+    "iot_wemo_on": "37",
+    "joke": "63",
+    "lists_createoradd": "46",
+    "lists_query": "49",
+    "lists_remove": "6",
+    "music": "56",
+    "music_dislikeness": "61",
+    "music_likeness": "20",
+    "music_query": "47",
+    "music_settings": "35",
+    "news_query": "18",
+    "play_game": "55",
+    "play_music": "11",
+    "play_podcasts": "15",
+    "play_radio": "39",
+    "play_wavs/audiobook": "24",
+    "podcasts": "62",
+    "post": "84",
+    "qa_currency": "42",
+    "qa_definition": "13",
+    "qa_factoid": "22",
+    "qa_maths": "31",
+    "qa_stock": "10",
+    "query": "59",
+    "querycontact": "70",
+    "quirky": "69",
+    "radio": "71",
+    "recommendation_events": "12",
+    "recommendation_locations": "48",
+    "recommendation_movies": "50",
+    "remove": "77",
+    "sendemail": "53",
+    "set": "64",
+    "settings": "89",
+    "social_post": "32",
+    "social_query": "16",
+    "takeaway_order": "23",
+    "takeaway_query": "45",
+    "ticket": "74",
+    "traffic": "75",
+    "transport_query": "27",
+    "transport_taxi": "28",
+    "transport_ticket": "33",
+    "transport_traffic": "41",
+    "volume_other": "90",
+    "wavs/audio_volume_down": "54",
+    "wavs/audio_volume_mute": "5",
+    "wavs/audio_volume_other": "67",
+    "wavs/audio_volume_up": "1",
+    "weather_query": "3",
+    "wemo_off": "87",
+    "wemo_on": "81"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c489d880e03d06dc00b5272bac80748e203e42508bda2332d59f1e3233119d38
+size 1262950804

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0cabc3951b5d157753d58f27b7a7de2d0dc27a03c2c999d6240a522e19e6073
+size 2526152656

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e570cd5f9d55b7177de3ebb2d7cae79bc4c203b31bae473d44da24a40539c0aa
+size 14308

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:417c32b40ce266eae8ab814d0af12409a7770b12ed2c5afd1b1ffbf9fa27b42f
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1308 @@

+{
+  "best_metric": 0.8005753739930955,
+  "best_model_checkpoint": "results/facebook/wav2vec2-large-960h-lv60-self/42/_retain/checkpoint-30000",
+  "epoch": 75.80543272267846,
+  "eval_steps": 400,
+  "global_step": 30000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.010739102969046,
+      "grad_norm": 3.2389800548553467,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 4.0919,
+      "step": 400
+    },
+    {
+      "epoch": 1.010739102969046,
+      "eval_accuracy": 0.10586881472957423,
+      "eval_f1_macro": 0.008128718856806105,
+      "eval_loss": 3.68546199798584,
+      "eval_runtime": 133.4265,
+      "eval_samples_per_second": 65.129,
+      "eval_steps_per_second": 2.039,
+      "step": 400
+    },
+    {
+      "epoch": 2.021478205938092,
+      "grad_norm": 5.276159286499023,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 2.9391,
+      "step": 800
+    },
+    {
+      "epoch": 2.021478205938092,
+      "eval_accuracy": 0.5268124280782509,
+      "eval_f1_macro": 0.2773414885221941,
+      "eval_loss": 1.907711386680603,
+      "eval_runtime": 132.9453,
+      "eval_samples_per_second": 65.365,
+      "eval_steps_per_second": 2.046,
+      "step": 800
+    },
+    {
+      "epoch": 3.0322173089071383,
+      "grad_norm": 5.944188117980957,
+      "learning_rate": 0.0002,
+      "loss": 1.583,
+      "step": 1200
+    },
+    {
+      "epoch": 3.0322173089071383,
+      "eval_accuracy": 0.6894131185270426,
+      "eval_f1_macro": 0.48707209156248815,
+      "eval_loss": 1.2798452377319336,
+      "eval_runtime": 133.055,
+      "eval_samples_per_second": 65.311,
+      "eval_steps_per_second": 2.044,
+      "step": 1200
+    },
+    {
+      "epoch": 4.042956411876184,
+      "grad_norm": 6.609740257263184,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 1.0089,
+      "step": 1600
+    },
+    {
+      "epoch": 4.042956411876184,
+      "eval_accuracy": 0.7447640966628308,
+      "eval_f1_macro": 0.5630866427455141,
+      "eval_loss": 1.1743698120117188,
+      "eval_runtime": 132.7655,
+      "eval_samples_per_second": 65.454,
+      "eval_steps_per_second": 2.049,
+      "step": 1600
+    },
+    {
+      "epoch": 5.053695514845231,
+      "grad_norm": 9.530195236206055,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.7348,
+      "step": 2000
+    },
+    {
+      "epoch": 5.053695514845231,
+      "eval_accuracy": 0.7604142692750288,
+      "eval_f1_macro": 0.5961285021365654,
+      "eval_loss": 1.1527246236801147,
+      "eval_runtime": 127.8747,
+      "eval_samples_per_second": 67.957,
+      "eval_steps_per_second": 2.127,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0644346178142765,
+      "grad_norm": 6.680343151092529,
+      "learning_rate": 0.0004,
+      "loss": 0.5957,
+      "step": 2400
+    },
+    {
+      "epoch": 6.0644346178142765,
+      "eval_accuracy": 0.7676639815880322,
+      "eval_f1_macro": 0.6054951189790404,
+      "eval_loss": 1.198480248451233,
+      "eval_runtime": 128.28,
+      "eval_samples_per_second": 67.742,
+      "eval_steps_per_second": 2.12,
+      "step": 2400
+    },
+    {
+      "epoch": 7.075173720783323,
+      "grad_norm": 3.774092435836792,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.521,
+      "step": 2800
+    },
+    {
+      "epoch": 7.075173720783323,
+      "eval_accuracy": 0.7630609896432681,
+      "eval_f1_macro": 0.5903658522565237,
+      "eval_loss": 1.1921718120574951,
+      "eval_runtime": 128.2033,
+      "eval_samples_per_second": 67.783,
+      "eval_steps_per_second": 2.122,
+      "step": 2800
+    },
+    {
+      "epoch": 8.085912823752368,
+      "grad_norm": 3.719675302505493,
+      "learning_rate": 0.0004962962962962963,
+      "loss": 0.4667,
+      "step": 3200
+    },
+    {
+      "epoch": 8.085912823752368,
+      "eval_accuracy": 0.7619102416570771,
+      "eval_f1_macro": 0.6061718024259425,
+      "eval_loss": 1.2508888244628906,
+      "eval_runtime": 109.5839,
+      "eval_samples_per_second": 79.3,
+      "eval_steps_per_second": 2.482,
+      "step": 3200
+    },
+    {
+      "epoch": 9.096651926721416,
+      "grad_norm": 3.703678607940674,
+      "learning_rate": 0.0004888888888888889,
+      "loss": 0.3861,
+      "step": 3600
+    },
+    {
+      "epoch": 9.096651926721416,
+      "eval_accuracy": 0.7640966628308401,
+      "eval_f1_macro": 0.5910106640214171,
+      "eval_loss": 1.2851234674453735,
+      "eval_runtime": 109.2588,
+      "eval_samples_per_second": 79.536,
+      "eval_steps_per_second": 2.49,
+      "step": 3600
+    },
+    {
+      "epoch": 10.107391029690461,
+      "grad_norm": 5.4869585037231445,
+      "learning_rate": 0.00048148148148148144,
+      "loss": 0.32,
+      "step": 4000
+    },
+    {
+      "epoch": 10.107391029690461,
+      "eval_accuracy": 0.7590333716915996,
+      "eval_f1_macro": 0.5804751345832923,
+      "eval_loss": 1.4432213306427002,
+      "eval_runtime": 109.3455,
+      "eval_samples_per_second": 79.473,
+      "eval_steps_per_second": 2.488,
+      "step": 4000
+    },
+    {
+      "epoch": 11.118130132659507,
+      "grad_norm": 2.1531548500061035,
+      "learning_rate": 0.0004740740740740741,
+      "loss": 0.2828,
+      "step": 4400
+    },
+    {
+      "epoch": 11.118130132659507,
+      "eval_accuracy": 0.7590333716915996,
+      "eval_f1_macro": 0.6021086310983942,
+      "eval_loss": 1.3173363208770752,
+      "eval_runtime": 109.3574,
+      "eval_samples_per_second": 79.464,
+      "eval_steps_per_second": 2.487,
+      "step": 4400
+    },
+    {
+      "epoch": 12.128869235628553,
+      "grad_norm": 2.9061076641082764,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.2367,
+      "step": 4800
+    },
+    {
+      "epoch": 12.128869235628553,
+      "eval_accuracy": 0.7543153049482163,
+      "eval_f1_macro": 0.6092446104843484,
+      "eval_loss": 1.4384377002716064,
+      "eval_runtime": 109.3136,
+      "eval_samples_per_second": 79.496,
+      "eval_steps_per_second": 2.488,
+      "step": 4800
+    },
+    {
+      "epoch": 13.139608338597599,
+      "grad_norm": 2.8866333961486816,
+      "learning_rate": 0.00045925925925925925,
+      "loss": 0.2187,
+      "step": 5200
+    },
+    {
+      "epoch": 13.139608338597599,
+      "eval_accuracy": 0.7654775604142693,
+      "eval_f1_macro": 0.5880603922791815,
+      "eval_loss": 1.4380950927734375,
+      "eval_runtime": 109.4554,
+      "eval_samples_per_second": 79.393,
+      "eval_steps_per_second": 2.485,
+      "step": 5200
+    },
+    {
+      "epoch": 14.150347441566646,
+      "grad_norm": 1.7574183940887451,
+      "learning_rate": 0.00045185185185185183,
+      "loss": 0.1847,
+      "step": 5600
+    },
+    {
+      "epoch": 14.150347441566646,
+      "eval_accuracy": 0.7730724971231301,
+      "eval_f1_macro": 0.5690127519635726,
+      "eval_loss": 1.4231289625167847,
+      "eval_runtime": 109.3887,
+      "eval_samples_per_second": 79.441,
+      "eval_steps_per_second": 2.487,
+      "step": 5600
+    },
+    {
+      "epoch": 15.161086544535692,
+      "grad_norm": 1.8373284339904785,
+      "learning_rate": 0.0004444444444444444,
+      "loss": 0.1701,
+      "step": 6000
+    },
+    {
+      "epoch": 15.161086544535692,
+      "eval_accuracy": 0.7680092059838896,
+      "eval_f1_macro": 0.5878361109327175,
+      "eval_loss": 1.5120900869369507,
+      "eval_runtime": 109.6944,
+      "eval_samples_per_second": 79.22,
+      "eval_steps_per_second": 2.48,
+      "step": 6000
+    },
+    {
+      "epoch": 16.171825647504736,
+      "grad_norm": 2.9617397785186768,
+      "learning_rate": 0.00043703703703703705,
+      "loss": 0.1504,
+      "step": 6400
+    },
+    {
+      "epoch": 16.171825647504736,
+      "eval_accuracy": 0.7609896432681242,
+      "eval_f1_macro": 0.6017434401264726,
+      "eval_loss": 1.5701994895935059,
+      "eval_runtime": 108.7867,
+      "eval_samples_per_second": 79.881,
+      "eval_steps_per_second": 2.5,
+      "step": 6400
+    },
+    {
+      "epoch": 17.182564750473784,
+      "grad_norm": 1.9067094326019287,
+      "learning_rate": 0.00042962962962962963,
+      "loss": 0.1416,
+      "step": 6800
+    },
+    {
+      "epoch": 17.182564750473784,
+      "eval_accuracy": 0.7680092059838896,
+      "eval_f1_macro": 0.5846132297229183,
+      "eval_loss": 1.6262372732162476,
+      "eval_runtime": 109.3355,
+      "eval_samples_per_second": 79.48,
+      "eval_steps_per_second": 2.488,
+      "step": 6800
+    },
+    {
+      "epoch": 18.19330385344283,
+      "grad_norm": 1.788485050201416,
+      "learning_rate": 0.0004222222222222222,
+      "loss": 0.1345,
+      "step": 7200
+    },
+    {
+      "epoch": 18.19330385344283,
+      "eval_accuracy": 0.7582278481012659,
+      "eval_f1_macro": 0.606730101292868,
+      "eval_loss": 1.6317014694213867,
+      "eval_runtime": 109.1193,
+      "eval_samples_per_second": 79.638,
+      "eval_steps_per_second": 2.493,
+      "step": 7200
+    },
+    {
+      "epoch": 19.204042956411875,
+      "grad_norm": 3.0378000736236572,
+      "learning_rate": 0.0004148148148148148,
+      "loss": 0.1226,
+      "step": 7600
+    },
+    {
+      "epoch": 19.204042956411875,
+      "eval_accuracy": 0.7739930955120828,
+      "eval_f1_macro": 0.6193094447560485,
+      "eval_loss": 1.486433982849121,
+      "eval_runtime": 109.0558,
+      "eval_samples_per_second": 79.684,
+      "eval_steps_per_second": 2.494,
+      "step": 7600
+    },
+    {
+      "epoch": 20.214782059380923,
+      "grad_norm": 3.1991524696350098,
+      "learning_rate": 0.0004074074074074074,
+      "loss": 0.114,
+      "step": 8000
+    },
+    {
+      "epoch": 20.214782059380923,
+      "eval_accuracy": 0.774108170310702,
+      "eval_f1_macro": 0.6157091732739274,
+      "eval_loss": 1.5931099653244019,
+      "eval_runtime": 109.0943,
+      "eval_samples_per_second": 79.656,
+      "eval_steps_per_second": 2.493,
+      "step": 8000
+    },
+    {
+      "epoch": 21.225521162349967,
+      "grad_norm": 2.1036899089813232,
+      "learning_rate": 0.0004,
+      "loss": 0.1064,
+      "step": 8400
+    },
+    {
+      "epoch": 21.225521162349967,
+      "eval_accuracy": 0.7730724971231301,
+      "eval_f1_macro": 0.6020232192562277,
+      "eval_loss": 1.7101207971572876,
+      "eval_runtime": 108.899,
+      "eval_samples_per_second": 79.799,
+      "eval_steps_per_second": 2.498,
+      "step": 8400
+    },
+    {
+      "epoch": 22.236260265319014,
+      "grad_norm": 2.786360025405884,
+      "learning_rate": 0.0003925925925925926,
+      "loss": 0.1009,
+      "step": 8800
+    },
+    {
+      "epoch": 22.236260265319014,
+      "eval_accuracy": 0.7655926352128883,
+      "eval_f1_macro": 0.5794753743607411,
+      "eval_loss": 1.6664392948150635,
+      "eval_runtime": 109.2502,
+      "eval_samples_per_second": 79.542,
+      "eval_steps_per_second": 2.49,
+      "step": 8800
+    },
+    {
+      "epoch": 23.246999368288062,
+      "grad_norm": 1.0751720666885376,
+      "learning_rate": 0.0003851851851851852,
+      "loss": 0.0941,
+      "step": 9200
+    },
+    {
+      "epoch": 23.246999368288062,
+      "eval_accuracy": 0.7772151898734178,
+      "eval_f1_macro": 0.5717636011134882,
+      "eval_loss": 1.5253993272781372,
+      "eval_runtime": 109.0143,
+      "eval_samples_per_second": 79.714,
+      "eval_steps_per_second": 2.495,
+      "step": 9200
+    },
+    {
+      "epoch": 24.257738471257106,
+      "grad_norm": 1.744019865989685,
+      "learning_rate": 0.00037777777777777777,
+      "loss": 0.0861,
+      "step": 9600
+    },
+    {
+      "epoch": 24.257738471257106,
+      "eval_accuracy": 0.777445339470656,
+      "eval_f1_macro": 0.625140306336925,
+      "eval_loss": 1.6324084997177124,
+      "eval_runtime": 108.6336,
+      "eval_samples_per_second": 79.994,
+      "eval_steps_per_second": 2.504,
+      "step": 9600
+    },
+    {
+      "epoch": 25.268477574226154,
+      "grad_norm": 1.838752269744873,
+      "learning_rate": 0.00037037037037037035,
+      "loss": 0.0807,
+      "step": 10000
+    },
+    {
+      "epoch": 25.268477574226154,
+      "eval_accuracy": 0.7728423475258919,
+      "eval_f1_macro": 0.5870939911644882,
+      "eval_loss": 1.7057673931121826,
+      "eval_runtime": 108.6842,
+      "eval_samples_per_second": 79.956,
+      "eval_steps_per_second": 2.503,
+      "step": 10000
+    },
+    {
+      "epoch": 26.279216677195198,
+      "grad_norm": 2.3391871452331543,
+      "learning_rate": 0.000362962962962963,
+      "loss": 0.0739,
+      "step": 10400
+    },
+    {
+      "epoch": 26.279216677195198,
+      "eval_accuracy": 0.774108170310702,
+      "eval_f1_macro": 0.6190123341706849,
+      "eval_loss": 1.6950148344039917,
+      "eval_runtime": 108.9167,
+      "eval_samples_per_second": 79.786,
+      "eval_steps_per_second": 2.497,
+      "step": 10400
+    },
+    {
+      "epoch": 27.289955780164245,
+      "grad_norm": 1.3197505474090576,
+      "learning_rate": 0.00035555555555555557,
+      "loss": 0.0685,
+      "step": 10800
+    },
+    {
+      "epoch": 27.289955780164245,
+      "eval_accuracy": 0.7652474108170311,
+      "eval_f1_macro": 0.5984200620053731,
+      "eval_loss": 1.8148038387298584,
+      "eval_runtime": 108.998,
+      "eval_samples_per_second": 79.726,
+      "eval_steps_per_second": 2.495,
+      "step": 10800
+    },
+    {
+      "epoch": 28.300694883133293,
+      "grad_norm": 0.8027063608169556,
+      "learning_rate": 0.00034814814814814816,
+      "loss": 0.0692,
+      "step": 11200
+    },
+    {
+      "epoch": 28.300694883133293,
+      "eval_accuracy": 0.776409666283084,
+      "eval_f1_macro": 0.6002766778970904,
+      "eval_loss": 1.6219606399536133,
+      "eval_runtime": 108.9613,
+      "eval_samples_per_second": 79.753,
+      "eval_steps_per_second": 2.496,
+      "step": 11200
+    },
+    {
+      "epoch": 29.311433986102337,
+      "grad_norm": 0.8713662028312683,
+      "learning_rate": 0.00034074074074074074,
+      "loss": 0.0662,
+      "step": 11600
+    },
+    {
+      "epoch": 29.311433986102337,
+      "eval_accuracy": 0.7794016110471806,
+      "eval_f1_macro": 0.6123819840203646,
+      "eval_loss": 1.6953762769699097,
+      "eval_runtime": 109.1585,
+      "eval_samples_per_second": 79.609,
+      "eval_steps_per_second": 2.492,
+      "step": 11600
+    },
+    {
+      "epoch": 30.322173089071384,
+      "grad_norm": 0.9094525575637817,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.0639,
+      "step": 12000
+    },
+    {
+      "epoch": 30.322173089071384,
+      "eval_accuracy": 0.7785960874568469,
+      "eval_f1_macro": 0.5900178041075752,
+      "eval_loss": 1.7562154531478882,
+      "eval_runtime": 108.917,
+      "eval_samples_per_second": 79.786,
+      "eval_steps_per_second": 2.497,
+      "step": 12000
+    },
+    {
+      "epoch": 31.33291219204043,
+      "grad_norm": 2.3824515342712402,
+      "learning_rate": 0.00032592592592592596,
+      "loss": 0.0613,
+      "step": 12400
+    },
+    {
+      "epoch": 31.33291219204043,
+      "eval_accuracy": 0.7708860759493671,
+      "eval_f1_macro": 0.5886611331241638,
+      "eval_loss": 1.7263332605361938,
+      "eval_runtime": 109.2037,
+      "eval_samples_per_second": 79.576,
+      "eval_steps_per_second": 2.491,
+      "step": 12400
+    },
+    {
+      "epoch": 32.34365129500947,
+      "grad_norm": 1.1265066862106323,
+      "learning_rate": 0.00031851851851851854,
+      "loss": 0.0562,
+      "step": 12800
+    },
+    {
+      "epoch": 32.34365129500947,
+      "eval_accuracy": 0.777445339470656,
+      "eval_f1_macro": 0.6069323146272442,
+      "eval_loss": 1.595489263534546,
+      "eval_runtime": 110.1086,
+      "eval_samples_per_second": 78.922,
+      "eval_steps_per_second": 2.47,
+      "step": 12800
+    },
+    {
+      "epoch": 33.35439039797852,
+      "grad_norm": 0.765870988368988,
+      "learning_rate": 0.0003111111111111111,
+      "loss": 0.0482,
+      "step": 13200
+    },
+    {
+      "epoch": 33.35439039797852,
+      "eval_accuracy": 0.7858457997698504,
+      "eval_f1_macro": 0.6152260699722518,
+      "eval_loss": 1.6528053283691406,
+      "eval_runtime": 109.0363,
+      "eval_samples_per_second": 79.698,
+      "eval_steps_per_second": 2.495,
+      "step": 13200
+    },
+    {
+      "epoch": 34.36512950094757,
+      "grad_norm": 2.386359930038452,
+      "learning_rate": 0.0003037037037037037,
+      "loss": 0.0516,
+      "step": 13600
+    },
+    {
+      "epoch": 34.36512950094757,
+      "eval_accuracy": 0.7713463751438435,
+      "eval_f1_macro": 0.5894778786253475,
+      "eval_loss": 1.65277099609375,
+      "eval_runtime": 109.1673,
+      "eval_samples_per_second": 79.603,
+      "eval_steps_per_second": 2.492,
+      "step": 13600
+    },
+    {
+      "epoch": 35.375868603916615,
+      "grad_norm": 1.8987774848937988,
+      "learning_rate": 0.0002962962962962963,
+      "loss": 0.0447,
+      "step": 14000
+    },
+    {
+      "epoch": 35.375868603916615,
+      "eval_accuracy": 0.7799769850402761,
+      "eval_f1_macro": 0.6297477374058172,
+      "eval_loss": 1.813390851020813,
+      "eval_runtime": 109.6977,
+      "eval_samples_per_second": 79.218,
+      "eval_steps_per_second": 2.48,
+      "step": 14000
+    },
+    {
+      "epoch": 36.38660770688566,
+      "grad_norm": 1.353411078453064,
+      "learning_rate": 0.0002888888888888889,
+      "loss": 0.047,
+      "step": 14400
+    },
+    {
+      "epoch": 36.38660770688566,
+      "eval_accuracy": 0.7795166858457998,
+      "eval_f1_macro": 0.5795862617467612,
+      "eval_loss": 1.663203477859497,
+      "eval_runtime": 109.0323,
+      "eval_samples_per_second": 79.701,
+      "eval_steps_per_second": 2.495,
+      "step": 14400
+    },
+    {
+      "epoch": 37.3973468098547,
+      "grad_norm": 1.1114296913146973,
+      "learning_rate": 0.0002814814814814815,
+      "loss": 0.0436,
+      "step": 14800
+    },
+    {
+      "epoch": 37.3973468098547,
+      "eval_accuracy": 0.784234752589183,
+      "eval_f1_macro": 0.5995152264247978,
+      "eval_loss": 1.783818006515503,
+      "eval_runtime": 109.4106,
+      "eval_samples_per_second": 79.426,
+      "eval_steps_per_second": 2.486,
+      "step": 14800
+    },
+    {
+      "epoch": 38.40808591282375,
+      "grad_norm": 1.3422303199768066,
+      "learning_rate": 0.0002740740740740741,
+      "loss": 0.0422,
+      "step": 15200
+    },
+    {
+      "epoch": 38.40808591282375,
+      "eval_accuracy": 0.7838895281933257,
+      "eval_f1_macro": 0.6189287691248615,
+      "eval_loss": 1.7172709703445435,
+      "eval_runtime": 108.6629,
+      "eval_samples_per_second": 79.972,
+      "eval_steps_per_second": 2.503,
+      "step": 15200
+    },
+    {
+      "epoch": 39.4188250157928,
+      "grad_norm": 1.8279023170471191,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 0.0377,
+      "step": 15600
+    },
+    {
+      "epoch": 39.4188250157928,
+      "eval_accuracy": 0.7834292289988493,
+      "eval_f1_macro": 0.5814739153081228,
+      "eval_loss": 1.7523770332336426,
+      "eval_runtime": 108.9839,
+      "eval_samples_per_second": 79.737,
+      "eval_steps_per_second": 2.496,
+      "step": 15600
+    },
+    {
+      "epoch": 40.429564118761846,
+      "grad_norm": 2.154459238052368,
+      "learning_rate": 0.00025925925925925926,
+      "loss": 0.0359,
+      "step": 16000
+    },
+    {
+      "epoch": 40.429564118761846,
+      "eval_accuracy": 0.7886075949367088,
+      "eval_f1_macro": 0.6293741181702724,
+      "eval_loss": 1.623598337173462,
+      "eval_runtime": 108.8195,
+      "eval_samples_per_second": 79.857,
+      "eval_steps_per_second": 2.5,
+      "step": 16000
+    },
+    {
+      "epoch": 41.44030322173089,
+      "grad_norm": 0.8551483154296875,
+      "learning_rate": 0.00025185185185185185,
+      "loss": 0.0344,
+      "step": 16400
+    },
+    {
+      "epoch": 41.44030322173089,
+      "eval_accuracy": 0.7815880322209436,
+      "eval_f1_macro": 0.6087804648227756,
+      "eval_loss": 1.7353272438049316,
+      "eval_runtime": 109.2273,
+      "eval_samples_per_second": 79.559,
+      "eval_steps_per_second": 2.49,
+      "step": 16400
+    },
+    {
+      "epoch": 42.451042324699934,
+      "grad_norm": 0.5178919434547424,
+      "learning_rate": 0.00024444444444444443,
+      "loss": 0.033,
+      "step": 16800
+    },
+    {
+      "epoch": 42.451042324699934,
+      "eval_accuracy": 0.7820483314154201,
+      "eval_f1_macro": 0.6001569016578011,
+      "eval_loss": 1.727620244026184,
+      "eval_runtime": 109.4385,
+      "eval_samples_per_second": 79.405,
+      "eval_steps_per_second": 2.485,
+      "step": 16800
+    },
+    {
+      "epoch": 43.46178142766898,
+      "grad_norm": 0.4940205514431,
+      "learning_rate": 0.00023703703703703704,
+      "loss": 0.0325,
+      "step": 17200
+    },
+    {
+      "epoch": 43.46178142766898,
+      "eval_accuracy": 0.7783659378596087,
+      "eval_f1_macro": 0.6283289368126677,
+      "eval_loss": 1.7798371315002441,
+      "eval_runtime": 109.2576,
+      "eval_samples_per_second": 79.537,
+      "eval_steps_per_second": 2.49,
+      "step": 17200
+    },
+    {
+      "epoch": 44.47252053063803,
+      "grad_norm": 0.8661497235298157,
+      "learning_rate": 0.00022962962962962962,
+      "loss": 0.0302,
+      "step": 17600
+    },
+    {
+      "epoch": 44.47252053063803,
+      "eval_accuracy": 0.7828538550057538,
+      "eval_f1_macro": 0.6164776778280789,
+      "eval_loss": 1.7507109642028809,
+      "eval_runtime": 109.1869,
+      "eval_samples_per_second": 79.588,
+      "eval_steps_per_second": 2.491,
+      "step": 17600
+    },
+    {
+      "epoch": 45.48325963360708,
+      "grad_norm": 0.015332411043345928,
+      "learning_rate": 0.0002222222222222222,
+      "loss": 0.0268,
+      "step": 18000
+    },
+    {
+      "epoch": 45.48325963360708,
+      "eval_accuracy": 0.7826237054085156,
+      "eval_f1_macro": 0.6031617249417177,
+      "eval_loss": 1.7825220823287964,
+      "eval_runtime": 109.3518,
+      "eval_samples_per_second": 79.468,
+      "eval_steps_per_second": 2.487,
+      "step": 18000
+    },
+    {
+      "epoch": 46.493998736576124,
+      "grad_norm": 0.5325392484664917,
+      "learning_rate": 0.00021481481481481482,
+      "loss": 0.0287,
+      "step": 18400
+    },
+    {
+      "epoch": 46.493998736576124,
+      "eval_accuracy": 0.7882623705408516,
+      "eval_f1_macro": 0.6256320010133759,
+      "eval_loss": 1.6932624578475952,
+      "eval_runtime": 108.513,
+      "eval_samples_per_second": 80.083,
+      "eval_steps_per_second": 2.507,
+      "step": 18400
+    },
+    {
+      "epoch": 47.504737839545164,
+      "grad_norm": 0.5086055994033813,
+      "learning_rate": 0.0002074074074074074,
+      "loss": 0.0252,
+      "step": 18800
+    },
+    {
+      "epoch": 47.504737839545164,
+      "eval_accuracy": 0.7856156501726121,
+      "eval_f1_macro": 0.6143416230351354,
+      "eval_loss": 1.7501070499420166,
+      "eval_runtime": 109.2365,
+      "eval_samples_per_second": 79.552,
+      "eval_steps_per_second": 2.49,
+      "step": 18800
+    },
+    {
+      "epoch": 48.51547694251421,
+      "grad_norm": 1.229317545890808,
+      "learning_rate": 0.0002,
+      "loss": 0.0283,
+      "step": 19200
+    },
+    {
+      "epoch": 48.51547694251421,
+      "eval_accuracy": 0.7843498273878021,
+      "eval_f1_macro": 0.6189575264715401,
+      "eval_loss": 1.9032423496246338,
+      "eval_runtime": 108.2906,
+      "eval_samples_per_second": 80.247,
+      "eval_steps_per_second": 2.512,
+      "step": 19200
+    },
+    {
+      "epoch": 49.52621604548326,
+      "grad_norm": 0.05275914818048477,
+      "learning_rate": 0.0001925925925925926,
+      "loss": 0.024,
+      "step": 19600
+    },
+    {
+      "epoch": 49.52621604548326,
+      "eval_accuracy": 0.7874568469505179,
+      "eval_f1_macro": 0.6393370936978522,
+      "eval_loss": 1.8691409826278687,
+      "eval_runtime": 108.1545,
+      "eval_samples_per_second": 80.348,
+      "eval_steps_per_second": 2.515,
+      "step": 19600
+    },
+    {
+      "epoch": 50.53695514845231,
+      "grad_norm": 0.9653208255767822,
+      "learning_rate": 0.00018518518518518518,
+      "loss": 0.0229,
+      "step": 20000
+    },
+    {
+      "epoch": 50.53695514845231,
+      "eval_accuracy": 0.786536248561565,
+      "eval_f1_macro": 0.6026385719720891,
+      "eval_loss": 1.7541390657424927,
+      "eval_runtime": 107.9085,
+      "eval_samples_per_second": 80.531,
+      "eval_steps_per_second": 2.521,
+      "step": 20000
+    },
+    {
+      "epoch": 51.547694251421355,
+      "grad_norm": 0.4658529758453369,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 0.0219,
+      "step": 20400
+    },
+    {
+      "epoch": 51.547694251421355,
+      "eval_accuracy": 0.7872266973532797,
+      "eval_f1_macro": 0.6309747652348119,
+      "eval_loss": 1.7537351846694946,
+      "eval_runtime": 107.7743,
+      "eval_samples_per_second": 80.632,
+      "eval_steps_per_second": 2.524,
+      "step": 20400
+    },
+    {
+      "epoch": 52.558433354390395,
+      "grad_norm": 0.32756420969963074,
+      "learning_rate": 0.00017037037037037037,
+      "loss": 0.0211,
+      "step": 20800
+    },
+    {
+      "epoch": 52.558433354390395,
+      "eval_accuracy": 0.7934407364787112,
+      "eval_f1_macro": 0.6206166338546538,
+      "eval_loss": 1.6842619180679321,
+      "eval_runtime": 107.7209,
+      "eval_samples_per_second": 80.671,
+      "eval_steps_per_second": 2.525,
+      "step": 20800
+    },
+    {
+      "epoch": 53.56917245735944,
+      "grad_norm": 0.584701418876648,
+      "learning_rate": 0.00016296296296296298,
+      "loss": 0.0203,
+      "step": 21200
+    },
+    {
+      "epoch": 53.56917245735944,
+      "eval_accuracy": 0.7950517836593786,
+      "eval_f1_macro": 0.6206542591204762,
+      "eval_loss": 1.699610710144043,
+      "eval_runtime": 107.6954,
+      "eval_samples_per_second": 80.691,
+      "eval_steps_per_second": 2.526,
+      "step": 21200
+    },
+    {
+      "epoch": 54.57991156032849,
+      "grad_norm": 0.0553191676735878,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.0174,
+      "step": 21600
+    },
+    {
+      "epoch": 54.57991156032849,
+      "eval_accuracy": 0.7894131185270425,
+      "eval_f1_macro": 0.6214961351780512,
+      "eval_loss": 1.8445045948028564,
+      "eval_runtime": 107.7853,
+      "eval_samples_per_second": 80.623,
+      "eval_steps_per_second": 2.524,
+      "step": 21600
+    },
+    {
+      "epoch": 55.59065066329754,
+      "grad_norm": 0.4328874945640564,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 0.0197,
+      "step": 22000
+    },
+    {
+      "epoch": 55.59065066329754,
+      "eval_accuracy": 0.792059838895282,
+      "eval_f1_macro": 0.6308138834712996,
+      "eval_loss": 1.8310879468917847,
+      "eval_runtime": 107.7421,
+      "eval_samples_per_second": 80.656,
+      "eval_steps_per_second": 2.525,
+      "step": 22000
+    },
+    {
+      "epoch": 56.601389766266585,
+      "grad_norm": 0.02704198658466339,
+      "learning_rate": 0.00014074074074074076,
+      "loss": 0.0169,
+      "step": 22400
+    },
+    {
+      "epoch": 56.601389766266585,
+      "eval_accuracy": 0.7879171461449942,
+      "eval_f1_macro": 0.5896127682611725,
+      "eval_loss": 1.8162003755569458,
+      "eval_runtime": 107.8141,
+      "eval_samples_per_second": 80.602,
+      "eval_steps_per_second": 2.523,
+      "step": 22400
+    },
+    {
+      "epoch": 57.612128869235626,
+      "grad_norm": 0.2748865485191345,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.0121,
+      "step": 22800
+    },
+    {
+      "epoch": 57.612128869235626,
+      "eval_accuracy": 0.7852704257767549,
+      "eval_f1_macro": 0.5951106108532582,
+      "eval_loss": 1.924727201461792,
+      "eval_runtime": 107.712,
+      "eval_samples_per_second": 80.678,
+      "eval_steps_per_second": 2.525,
+      "step": 22800
+    },
+    {
+      "epoch": 58.62286797220467,
+      "grad_norm": 0.0328911654651165,
+      "learning_rate": 0.00012592592592592592,
+      "loss": 0.0152,
+      "step": 23200
+    },
+    {
+      "epoch": 58.62286797220467,
+      "eval_accuracy": 0.7881472957422324,
+      "eval_f1_macro": 0.6063430405057288,
+      "eval_loss": 1.8502182960510254,
+      "eval_runtime": 107.788,
+      "eval_samples_per_second": 80.621,
+      "eval_steps_per_second": 2.523,
+      "step": 23200
+    },
+    {
+      "epoch": 59.63360707517372,
+      "grad_norm": 0.00955616869032383,
+      "learning_rate": 0.00011851851851851852,
+      "loss": 0.0142,
+      "step": 23600
+    },
+    {
+      "epoch": 59.63360707517372,
+      "eval_accuracy": 0.789873417721519,
+      "eval_f1_macro": 0.617993825444742,
+      "eval_loss": 1.7803289890289307,
+      "eval_runtime": 107.8043,
+      "eval_samples_per_second": 80.609,
+      "eval_steps_per_second": 2.523,
+      "step": 23600
+    },
+    {
+      "epoch": 60.64434617814277,
+      "grad_norm": 0.06125176325440407,
+      "learning_rate": 0.0001111111111111111,
+      "loss": 0.0105,
+      "step": 24000
+    },
+    {
+      "epoch": 60.64434617814277,
+      "eval_accuracy": 0.7861910241657077,
+      "eval_f1_macro": 0.6254018987758924,
+      "eval_loss": 1.916595458984375,
+      "eval_runtime": 107.7673,
+      "eval_samples_per_second": 80.637,
+      "eval_steps_per_second": 2.524,
+      "step": 24000
+    },
+    {
+      "epoch": 61.655085281111816,
+      "grad_norm": 0.10605888813734055,
+      "learning_rate": 0.0001037037037037037,
+      "loss": 0.0116,
+      "step": 24400
+    },
+    {
+      "epoch": 61.655085281111816,
+      "eval_accuracy": 0.7858457997698504,
+      "eval_f1_macro": 0.5961002471321352,
+      "eval_loss": 1.9204109907150269,
+      "eval_runtime": 107.7648,
+      "eval_samples_per_second": 80.639,
+      "eval_steps_per_second": 2.524,
+      "step": 24400
+    },
+    {
+      "epoch": 62.66582438408086,
+      "grad_norm": 0.044181693345308304,
+      "learning_rate": 9.62962962962963e-05,
+      "loss": 0.0112,
+      "step": 24800
+    },
+    {
+      "epoch": 62.66582438408086,
+      "eval_accuracy": 0.7878020713463751,
+      "eval_f1_macro": 0.6235710102313945,
+      "eval_loss": 1.9822152853012085,
+      "eval_runtime": 107.735,
+      "eval_samples_per_second": 80.661,
+      "eval_steps_per_second": 2.525,
+      "step": 24800
+    },
+    {
+      "epoch": 63.676563487049904,
+      "grad_norm": 0.023459970951080322,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0102,
+      "step": 25200
+    },
+    {
+      "epoch": 63.676563487049904,
+      "eval_accuracy": 0.7840046029919447,
+      "eval_f1_macro": 0.6155669395709024,
+      "eval_loss": 1.9653674364089966,
+      "eval_runtime": 107.7821,
+      "eval_samples_per_second": 80.626,
+      "eval_steps_per_second": 2.524,
+      "step": 25200
+    },
+    {
+      "epoch": 64.68730259001894,
+      "grad_norm": 1.9076263904571533,
+      "learning_rate": 8.148148148148149e-05,
+      "loss": 0.01,
+      "step": 25600
+    },
+    {
+      "epoch": 64.68730259001894,
+      "eval_accuracy": 0.7880322209436134,
+      "eval_f1_macro": 0.6226637633596005,
+      "eval_loss": 1.938231348991394,
+      "eval_runtime": 107.7205,
+      "eval_samples_per_second": 80.672,
+      "eval_steps_per_second": 2.525,
+      "step": 25600
+    },
+    {
+      "epoch": 65.698041692988,
+      "grad_norm": 0.4948989748954773,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.0101,
+      "step": 26000
+    },
+    {
+      "epoch": 65.698041692988,
+      "eval_accuracy": 0.7960874568469505,
+      "eval_f1_macro": 0.6277935659004009,
+      "eval_loss": 1.8299671411514282,
+      "eval_runtime": 107.7348,
+      "eval_samples_per_second": 80.661,
+      "eval_steps_per_second": 2.525,
+      "step": 26000
+    },
+    {
+      "epoch": 66.70878079595704,
+      "grad_norm": 0.00608784519135952,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0086,
+      "step": 26400
+    },
+    {
+      "epoch": 66.70878079595704,
+      "eval_accuracy": 0.7968929804372842,
+      "eval_f1_macro": 0.6234372893298947,
+      "eval_loss": 1.9254202842712402,
+      "eval_runtime": 108.035,
+      "eval_samples_per_second": 80.437,
+      "eval_steps_per_second": 2.518,
+      "step": 26400
+    },
+    {
+      "epoch": 67.7195198989261,
+      "grad_norm": 0.08328448981046677,
+      "learning_rate": 5.925925925925926e-05,
+      "loss": 0.0073,
+      "step": 26800
+    },
+    {
+      "epoch": 67.7195198989261,
+      "eval_accuracy": 0.7915995397008055,
+      "eval_f1_macro": 0.6320923241131308,
+      "eval_loss": 1.8887046575546265,
+      "eval_runtime": 107.8399,
+      "eval_samples_per_second": 80.582,
+      "eval_steps_per_second": 2.522,
+      "step": 26800
+    },
+    {
+      "epoch": 68.73025900189513,
+      "grad_norm": 0.02061997540295124,
+      "learning_rate": 5.185185185185185e-05,
+      "loss": 0.0069,
+      "step": 27200
+    },
+    {
+      "epoch": 68.73025900189513,
+      "eval_accuracy": 0.794361334867664,
+      "eval_f1_macro": 0.636665979654867,
+      "eval_loss": 1.9074466228485107,
+      "eval_runtime": 107.6829,
+      "eval_samples_per_second": 80.7,
+      "eval_steps_per_second": 2.526,
+      "step": 27200
+    },
+    {
+      "epoch": 69.74099810486418,
+      "grad_norm": 0.012987918220460415,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0059,
+      "step": 27600
+    },
+    {
+      "epoch": 69.74099810486418,
+      "eval_accuracy": 0.792059838895282,
+      "eval_f1_macro": 0.6315720450251525,
+      "eval_loss": 1.9398057460784912,
+      "eval_runtime": 107.8991,
+      "eval_samples_per_second": 80.538,
+      "eval_steps_per_second": 2.521,
+      "step": 27600
+    },
+    {
+      "epoch": 70.75173720783323,
+      "grad_norm": 0.005101632326841354,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0066,
+      "step": 28000
+    },
+    {
+      "epoch": 70.75173720783323,
+      "eval_accuracy": 0.794361334867664,
+      "eval_f1_macro": 0.6349818220797456,
+      "eval_loss": 1.8699119091033936,
+      "eval_runtime": 109.2809,
+      "eval_samples_per_second": 79.52,
+      "eval_steps_per_second": 2.489,
+      "step": 28000
+    },
+    {
+      "epoch": 71.76247631080227,
+      "grad_norm": 0.6047748923301697,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.0062,
+      "step": 28400
+    },
+    {
+      "epoch": 71.76247631080227,
+      "eval_accuracy": 0.7951668584579977,
+      "eval_f1_macro": 0.6343250573277666,
+      "eval_loss": 1.8893409967422485,
+      "eval_runtime": 109.2978,
+      "eval_samples_per_second": 79.508,
+      "eval_steps_per_second": 2.489,
+      "step": 28400
+    },
+    {
+      "epoch": 72.77321541377133,
+      "grad_norm": 0.012553258799016476,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0058,
+      "step": 28800
+    },
+    {
+      "epoch": 72.77321541377133,
+      "eval_accuracy": 0.7982738780207135,
+      "eval_f1_macro": 0.6409643965446785,
+      "eval_loss": 1.883091926574707,
+      "eval_runtime": 109.2468,
+      "eval_samples_per_second": 79.545,
+      "eval_steps_per_second": 2.49,
+      "step": 28800
+    },
+    {
+      "epoch": 73.78395451674037,
+      "grad_norm": 0.0007793375989422202,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0056,
+      "step": 29200
+    },
+    {
+      "epoch": 73.78395451674037,
+      "eval_accuracy": 0.7958573072497123,
+      "eval_f1_macro": 0.6356613761441215,
+      "eval_loss": 1.8901586532592773,
+      "eval_runtime": 108.6154,
+      "eval_samples_per_second": 80.007,
+      "eval_steps_per_second": 2.504,
+      "step": 29200
+    },
+    {
+      "epoch": 74.7946936197094,
+      "grad_norm": 0.14352725446224213,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.0053,
+      "step": 29600
+    },
+    {
+      "epoch": 74.7946936197094,
+      "eval_accuracy": 0.7991944764096662,
+      "eval_f1_macro": 0.643747242061282,
+      "eval_loss": 1.888542890548706,
+      "eval_runtime": 108.5316,
+      "eval_samples_per_second": 80.069,
+      "eval_steps_per_second": 2.506,
+      "step": 29600
+    },
+    {
+      "epoch": 75.80543272267846,
+      "grad_norm": 0.9781034588813782,
+      "learning_rate": 0.0,
+      "loss": 0.0046,
+      "step": 30000
+    },
+    {
+      "epoch": 75.80543272267846,
+      "eval_accuracy": 0.8005753739930955,
+      "eval_f1_macro": 0.6435443913467072,
+      "eval_loss": 1.888439655303955,
+      "eval_runtime": 108.5256,
+      "eval_samples_per_second": 80.073,
+      "eval_steps_per_second": 2.506,
+      "step": 30000
+    }
+  ],
+  "logging_steps": 400,
+  "max_steps": 30000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 76,
+  "save_steps": 1200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.8164789316384843e+20,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93195b6ce37c327e37144d872765300fb413254de9caea3613dca78eed8e3139
+size 5304