20250120

Browse files

Files changed (9) hide show

added_tokens.json +3 -0
config.json +34 -0
model.safetensors +3 -0
special_tokens_map.json +13 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
trainer_state.json +645 -0
training_args.bin +3 -0
vocab.txt +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[UNK]": 39979
+}

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "nghuyong/ernie-3.0-mini-zh",
+  "architectures": [
+    "ErnieForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "ernie",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "regression",
+  "task_type_vocab_size": 16,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "type_vocab_size": 4,
+  "use_cache": true,
+  "use_task_id": true,
+  "vocab_size": 40000
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88b40eab1794fb1555a54afad8729f11990a5797c55a948ad777e3d0cee5bc2d
+size 107811804

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "39979": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,645 @@

+{
+  "best_metric": 0.15410752594470978,
+  "best_model_checkpoint": "/root/autodl-tmp/Experiment/Finetuning/Finetuning Hyperparam/v4.0.1-nghuyong-ernie-3.0-mini-zh/checkpoint-16548",
+  "epoch": 31.0,
+  "eval_steps": 500,
+  "global_step": 24428,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.63,
+      "grad_norm": 3.7946994304656982,
+      "learning_rate": 1e-06,
+      "loss": 3.149,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.38300707936286926,
+      "eval_mse": 0.3830070885439162,
+      "eval_runtime": 2.9729,
+      "eval_samples_per_second": 1058.553,
+      "eval_steps_per_second": 132.529,
+      "step": 788
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 11.180171012878418,
+      "learning_rate": 2e-06,
+      "loss": 0.4095,
+      "step": 1000
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 4.669135093688965,
+      "learning_rate": 1.9997961851558053e-06,
+      "loss": 0.3395,
+      "step": 1500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.29351383447647095,
+      "eval_mse": 0.29351383644291107,
+      "eval_runtime": 6.3375,
+      "eval_samples_per_second": 496.569,
+      "eval_steps_per_second": 62.17,
+      "step": 1576
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 8.825602531433105,
+      "learning_rate": 1.9991848237042032e-06,
+      "loss": 0.3054,
+      "step": 2000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.25713810324668884,
+      "eval_mse": 0.2571380933159888,
+      "eval_runtime": 6.4767,
+      "eval_samples_per_second": 485.894,
+      "eval_steps_per_second": 60.833,
+      "step": 2364
+    },
+    {
+      "epoch": 3.17,
+      "grad_norm": 7.739953517913818,
+      "learning_rate": 1.9981661648542715e-06,
+      "loss": 0.2776,
+      "step": 2500
+    },
+    {
+      "epoch": 3.81,
+      "grad_norm": 10.34103012084961,
+      "learning_rate": 1.9967406238415996e-06,
+      "loss": 0.2647,
+      "step": 3000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.23777985572814941,
+      "eval_mse": 0.23777985193765389,
+      "eval_runtime": 6.6281,
+      "eval_samples_per_second": 474.796,
+      "eval_steps_per_second": 59.444,
+      "step": 3152
+    },
+    {
+      "epoch": 4.44,
+      "grad_norm": 7.974781036376953,
+      "learning_rate": 1.9949087817590264e-06,
+      "loss": 0.2526,
+      "step": 3500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.2172749936580658,
+      "eval_mse": 0.2172749924371511,
+      "eval_runtime": 5.4164,
+      "eval_samples_per_second": 581.01,
+      "eval_steps_per_second": 72.742,
+      "step": 3940
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 9.380146980285645,
+      "learning_rate": 1.9926713853197696e-06,
+      "loss": 0.2378,
+      "step": 4000
+    },
+    {
+      "epoch": 5.71,
+      "grad_norm": 11.635780334472656,
+      "learning_rate": 1.9900293465530417e-06,
+      "loss": 0.2277,
+      "step": 4500
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.20999611914157867,
+      "eval_mse": 0.20999612821573685,
+      "eval_runtime": 6.6044,
+      "eval_samples_per_second": 476.502,
+      "eval_steps_per_second": 59.657,
+      "step": 4728
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 8.879988670349121,
+      "learning_rate": 1.9869837424322827e-06,
+      "loss": 0.2263,
+      "step": 5000
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 10.700913429260254,
+      "learning_rate": 1.9835358144361507e-06,
+      "loss": 0.2129,
+      "step": 5500
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.19987642765045166,
+      "eval_mse": 0.19987641025845929,
+      "eval_runtime": 6.5132,
+      "eval_samples_per_second": 483.173,
+      "eval_steps_per_second": 60.493,
+      "step": 5516
+    },
+    {
+      "epoch": 7.61,
+      "grad_norm": 8.578248023986816,
+      "learning_rate": 1.979686968042461e-06,
+      "loss": 0.2053,
+      "step": 6000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.1908576488494873,
+      "eval_mse": 0.19085766332291107,
+      "eval_runtime": 6.542,
+      "eval_samples_per_second": 481.047,
+      "eval_steps_per_second": 60.226,
+      "step": 6304
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 7.703456878662109,
+      "learning_rate": 1.975438772155269e-06,
+      "loss": 0.2028,
+      "step": 6500
+    },
+    {
+      "epoch": 8.88,
+      "grad_norm": 5.999122142791748,
+      "learning_rate": 1.9707929584653408e-06,
+      "loss": 0.1984,
+      "step": 7000
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.18801844120025635,
+      "eval_mse": 0.18801843036404595,
+      "eval_runtime": 6.3586,
+      "eval_samples_per_second": 494.92,
+      "eval_steps_per_second": 61.963,
+      "step": 7092
+    },
+    {
+      "epoch": 9.52,
+      "grad_norm": 4.026780128479004,
+      "learning_rate": 1.965751420744263e-06,
+      "loss": 0.1898,
+      "step": 7500
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.17908616364002228,
+      "eval_mse": 0.17908616463804863,
+      "eval_runtime": 6.0503,
+      "eval_samples_per_second": 520.14,
+      "eval_steps_per_second": 65.121,
+      "step": 7880
+    },
+    {
+      "epoch": 10.15,
+      "grad_norm": 13.863020896911621,
+      "learning_rate": 1.960316214072486e-06,
+      "loss": 0.1838,
+      "step": 8000
+    },
+    {
+      "epoch": 10.79,
+      "grad_norm": 8.270528793334961,
+      "learning_rate": 1.9544895540016116e-06,
+      "loss": 0.1833,
+      "step": 8500
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.17787215113639832,
+      "eval_mse": 0.17787216239741555,
+      "eval_runtime": 6.4275,
+      "eval_samples_per_second": 489.617,
+      "eval_steps_per_second": 61.299,
+      "step": 8668
+    },
+    {
+      "epoch": 11.42,
+      "grad_norm": 4.614955425262451,
+      "learning_rate": 1.948273815651269e-06,
+      "loss": 0.1744,
+      "step": 9000
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.17208915948867798,
+      "eval_mse": 0.17208916706729221,
+      "eval_runtime": 6.5286,
+      "eval_samples_per_second": 482.034,
+      "eval_steps_per_second": 60.35,
+      "step": 9456
+    },
+    {
+      "epoch": 12.06,
+      "grad_norm": 6.665430545806885,
+      "learning_rate": 1.941671532740945e-06,
+      "loss": 0.1772,
+      "step": 9500
+    },
+    {
+      "epoch": 12.69,
+      "grad_norm": 7.56500244140625,
+      "learning_rate": 1.934685396557165e-06,
+      "loss": 0.1693,
+      "step": 10000
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.1708821803331375,
+      "eval_mse": 0.1708821751524203,
+      "eval_runtime": 6.4009,
+      "eval_samples_per_second": 491.651,
+      "eval_steps_per_second": 61.554,
+      "step": 10244
+    },
+    {
+      "epoch": 13.32,
+      "grad_norm": 4.484550476074219,
+      "learning_rate": 1.9273182548564444e-06,
+      "loss": 0.1672,
+      "step": 10500
+    },
+    {
+      "epoch": 13.96,
+      "grad_norm": 7.24429988861084,
+      "learning_rate": 1.9195731107044594e-06,
+      "loss": 0.164,
+      "step": 11000
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.16326776146888733,
+      "eval_mse": 0.16326775885293762,
+      "eval_runtime": 6.5473,
+      "eval_samples_per_second": 480.658,
+      "eval_steps_per_second": 60.178,
+      "step": 11032
+    },
+    {
+      "epoch": 14.59,
+      "grad_norm": 5.866950511932373,
+      "learning_rate": 1.9114531212519067e-06,
+      "loss": 0.164,
+      "step": 11500
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.1637822687625885,
+      "eval_mse": 0.1637822618402825,
+      "eval_runtime": 6.4327,
+      "eval_samples_per_second": 489.216,
+      "eval_steps_per_second": 61.249,
+      "step": 11820
+    },
+    {
+      "epoch": 15.23,
+      "grad_norm": 4.922129154205322,
+      "learning_rate": 1.902961596447557e-06,
+      "loss": 0.161,
+      "step": 12000
+    },
+    {
+      "epoch": 15.86,
+      "grad_norm": 4.9291911125183105,
+      "learning_rate": 1.8941019976890202e-06,
+      "loss": 0.1567,
+      "step": 12500
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.16271694004535675,
+      "eval_mse": 0.16271693369747306,
+      "eval_runtime": 6.435,
+      "eval_samples_per_second": 489.044,
+      "eval_steps_per_second": 61.228,
+      "step": 12608
+    },
+    {
+      "epoch": 16.5,
+      "grad_norm": 6.7055583000183105,
+      "learning_rate": 1.8848779364117772e-06,
+      "loss": 0.1565,
+      "step": 13000
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.163142591714859,
+      "eval_mse": 0.16314259089138047,
+      "eval_runtime": 6.6313,
+      "eval_samples_per_second": 474.567,
+      "eval_steps_per_second": 59.415,
+      "step": 13396
+    },
+    {
+      "epoch": 17.13,
+      "grad_norm": 6.387050151824951,
+      "learning_rate": 1.8752931726170524e-06,
+      "loss": 0.1513,
+      "step": 13500
+    },
+    {
+      "epoch": 17.77,
+      "grad_norm": 4.200338840484619,
+      "learning_rate": 1.8653516133391248e-06,
+      "loss": 0.1465,
+      "step": 14000
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.15735994279384613,
+      "eval_mse": 0.15735993839769294,
+      "eval_runtime": 6.3765,
+      "eval_samples_per_second": 493.533,
+      "eval_steps_per_second": 61.79,
+      "step": 14184
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 8.57667350769043,
+      "learning_rate": 1.8550573110527048e-06,
+      "loss": 0.1507,
+      "step": 14500
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.15925408899784088,
+      "eval_mse": 0.15925409548753688,
+      "eval_runtime": 6.3908,
+      "eval_samples_per_second": 492.428,
+      "eval_steps_per_second": 61.651,
+      "step": 14972
+    },
+    {
+      "epoch": 19.04,
+      "grad_norm": 7.292795658111572,
+      "learning_rate": 1.8444144620210253e-06,
+      "loss": 0.1457,
+      "step": 15000
+    },
+    {
+      "epoch": 19.67,
+      "grad_norm": 6.043280124664307,
+      "learning_rate": 1.8334274045853211e-06,
+      "loss": 0.1445,
+      "step": 15500
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.1564783751964569,
+      "eval_mse": 0.15647836555803193,
+      "eval_runtime": 6.5916,
+      "eval_samples_per_second": 477.427,
+      "eval_steps_per_second": 59.773,
+      "step": 15760
+    },
+    {
+      "epoch": 20.3,
+      "grad_norm": 5.833315849304199,
+      "learning_rate": 1.822100617396391e-06,
+      "loss": 0.1405,
+      "step": 16000
+    },
+    {
+      "epoch": 20.94,
+      "grad_norm": 5.3432793617248535,
+      "learning_rate": 1.810438717588967e-06,
+      "loss": 0.1385,
+      "step": 16500
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.15410752594470978,
+      "eval_mse": 0.15410751673185336,
+      "eval_runtime": 6.6826,
+      "eval_samples_per_second": 470.926,
+      "eval_steps_per_second": 58.959,
+      "step": 16548
+    },
+    {
+      "epoch": 21.57,
+      "grad_norm": 4.962389945983887,
+      "learning_rate": 1.7984464588996339e-06,
+      "loss": 0.1393,
+      "step": 17000
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.15984748303890228,
+      "eval_mse": 0.15984746704761707,
+      "eval_runtime": 4.5153,
+      "eval_samples_per_second": 696.962,
+      "eval_steps_per_second": 87.259,
+      "step": 17336
+    },
+    {
+      "epoch": 22.21,
+      "grad_norm": 6.73746395111084,
+      "learning_rate": 1.7861287297290642e-06,
+      "loss": 0.1364,
+      "step": 17500
+    },
+    {
+      "epoch": 22.84,
+      "grad_norm": 4.136258125305176,
+      "learning_rate": 1.773490551149361e-06,
+      "loss": 0.1369,
+      "step": 18000
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.1571136862039566,
+      "eval_mse": 0.15711369395451796,
+      "eval_runtime": 6.6457,
+      "eval_samples_per_second": 473.538,
+      "eval_steps_per_second": 59.286,
+      "step": 18124
+    },
+    {
+      "epoch": 23.48,
+      "grad_norm": 4.904695510864258,
+      "learning_rate": 1.7605370748573214e-06,
+      "loss": 0.1321,
+      "step": 18500
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.15537777543067932,
+      "eval_mse": 0.15537776661203356,
+      "eval_runtime": 6.4398,
+      "eval_samples_per_second": 488.676,
+      "eval_steps_per_second": 61.182,
+      "step": 18912
+    },
+    {
+      "epoch": 24.11,
+      "grad_norm": 6.113712310791016,
+      "learning_rate": 1.7472735810744493e-06,
+      "loss": 0.1345,
+      "step": 19000
+    },
+    {
+      "epoch": 24.75,
+      "grad_norm": 4.913405895233154,
+      "learning_rate": 1.7337054763945822e-06,
+      "loss": 0.1298,
+      "step": 19500
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.15441741049289703,
+      "eval_mse": 0.1544174113407979,
+      "eval_runtime": 6.5832,
+      "eval_samples_per_second": 478.035,
+      "eval_steps_per_second": 59.849,
+      "step": 19700
+    },
+    {
+      "epoch": 25.38,
+      "grad_norm": 6.102097511291504,
+      "learning_rate": 1.7198382915800032e-06,
+      "loss": 0.1328,
+      "step": 20000
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.15451224148273468,
+      "eval_mse": 0.15451224737858407,
+      "eval_runtime": 6.7032,
+      "eval_samples_per_second": 469.48,
+      "eval_steps_per_second": 58.778,
+      "step": 20488
+    },
+    {
+      "epoch": 26.02,
+      "grad_norm": 3.6252963542938232,
+      "learning_rate": 1.705677679306937e-06,
+      "loss": 0.1249,
+      "step": 20500
+    },
+    {
+      "epoch": 26.65,
+      "grad_norm": 9.473875999450684,
+      "learning_rate": 1.6912294118613515e-06,
+      "loss": 0.1242,
+      "step": 21000
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.1551235318183899,
+      "eval_mse": 0.15512353782534866,
+      "eval_runtime": 4.9635,
+      "eval_samples_per_second": 634.03,
+      "eval_steps_per_second": 79.38,
+      "step": 21276
+    },
+    {
+      "epoch": 27.28,
+      "grad_norm": 7.1829023361206055,
+      "learning_rate": 1.676499378786004e-06,
+      "loss": 0.1243,
+      "step": 21500
+    },
+    {
+      "epoch": 27.92,
+      "grad_norm": 3.2615394592285156,
+      "learning_rate": 1.6614935844796863e-06,
+      "loss": 0.124,
+      "step": 22000
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.15653343498706818,
+      "eval_mse": 0.15653342717462115,
+      "eval_runtime": 6.3678,
+      "eval_samples_per_second": 494.206,
+      "eval_steps_per_second": 61.874,
+      "step": 22064
+    },
+    {
+      "epoch": 28.55,
+      "grad_norm": 3.4693961143493652,
+      "learning_rate": 1.6462181457496556e-06,
+      "loss": 0.121,
+      "step": 22500
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.16021837294101715,
+      "eval_mse": 0.16021836760764882,
+      "eval_runtime": 6.4147,
+      "eval_samples_per_second": 490.594,
+      "eval_steps_per_second": 61.422,
+      "step": 22852
+    },
+    {
+      "epoch": 29.19,
+      "grad_norm": 4.559121608734131,
+      "learning_rate": 1.630679289318242e-06,
+      "loss": 0.1212,
+      "step": 23000
+    },
+    {
+      "epoch": 29.82,
+      "grad_norm": 5.630191326141357,
+      "learning_rate": 1.61488334928465e-06,
+      "loss": 0.1199,
+      "step": 23500
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.15692943334579468,
+      "eval_mse": 0.15692943571123527,
+      "eval_runtime": 6.7232,
+      "eval_samples_per_second": 468.083,
+      "eval_steps_per_second": 58.603,
+      "step": 23640
+    },
+    {
+      "epoch": 30.46,
+      "grad_norm": 6.069174289703369,
+      "learning_rate": 1.5988367645429936e-06,
+      "loss": 0.1199,
+      "step": 24000
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.155219167470932,
+      "eval_mse": 0.1552191666236313,
+      "eval_runtime": 6.459,
+      "eval_samples_per_second": 487.224,
+      "eval_steps_per_second": 61.0,
+      "step": 24428
+    },
+    {
+      "epoch": 31.0,
+      "step": 24428,
+      "total_flos": 1.2955645439479296e+16,
+      "train_loss": 0.23735684225714224,
+      "train_runtime": 2509.2105,
+      "train_samples_per_second": 1004.42,
+      "train_steps_per_second": 31.404
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 78800,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "total_flos": 1.2955645439479296e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e004fcbfc0f4050a659d6ad3f15fddf2d13449ebd000d2b2e38e49664cf2b6b
+size 4984

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff