neavo
/

keyword_gacha_ner_multilingual

Token Classification

Model card Files Files and versions Community

neavo commited on 12 days ago

Commit

f9841b2

·

verified ·

1 Parent(s): 3d7b184

Update README.md

Files changed (1) hide show

README.md +10 -15

README.md CHANGED Viewed

@@ -32,18 +32,15 @@ license: apache-2.0
 ### 基础模型 Base
-- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
-- 继续预训练的训练量大约 1B Token，包含 4 种不同语言的语料
-- 训练参数如下：
-  - Batch Size : 8
-  - Gradient Accumulation Steps : 32
-  - Total Batch Size : 256
-  - Learing Rate : 5e-05
-  - Maximum Sequence Length : 256
   - Optimizer : adamw_torch
   - LR Scheduler: warmup_stable_decay
-  - Warnup Ratio : 0.1
-  - Train Precision : bf16
 - 使用说明
   - 暂无，基础模型一般不直接使用，需针对具体下游任务进行微调后使用
@@ -56,13 +53,11 @@ license: apache-2.0
   - 实际任务环境中的实测数据，并非预设测试集上的 F1 Score 这类理论上的指标
 - 训练参数如下：
   - Batch Size : 32
-  - Gradient Accumulation Steps : 1
-  - Total Batch Size : 32
-  - Learing Rate : 8e-06
   - Optimizer : adamw_torch
-  - LR Scheduler: warmup_stable_decay
   - Warnup Ratio : 0.1
-  - Train Precision : bf16
 - 使用说明
   - 待补充

 ### 基础模型 Base
+- 在 [modern_bert_multilingual_nodecay](https://huggingface.co/neavo/modern_bert_multilingual_nodecay) 进行退火得到的模型
+- 训练量大约 1B Token，包含 4 种不同语言的语料
+- 主要训练参数
+  - Batch Size : 1792
+  - Learing Rate : 5e-04
+  - Maximum Sequence Length : 512
   - Optimizer : adamw_torch
   - LR Scheduler: warmup_stable_decay
+  - Train Precision : bf16 mix
 - 使用说明
   - 暂无，基础模型一般不直接使用，需针对具体下游任务进行微调后使用
   - 实际任务环境中的实测数据，并非预设测试集上的 F1 Score 这类理论上的指标
 - 训练参数如下：
   - Batch Size : 32
+  - Learing Rate : 6e-06
   - Optimizer : adamw_torch
+  - LR Scheduler: cosine
   - Warnup Ratio : 0.1
+  - Train Precision : bf16 mix
 - 使用说明
   - 待补充