Update README.md
Browse files
README.md
CHANGED
@@ -32,18 +32,15 @@ license: apache-2.0
|
|
32 |
|
33 |
### 基础模型 Base
|
34 |
|
35 |
-
- 在 [
|
36 |
-
-
|
37 |
-
-
|
38 |
-
- Batch Size :
|
39 |
-
-
|
40 |
-
-
|
41 |
-
- Learing Rate : 5e-05
|
42 |
-
- Maximum Sequence Length : 256
|
43 |
- Optimizer : adamw_torch
|
44 |
- LR Scheduler: warmup_stable_decay
|
45 |
-
-
|
46 |
-
- Train Precision : bf16
|
47 |
|
48 |
- 使用说明
|
49 |
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
|
@@ -56,13 +53,11 @@ license: apache-2.0
|
|
56 |
- 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
|
57 |
- 训练参数如下:
|
58 |
- Batch Size : 32
|
59 |
-
-
|
60 |
-
- Total Batch Size : 32
|
61 |
-
- Learing Rate : 8e-06
|
62 |
- Optimizer : adamw_torch
|
63 |
-
- LR Scheduler:
|
64 |
- Warnup Ratio : 0.1
|
65 |
-
- Train Precision : bf16
|
66 |
|
67 |
- 使用说明
|
68 |
- 待补充
|
|
|
32 |
|
33 |
### 基础模型 Base
|
34 |
|
35 |
+
- 在 [modern_bert_multilingual_nodecay](https://huggingface.co/neavo/modern_bert_multilingual_nodecay) 进行退火得到的模型
|
36 |
+
- 训练量大约 1B Token,包含 4 种不同语言的语料
|
37 |
+
- 主要训练参数
|
38 |
+
- Batch Size : 1792
|
39 |
+
- Learing Rate : 5e-04
|
40 |
+
- Maximum Sequence Length : 512
|
|
|
|
|
41 |
- Optimizer : adamw_torch
|
42 |
- LR Scheduler: warmup_stable_decay
|
43 |
+
- Train Precision : bf16 mix
|
|
|
44 |
|
45 |
- 使用说明
|
46 |
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
|
|
|
53 |
- 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
|
54 |
- 训练参数如下:
|
55 |
- Batch Size : 32
|
56 |
+
- Learing Rate : 6e-06
|
|
|
|
|
57 |
- Optimizer : adamw_torch
|
58 |
+
- LR Scheduler: cosine
|
59 |
- Warnup Ratio : 0.1
|
60 |
+
- Train Precision : bf16 mix
|
61 |
|
62 |
- 使用说明
|
63 |
- 待补充
|