neavo commited on
Commit
f9841b2
·
verified ·
1 Parent(s): 3d7b184

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -15
README.md CHANGED
@@ -32,18 +32,15 @@ license: apache-2.0
32
 
33
  ### 基础模型 Base
34
 
35
- - 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
36
- - 继续预训练的训练量大约 1B Token,包含 4 种不同语言的语料
37
- - 训练参数如下:
38
- - Batch Size : 8
39
- - Gradient Accumulation Steps : 32
40
- - Total Batch Size : 256
41
- - Learing Rate : 5e-05
42
- - Maximum Sequence Length : 256
43
  - Optimizer : adamw_torch
44
  - LR Scheduler: warmup_stable_decay
45
- - Warnup Ratio : 0.1
46
- - Train Precision : bf16
47
 
48
  - 使用说明
49
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
@@ -56,13 +53,11 @@ license: apache-2.0
56
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
57
  - 训练参数如下:
58
  - Batch Size : 32
59
- - Gradient Accumulation Steps : 1
60
- - Total Batch Size : 32
61
- - Learing Rate : 8e-06
62
  - Optimizer : adamw_torch
63
- - LR Scheduler: warmup_stable_decay
64
  - Warnup Ratio : 0.1
65
- - Train Precision : bf16
66
 
67
  - 使用说明
68
  - 待补充
 
32
 
33
  ### 基础模型 Base
34
 
35
+ - 在 [modern_bert_multilingual_nodecay](https://huggingface.co/neavo/modern_bert_multilingual_nodecay) 进行退火得到的模型
36
+ - 训练量大约 1B Token,包含 4 种不同语言的语料
37
+ - 主要训练参数
38
+ - Batch Size : 1792
39
+ - Learing Rate : 5e-04
40
+ - Maximum Sequence Length : 512
 
 
41
  - Optimizer : adamw_torch
42
  - LR Scheduler: warmup_stable_decay
43
+ - Train Precision : bf16 mix
 
44
 
45
  - 使用说明
46
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
 
53
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
54
  - 训练参数如下:
55
  - Batch Size : 32
56
+ - Learing Rate : 6e-06
 
 
57
  - Optimizer : adamw_torch
58
+ - LR Scheduler: cosine
59
  - Warnup Ratio : 0.1
60
+ - Train Precision : bf16 mix
61
 
62
  - 使用说明
63
  - 待补充