Update README.md
Browse files
README.md
CHANGED
@@ -3,7 +3,7 @@ language:
|
|
3 |
- zh
|
4 |
- en
|
5 |
- ja
|
6 |
-
pipeline_tag:
|
7 |
---
|
8 |
|
9 |
### 前言
|
@@ -32,7 +32,7 @@ pipeline_tag: token-classification
|
|
32 |
- 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的
|
33 |
- 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
|
34 |
- 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens
|
35 |
-
- 训练语料中包含 Web
|
36 |
- 训练参数如下:
|
37 |
- Batch Size : 12
|
38 |
- Gradient Accumulation Steps : 10
|
@@ -45,8 +45,8 @@ pipeline_tag: token-classification
|
|
45 |
|
46 |
### 实体识别模型 NER
|
47 |
|
48 |
-
- 在 Base
|
49 |
-
-
|
50 |
- 训练参数如下:
|
51 |
- Batch Size : 32
|
52 |
- Gradient Accumulation Steps : 2
|
|
|
3 |
- zh
|
4 |
- en
|
5 |
- ja
|
6 |
+
pipeline_tag: fill-mask
|
7 |
---
|
8 |
|
9 |
### 前言
|
|
|
32 |
- 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的
|
33 |
- 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
|
34 |
- 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens
|
35 |
+
- 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
|
36 |
- 训练参数如下:
|
37 |
- Batch Size : 12
|
38 |
- Gradient Accumulation Steps : 10
|
|
|
45 |
|
46 |
### 实体识别模型 NER
|
47 |
|
48 |
+
- 在 Base 模型的基础上,使用了大约 60000 条合成语料进行 NER 任务的训练
|
49 |
+
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
|
50 |
- 训练参数如下:
|
51 |
- Batch Size : 32
|
52 |
- Gradient Accumulation Steps : 2
|