neavo commited on
Commit
75881c0
·
verified ·
1 Parent(s): 7a92885

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -3,7 +3,7 @@ language:
3
  - zh
4
  - en
5
  - ja
6
- pipeline_tag: token-classification
7
  ---
8
 
9
  ### 前言
@@ -32,7 +32,7 @@ pipeline_tag: token-classification
32
  - 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的
33
  - 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
34
  - 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens
35
- - 训练语料中包含 Web小说、文库本小说、AVG 游戏脚本、RPG 游戏脚本 等不同种类的文本
36
  - 训练参数如下:
37
  - Batch Size : 12
38
  - Gradient Accumulation Steps : 10
@@ -45,8 +45,8 @@ pipeline_tag: token-classification
45
 
46
  ### 实体识别模型 NER
47
 
48
- - 在 Base 模型的基础上,我们使用大约 60000 条合成语料进行了 NER 任务的训练
49
- - 该模型与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
50
  - 训练参数如下:
51
  - Batch Size : 32
52
  - Gradient Accumulation Steps : 2
 
3
  - zh
4
  - en
5
  - ja
6
+ pipeline_tag: fill-mask
7
  ---
8
 
9
  ### 前言
 
32
  - 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的
33
  - 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
34
  - 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens
35
+ - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
36
  - 训练参数如下:
37
  - Batch Size : 12
38
  - Gradient Accumulation Steps : 10
 
45
 
46
  ### 实体识别模型 NER
47
 
48
+ - 在 Base 模型的基础上,使用了大约 60000 条合成语料进行 NER 任务的训练
49
+ - [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
50
  - 训练参数如下:
51
  - Batch Size : 32
52
  - Gradient Accumulation Steps : 2