--- language: - zh - en - ja pipeline_tag: fill-mask --- ### 前言 - KeywordGacha Model 系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,该模型在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的 - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具 - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现市面上并没有满足需求的语言模型模型,所以自己动手创造了一个 :) ### 综述 - 通过针对性的预训练,该模型系列对 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力 - 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 常见题材的故事内容 - AND NSFW IS OK - 支持多种语言 - 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文` - 未来计划计划针对以下语言进行预训练:`韩文`、`俄文` - 目前我们提供以下预训练模型: | 模型 | 说明 | | ---- | ---- | | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual_20240825) | 基础模型,针对具体下游任务进行微调后使用 | | [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual_20240825) | 预训练实体识别模型 | ### 基础模型 Base - 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的 - 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练 - 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本 - 训练参数如下: - Batch Size : 12 - Gradient Accumulation Steps : 10 - Total Batch Size : 120 - Learing Rate : 2e-5 - Maximum Sequence Length : 256 - Optimizer : AdamW_8bit - Warnup Ratio : 0.1 - Train Precision : BF16 ### 实体识别模型 NER - 在 Base 模型的基础上,使用了大约 60000 条合成语料进行 NER 任务的训练 - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率 - 训练参数如下: - Batch Size : 32 - Gradient Accumulation Steps : 2 - Total Batch Size : 64 - Learing Rate : 2e-5 - Maximum Sequence Length : 256 - Optimizer : AdamW_8bit - Warnup Ratio : 0.1 - Train Precision : BF16 - Max Train Epochs : 24