Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,27 @@
|
|
1 |
-
---
|
2 |
-
license: mit
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: mit
|
3 |
+
datasets:
|
4 |
+
- a686d380/h-corpus-2023
|
5 |
+
language:
|
6 |
+
- zh
|
7 |
+
base_model:
|
8 |
+
- Qwen/Qwen2.5-7B
|
9 |
+
---
|
10 |
+
|
11 |
+
## 使用了Megatron CPT训练的轻小说大模型
|
12 |
+
使用了Pai Megatron + 32K Sequence Length + FP8 + H100 集群训练
|
13 |
+
|
14 |
+
轻小说数据在7G左右,这个版本是CPT版本,没有SFT,请不要期待指令跟随。
|
15 |
+
|
16 |
+
轻小说数据来源包括 https://github.com/ixinzhi/lightnovel-2023
|
17 |
+
清洗脚本晚些可能公开
|
18 |
+
|
19 |
+
7B模型整体效果感觉马马虎虎,已经训练好32B的模型,32B版本逻辑性非常好。
|
20 |
+
|
21 |
+
如果模型载入有问题的话,请用qwen2.5原本的tokenizer、vocab等等覆盖一下,我只有权重的megatron转换出来的。
|
22 |
+
|
23 |
+
模型的翻译腔是预期效果?
|
24 |
+
|
25 |
+
|
26 |
+
|
27 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6338187db7ce9192552401c0/Pz7xTtWViZRg93WU2fwO-.png)
|