|
--- |
|
base_model: |
|
- deepseek-ai/deepseek-r1-14b |
|
language: |
|
- zh |
|
- en |
|
library_name: transformers |
|
tags: |
|
- incremental-pretraining |
|
- sft |
|
- reinforcement-learning |
|
- roleplay |
|
- cot |
|
license: other |
|
--- |
|
# Tifa-Deepseek-14b-CoT |
|
|
|
- **HF Model**: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT) |
|
- **GGUF**: [Q4_K_M | Q5_K_M | Q8_0](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)(更多量化版本持续更新中) |
|
- **Demo APK**: [点击下载](http://app.visionsic.com/download/projectchat.apk) |
|
|
|
本模型基于Deepseek-R1-14B进行深度优化,通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。 |
|
|
|
## 目标 |
|
针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷(主要由于训练数据中小说类语料占比过低),本模型通过多阶段优化提升其角色扮演能力。 |
|
|
|
## 模型亮点 |
|
🔥 **四阶段进化架构**: |
|
1. **增量预训练**:注入0.4T小说token增强文本连贯性 |
|
2. **Tifa-SFT**:融合全球Top4角色扮演模型Tifa的10万条高质量数据 |
|
3. **CoT恢复训练**:采用Deepseek-32B/685B数据重建推理能力 |
|
4. **RL强化**:保留发散性思维标签的同时优化生成质量 |
|
|
|
💡 **工程创新**: |
|
- 16k超长上下文支持 |
|
- 随机截断训练增强鲁棒性 |
|
- 8×H20 GPU全量微调 |
|
- 全面GGUF格式支持 |
|
|
|
## 模型详情 |
|
| 属性 | 规格 | |
|
|-------|------| |
|
| 基础架构 | Deepseek-R1-14B | |
|
| 最大上下文 | 128k | |
|
| 训练数据 | 0.4T小说 + 10万条SFT + Deepseek混合数据 | |
|
| 训练设备 | 8×H20 GPU集群 | |
|
| 量化支持 | GGUF(全系列量化计划中) | |
|
|
|
## 使用场景 |
|
✅ **推荐场景**: |
|
- 角色扮演对话 |
|
- 需要发散性思维的创意写作 |
|
- 复杂逻辑的思维链(CoT)推理 |
|
- 基于上下文的深度角色交互 |
|
|
|
❌ **局限场景**: |
|
- 数学计算与代码生成 |
|
- 短文本即时问答 |
|
- 需要严格事实性的场景 |
|
|
|
## 注意事项 |
|
⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据,请遵守: |
|
1. 禁止商用 |
|
2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html) |
|
3. 生成内容需符合当地法律法规 |
|
|
|
|
|
## 💡 使用建议 |
|
**最佳实践**: |
|
```python |
|
# 启用角色扮演模式 |
|
prompt = """<system>进入Tifa角色引擎...</system> |
|
<user>你现在是流浪武士楚夜,正站在长安城屋顶上</user> |
|
<think> |
|
需要体现人物孤傲的气质 |
|
加入武侠特有的环境描写 |
|
保持对话的冷峻风格 |
|
</think> |
|
<楚夜>""" |
|
``` |
|
|
|
**参数推荐**: |
|
```python |
|
generation_config = { |
|
"temperature": 0.8, |
|
"top_p": 0.8, |
|
"repetition_penalty": 1.17, |
|
"max_new_tokens": 1536, |
|
"do_sample": True |
|
} |
|
``` |
|
|
|
## 致谢 |
|
- Deepseek系列模型提供的强大基座 |
|
- Tifa角色扮演模型的创新架构 |
|
- HuggingFace社区的量化工具支持 |
|
|
|
|
|
--- |
|
license: apache-2.0 |
|
--- |
|
|