ValueFX9507
/

Tifa-Deepsex-14b-CoT

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

Tifa-Deepsex-14b-CoT / README.md

ValueFX9507's picture

Update README.md

8431a41 verified 3 days ago

|

2.98 kB

	---
	base_model:
	- deepseek-ai/deepseek-r1-14b
	language:
	- zh
	- en
	library_name: transformers
	tags:
	- incremental-pretraining
	- sft
	- reinforcement-learning
	- roleplay
	- cot
	license: other
	---
	# Tifa-Deepseek-14b-CoT

	- HF Model: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)
	- GGUF: [Q4_K_M \| Q5_K_M \| Q8_0](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)（更多量化版本持续更新中）
	- Demo APK: [点击下载](http://app.visionsic.com/download/projectchat.apk)

	本模型基于Deepseek-R1-14B进行深度优化，通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。

	## 目标
	针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷（主要由于训练数据中小说类语料占比过低），本模型通过多阶段优化提升其角色扮演能力。

	## 模型亮点
	🔥 四阶段进化架构：
	1. 增量预训练：注入0.4T小说token增强文本连贯性
	2. Tifa-SFT：融合全球Top4角色扮演模型Tifa的10万条高质量数据
	3. CoT恢复训练：采用Deepseek-32B/685B数据重建推理能力
	4. RL强化：保留发散性思维标签的同时优化生成质量

	💡 工程创新：
	- 16k超长上下文支持
	- 随机截断训练增强鲁棒性
	- 8×H20 GPU全量微调
	- 全面GGUF格式支持

	## 模型详情
	\| 属性 \| 规格 \|
	\|-------\|------\|
	\| 基础架构 \| Deepseek-R1-14B \|
	\| 最大上下文 \| 128k \|
	\| 训练数据 \| 0.4T小说 + 10万条SFT + Deepseek混合数据 \|
	\| 训练设备 \| 8×H20 GPU集群 \|
	\| 量化支持 \| GGUF（全系列量化计划中） \|

	## 使用场景
	✅ 推荐场景：
	- 角色扮演对话
	- 需要发散性思维的创意写作
	- 复杂逻辑的思维链（CoT）推理
	- 基于上下文的深度角色交互

	❌ 局限场景：
	- 数学计算与代码生成
	- 短文本即时问答
	- 需要严格事实性的场景

	## 注意事项
	⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据，请遵守：
	1. 禁止商用
	2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
	3. 生成内容需符合当地法律法规


	## 💡 使用建议
	最佳实践：
	```python
	# 启用角色扮演模式
	prompt = """<system>进入Tifa角色引擎...</system>
	<user>你现在是流浪武士楚夜，正站在长安城屋顶上</user>
	<think>
	需要体现人物孤傲的气质
	加入武侠特有的环境描写
	保持对话的冷峻风格
	</think>
	<楚夜>"""
	```

	参数推荐：
	```python
	generation_config = {
	"temperature": 0.8,
	"top_p": 0.8,
	"repetition_penalty": 1.17,
	"max_new_tokens": 1536,
	"do_sample": True
	}
	```

	## 致谢
	- Deepseek系列模型提供的强大基座
	- Tifa角色扮演模型的创新架构
	- HuggingFace社区的量化工具支持


	---
	license: apache-2.0
	---