模型介绍

image-20240729083143125 这个版本是基于llama3.1的405B模型,经过特殊处理的中文sft版。与原始的instruct版类似,模型对中文内容和emoji表情的处理更加亲和,确保问答性能与用户体验的优化。

特点: 优化了对中文和emoji表情的处理能力,不影响原有instruct版模型的能力。实测表明,这个中文sft版在问答性能上超越了市面上所有其他llama3.1的中文微调版。

image-20240729083143125

训练细节

  • Lora rank128, alpha256

模型下载

通过Git LFS克隆模型:

git lfs install
git clone https://huggingface.co/opencsg/CSG-Wukong-Chinese-Llama3.1-405B

Lora参数合并指南

实现lora参数的合并,需要使用以下python代码:

from transformers import AutoModelForCausalLM
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Meta-Llama-3.1-405B-Instruct")
peft_model_id = "OpenCSG/CSG-Wukong-Chinese-Llama3.1-405B"
model = PeftModel.from_pretrained(base_model, peft_model_id)
model.merge_and_unload()

推理指南

为了优化模型的加载与运行效率,建议使用bnb的4bit量化方式进行模型的加载与预测。

  • 硬件8卡H100

image-20240729083143125

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.