RTO-RL
/

Llama3-8B-DPO

Model card Files Files and versions Community

Llama3-8B-DPO / README.md

zkshan2002's picture

Update README.md

5c7eecb verified 11 days ago

|

history blame contribute delete

337 Bytes

metadata

datasets:
  - HuggingFaceH4/ultrafeedback_binarized
base_model:
  - OpenRLHF/Llama-3-8b-sft-mixture

Base model: OpenRLHF/Llama-3-8b-sft-mixture

Preference dataset: HuggingFaceH4/ultrafeedback_binarized