Async RLHF Paper Checkpoints

vwxyzjn 's Collections

updated 1 day ago

Checkpoints for "Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models" https://arxiv.org/abs/2410.18252