Reinforced Token Optimization

AI & ML interests

None defined yet.

Recent Activity

zkshan2002 published a model 5 days ago

RTO-RL/Llama3-8B-TDPO

zkshan2002 updated a model 5 days ago

RTO-RL/Llama3-8B-TDPO

zkshan2002 published a model 5 days ago

RTO-RL/Llama3-8B-SimPO

View all activity

models 8

RTO-RL/Llama3-8B-TDPO

Updated 5 days ago • 5 • 1

RTO-RL/Llama3-8B-SimPO

Updated 5 days ago • 3

RTO-RL/Llama3-8B-RDPO

Updated 5 days ago • 7 • 1

RTO-RL/Llama3-8B-PPO

Updated 5 days ago • 3 • 1

RTO-RL/Llama3-8B-RTO

Updated 5 days ago • 5 • 1

RTO-RL/Llama3.2-1B-RewardModel

Updated 5 days ago • 81

RTO-RL/Llama3-8B-RewardModel

Updated 5 days ago • 121

RTO-RL/Llama3-8B-DPO

Updated 5 days ago • 32

datasets

None public yet