Rauhan
/

llama-3.2-3B-GRPO-GSM325

Text Generation

reinforcement-learning

mathematical-reasoning

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

llama-3.2-3B-GRPO-GSM325

Commit History

Adding `safetensors` variant of this model

136a10c
verified

SFconvertbot commited on 11 days ago

Trained with Unsloth

eff2c65
verified

Rauhan commited on 11 days ago

Upload tokenizer

cd8530f
verified

Rauhan commited on 11 days ago

Upload README.md with huggingface_hub

6a67e21
verified

Rauhan commited on 11 days ago

initial commit

8639551
verified

Rauhan commited on 11 days ago