Rauhan
/

llama-3.2-3B-GRPO-GSM325

Text Generation

reinforcement-learning

mathematical-reasoning

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

llama-3.2-3B-GRPO-GSM325

Commit History

Update README.md

2ddf57b
verified

Rauhan commited on 10 days ago

Update README.md

e7fe446
verified

Rauhan commited on 10 days ago

Update README.md

2c1d77c
verified

Rauhan commited on 10 days ago

Update README.md

042e5a0
verified

Rauhan commited on 10 days ago

Update README.md

1c23066
verified

Rauhan commited on 10 days ago

Update README.md

730274f
verified

Rauhan commited on 10 days ago

Trained with Unsloth

eff2c65
verified

Rauhan commited on 10 days ago

Upload tokenizer

cd8530f
verified

Rauhan commited on 10 days ago

Upload README.md with huggingface_hub

6a67e21
verified

Rauhan commited on 10 days ago

initial commit

8639551
verified

Rauhan commited on 10 days ago