Rauhan
/

llama-3.2-3B-GRPO-GSM325

Text Generation

reinforcement-learning

mathematical-reasoning

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

llama-3.2-3B-GRPO-GSM325 / generation_config.json

Rauhan's picture

Trained with Unsloth

eff2c65 verified 10 days ago

166 Bytes

	{
	"_from_model_config": true,
	"bos_token_id": 128000,
	"eos_token_id": 128009,
	"max_length": 131072,
	"pad_token_id": 0,
	"transformers_version": "4.48.2"
	}