AlistairPullen
/

Llama-3.1-8b-Instruct-GRPO-fine-tuned-lora

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Llama-3.1-8b-Instruct-GRPO-fine-tuned-lora / last-checkpoint /trainer_state.json

Commit History

Training in progress, step 233, checkpoint

3094068
verified

AlistairPullen commited on 3 days ago