Dongwei
/

DeepSeek-R1-Distill-Qwen-7B-GRPO_Math_lowlr

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

DeepSeek-R1-Distill-Qwen-7B-GRPO_Math_lowlr

Commit History

End of training

af4426c
verified

Dongwei commited on 10 days ago

Model save

5cc553e
verified

Dongwei commited on 10 days ago

initial commit

e17a4d1
verified

Dongwei commited on 10 days ago