rubenroy
/

Zurich-1.5B-GCv2-10k

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

rubenroy commited on 4 days ago

Commit

d84367f

·

verified ·

1 Parent(s): 17f593f

Update README.md

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -31,10 +31,11 @@ Zurich 1.5B GammaCorpus v2-10k is a fine-tune of Alibaba's **Qwen 2.5 1.5B Instr
 - **Base Model:** [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct)
 - **Type:** Causal Language Models
 - **Architecture:** Transformers with RoPE, SwiGLU, RMSNorm, and Attention QKV bias
-- **Number of Parameters:** 7.61B
-- **Number of Paramaters (Non-Embedding):** 6.53B
 - **Number of Layers:** 28
-- **Number of Attention Heads (GQA):** 28 for Q and 4 for KV
 ## Training Details

 - **Base Model:** [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct)
 - **Type:** Causal Language Models
 - **Architecture:** Transformers with RoPE, SwiGLU, RMSNorm, and Attention QKV bias
+- **Number of Parameters:** 1.54B
+- **Number of Paramaters (Non-Embedding)**: 1.31B
 - **Number of Layers:** 28
+- **Number of Attention Heads (GQA):** 12 for Q and 2 for KV
 ## Training Details