pcuenq
/

gemma-2-2b-it-Q4_K_M

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

gemma-2-2b-it-Q4_K_M / README.md

pcuenq's picture

pcuenq HF staff

Add files using upload-large-folder tool

e824618 verified 10 days ago

|

history blame contribute delete

1.14 kB

	---
	license: gemma
	library_name: transformers
	pipeline_tag: text-generation
	extra_gated_heading: Access Gemma on Hugging Face
	extra_gated_prompt: To access Gemma on Hugging Face, you’re required to review and
	agree to Google’s usage license. To do this, please ensure you’re logged in to Hugging
	Face and click below. Requests are processed immediately.
	extra_gated_button_content: Acknowledge license
	tags:
	- conversational
	- mlx
	base_model: google/gemma-2-2b-it
	---

	# gemma-2-2b-it-Q4_K_M

	The Model [gemma-2-2b-it-Q4_K_M](https://huggingface.co/gemma-2-2b-it-Q4_K_M) was
	converted to MLX format from [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)
	using mlx-lm version 0.21.0.

	## Use with mlx

	```bash
	pip install mlx-lm
	```

	```python
	from mlx_lm import load, generate

	model, tokenizer = load("gemma-2-2b-it-Q4_K_M")

	prompt = "hello"

	if tokenizer.chat_template is not None:
	messages = [{"role": "user", "content": prompt}]
	prompt = tokenizer.apply_chat_template(
	messages, add_generation_prompt=True
	)

	response = generate(model, tokenizer, prompt=prompt, verbose=True)
	```