espressor
/

google.gemma-2-2b-it_W8A8_int8

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

compressed-tensors

Model card Files Files and versions Community

google.gemma-2-2b-it_W8A8_int8 / README.md

xzyao's picture

Upload folder using huggingface_hub

9df9f30 verified 2 months ago

|

history blame contribute delete

1.27 kB

	---
	datasets:
	- HuggingFaceH4/ultrachat_200k
	base_model:
	- google/gemma-2-2b-it
	library_name: transformers
	---

	## google/gemma-2-2b-it - W8A8_int8 Compression

	This is a compressed model using [llmcompressor](https://github.com/vllm-project/llm-compressor).

	## Compression Configuration

	- Base Model: google/gemma-2-2b-it
	- Compression Scheme: W8A8_int8
	- Dataset: HuggingFaceH4/ultrachat_200k
	- Dataset Split: train_sft
	- Number of Samples: 512
	- Preprocessor: chat
	- Maximum Sequence Length: 8192

	## Sample Output

	#### Prompt:

	```
	<bos><start_of_turn>user
	Who is Alan Turing?<end_of_turn>

	```

	#### Output:

	```
	<bos><bos><start_of_turn>user
	Who is Alan Turing?<end_of_turn>
	CWE byggCWE lname RottCWECWECWECWE byggjecturesencieManbalarencieManbalarenýCWEený Rottiseiteenýiseiteynyenýiseiteynyenýynyenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýený byggenýCWEenýCWEenýenýynyenýenýenýenýenýenýenýenýenýynyenýynyynyenýManbalarManbalarynyenýManbalarynyenýManbalarenýManbalarenýenýynyenýCWEenýenýenýenýenýynyenýenýenýenýenýenýynyenýenýenýenýenýenýenýenýenýenýenýynyený BurrManbalarManbalar BurrManbalarenýenýenýenýenýenýenýenýenýenýený
	```

	## Evaluation

	<TODO>