Coding_Assistant

Running on Zero

Daemontatox commited on 17 days ago

Commit

ebc31d1

verified ·

1 Parent(s): 5328f67

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -73,11 +73,11 @@ h3 {
 def initialize_model():
     """Initialize the model with appropriate configurations"""
     quantization_config = BitsAndBytesConfig(
-        load_in_8bit=True,
-        bnb_8bit_compute_dtype=torch.bfloat16,
-        bnb_8bit_quant_type="nf4",
-        bnb_8bit_use_double_quant=True,
-        llm_int8_enable_fp32_cpu_offload=True
     )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID , trust_remote_code=True)
@@ -90,7 +90,7 @@ def initialize_model():
         device_map="cuda",
         # attn_implementation="flash_attention_2",
         trust_remote_code=True,
-        #quantization_config=quantization_config
     )

 def initialize_model():
     """Initialize the model with appropriate configurations"""
     quantization_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_compute_dtype=torch.bfloat16,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True,
+        #llm_int8_enable_fp32_cpu_offload=True
     )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID , trust_remote_code=True)
         device_map="cuda",
         # attn_implementation="flash_attention_2",
         trust_remote_code=True,
+        quantization_config=quantization_config
     )