llama-3.2-3B-Instruct

Running on Zero

ehristoforu commited on Jan 3

Commit

e45a115

verified ·

1 Parent(s): 73fa276

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,7 +26,8 @@ model_name = "datalama/EXAONE-3.5-7.8B-Instruct-Llamafied"
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    torch_dtype=torch.float16
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
@@ -70,7 +71,7 @@ def generate(
         )
     conversation.append({"role": "user", "content": message})
-    input_ids = tokenizer.apply_chat_template(conversation, add_generation_prompt=True, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
@@ -81,6 +82,7 @@ def generate(
         {"input_ids": input_ids},
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         top_p=top_p,
         top_k=top_k,

 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    torch_dtype=torch.float16,
+    trust_remote_code=True
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
         )
     conversation.append({"role": "user", "content": message})
+    input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
         {"input_ids": input_ids},
         streamer=streamer,
         max_new_tokens=max_new_tokens,
+        eos_token_id=tokenizer.eos_token_id,
         do_sample=True,
         top_p=top_p,
         top_k=top_k,