Remek commited on
Commit
8a984c4
verified
1 Parent(s): e0a1b11

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +85 -0
README.md ADDED
@@ -0,0 +1,85 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - pl
4
+ - en
5
+ pipeline_tag: text-generation
6
+ ---
7
+
8
+ ## Llama-3-8B-Omnibus-1-PL-v01
9
+
10
+ Repozytorium zawiera model Meta Llama-3-8B-Omnibus-1-PL-v01 w wersji polskoj臋zycznej. Model posta艂 na podstawie finetuningu modelu bazowego Llama-3-8B. Wykorzystano do tego dataset instrukcji Omnibus-1-PL (stworzony na potrzeby przeprowadzania eksperymen贸w finetuningu modeli w j臋zyku polskim). Szczeg贸艂y parametr贸w treningu w sekcji Trening. Celem tego eksperymentu by艂o sprawdzenie czy mo偶na nam贸wi膰 Llama-3-8B do p艂ynnego rozmawiania w j臋zyku polskim (oryginalny model instrukcyjny 8B ma z tym problem - woli zdecydowanie bardziej rozmawia膰 po angielsku).
11
+
12
+ ### Spos贸b kodowania nazwy modelu
13
+ Nazwa modelu bazowego: Llama-3-8B
14
+ Nazwa datasetu: Omnibus-1
15
+ Wersja j臋zykowa: PL (polska)
16
+ Wersja modelu: v01
17
+
18
+ ### Dataset
19
+ Omnibus-1 to zbi贸r polskich instrukcji (100% kontekstu Polskiego - fakty, osoby, miejsca osadzone w Polsce), kt贸ry zosta艂 w 100% syntetycznie wygenerowany. Zawiera on instrukcje z kategorii - matematyka, umiej臋tno艣膰 pisania, dialogi, tematy medyczne, zagadki logiczne, t艂umaczenia itd. Powsta艂 on w ramach moich prac zwi膮zanych z badaniem jako艣ci modeli w kontek艣cie j臋zyka polskiego. Pozwala on na finetuning modelu i sprawdzenie podatno艣ci modelu do m贸wienia w naszym rodzimym j臋zyku. Dataset zawiera obecnie 75.000 instrukcji. B臋dzie ca艂y czas udoskonalony i by膰 mo偶e w przysz艂o艣ci udost臋pniony (jak uznam, 偶e ju偶 jest wtstarczaj膮co pe艂en i obejmuje szerokie spektrum tematyki i umiej臋tno艣ci). Dataset jest w 100% generowany za pomoc膮 innych LLM (GPT3.5, GPT4, Mixtral itd.)
20
+
21
+ ### U偶ycie Llama-3-8B-Omnibus-1-PL-v01 z bibliotek膮 Transformers
22
+
23
+ Poni偶szy kod u偶ywa bibliotek臋 Transformers:
24
+
25
+ ```python
26
+ import transformers
27
+ import torch
28
+
29
+ model_id = "Remek/Llama-3-8B-Omnibus-1-PL-v01"
30
+
31
+ pipeline = transformers.pipeline(
32
+ "text-generation",
33
+ model=model_id,
34
+ model_kwargs={"torch_dtype": torch.bfloat16},
35
+ device="auto",
36
+ )
37
+
38
+ messages = [
39
+ {"role": "system", "content": "Jeste艣 pomocnym asystentem, kt贸ry odpowiada na pytania."},
40
+ {"role": "user", "content": "Kim jeste艣 i do czego Ciebie stworzyli?"},
41
+ ]
42
+
43
+ prompt = pipeline.tokenizer.apply_chat_template(
44
+ messages,
45
+ tokenize=False,
46
+ add_generation_prompt=True
47
+ )
48
+
49
+ terminators = [
50
+ pipeline.tokenizer.eos_token_id,
51
+ pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
52
+ ]
53
+
54
+ outputs = pipeline(
55
+ prompt,
56
+ max_new_tokens=256,
57
+ eos_token_id=terminators,
58
+ do_sample=True,
59
+ temperature=0.6,
60
+ top_p=0.9,
61
+ )
62
+ print(outputs[0]["generated_text"][len(prompt):])
63
+ ```
64
+ ### Szablon konwersacji
65
+ Szablon konwersacji to oryginalna wersja Llama3
66
+
67
+ ```
68
+ <|start_header_id|>You are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability.<|end_header_id|>
69
+ {System}
70
+ <|eot_id|>
71
+ <|start_header_id|>user<|end_header_id|>
72
+ {User}
73
+ <|eot_id|><|start_header_id|>assistant<|end_header_id|>
74
+ {Assistant}
75
+ ```
76
+
77
+
78
+ ### Wersje quantized
79
+ Wersje poddane quantyzacji s膮 dost臋pne w repozytorium:
80
+ - Llama-3-8B-Omnibus-1-PL-v01-GGUF - przetestowane w LM Studio (wybierz szablon - Llama3)
81
+
82
+
83
+ ### Licencja
84
+ Licencja na zasadzie nie do komercyjnego u偶ycia (ze wzgl臋du na dataset - generowany syntetycznie za pomoc膮 modeli GPT4, GPT3.5) oraz licencja Llama3 (prosz臋 o zapoznanie si臋 ze szczeg贸艂ami licencji).
85
+