albhu commited on
Commit
112973e
·
verified ·
1 Parent(s): 198483c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +16 -9
app.py CHANGED
@@ -19,8 +19,11 @@ model = AutoModelForCausalLM.from_pretrained("apple/OpenELM-3B-Instruct", trust_
19
 
20
  # Definiáljuk a válaszgeneráló függvényt
21
  def generate_response(input_text, tokenizer, model):
 
 
 
22
  # Tokenizálás
23
- inputs = tokenizer(input_text, return_tensors="pt", max_length=1024)
24
 
25
  # Modell használata a válasz generálásához
26
  outputs = model(**inputs)
@@ -39,22 +42,26 @@ if document_file is not None:
39
  # PDF fájl feldolgozása
40
  with pdfplumber.open(document_file) as pdf:
41
  for page in pdf.pages:
42
- document_text += page.extract_text()
43
- # Ha bekezdésekre bontjuk, hozzáadhatunk például egy sortörést a bekezdések közé:
44
- document_text += "\n\n"
 
45
  elif document_file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
46
  # DOCX fájl feldolgozása
47
  docx_file = docx.Document(document_file)
48
  for paragraph in docx_file.paragraphs:
49
- document_text += paragraph.text
50
- # Hasonlóan, itt is adhatunk hozzá sortörést a bekezdések közé:
51
- document_text += "\n\n"
 
52
  elif document_file.type == "application/msword":
53
  # DOC fájl feldolgozása
54
  doc_file = docx.Document(document_file)
55
  for paragraph in doc_file.paragraphs:
56
- document_text += paragraph.text
57
- document_text += "\n\n"
 
 
58
  else:
59
  st.error("A fájltípus nem támogatott. Kérlek válassz ki egy PDF, DOCX vagy DOC fájlt!")
60
 
 
19
 
20
  # Definiáljuk a válaszgeneráló függvényt
21
  def generate_response(input_text, tokenizer, model):
22
+ # Bemeneti szöveg tisztítása
23
+ cleaned_input = input_text.strip() # Eltávolítjuk a felesleges szóközöket és sortöréseket
24
+
25
  # Tokenizálás
26
+ inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024)
27
 
28
  # Modell használata a válasz generálásához
29
  outputs = model(**inputs)
 
42
  # PDF fájl feldolgozása
43
  with pdfplumber.open(document_file) as pdf:
44
  for page in pdf.pages:
45
+ text = page.extract_text()
46
+ if text:
47
+ document_text += text.strip() # Tisztítjuk a kinyert szöveget
48
+ document_text += "\n\n" # Új sor hozzáadása a bekezdések közé
49
  elif document_file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
50
  # DOCX fájl feldolgozása
51
  docx_file = docx.Document(document_file)
52
  for paragraph in docx_file.paragraphs:
53
+ text = paragraph.text
54
+ if text:
55
+ document_text += text.strip() # Tisztítjuk a kinyert szöveget
56
+ document_text += "\n\n" # Új sor hozzáadása a bekezdések közé
57
  elif document_file.type == "application/msword":
58
  # DOC fájl feldolgozása
59
  doc_file = docx.Document(document_file)
60
  for paragraph in doc_file.paragraphs:
61
+ text = paragraph.text
62
+ if text:
63
+ document_text += text.strip() # Tisztítjuk a kinyert szöveget
64
+ document_text += "\n\n" # Új sor hozzáadása a bekezdések közé
65
  else:
66
  st.error("A fájltípus nem támogatott. Kérlek válassz ki egy PDF, DOCX vagy DOC fájlt!")
67