Spaces:

albhu
/

legalgeek

Runtime error

App Files Files Community

albhu commited on Apr 25, 2024

Commit

112973e

verified ·

1 Parent(s): 198483c

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -9

app.py CHANGED Viewed

@@ -19,8 +19,11 @@ model = AutoModelForCausalLM.from_pretrained("apple/OpenELM-3B-Instruct", trust_
 # Definiáljuk a válaszgeneráló függvényt
 def generate_response(input_text, tokenizer, model):
     # Tokenizálás
-    inputs = tokenizer(input_text, return_tensors="pt", max_length=1024)
     # Modell használata a válasz generálásához
     outputs = model(**inputs)
@@ -39,22 +42,26 @@ if document_file is not None:
         # PDF fájl feldolgozása
         with pdfplumber.open(document_file) as pdf:
             for page in pdf.pages:
-                document_text += page.extract_text()
-                # Ha bekezdésekre bontjuk, hozzáadhatunk például egy sortörést a bekezdések közé:
-                document_text += "\n\n"
     elif document_file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
         # DOCX fájl feldolgozása
         docx_file = docx.Document(document_file)
         for paragraph in docx_file.paragraphs:
-            document_text += paragraph.text
-            # Hasonlóan, itt is adhatunk hozzá sortörést a bekezdések közé:
-            document_text += "\n\n"
     elif document_file.type == "application/msword":
         # DOC fájl feldolgozása
         doc_file = docx.Document(document_file)
         for paragraph in doc_file.paragraphs:
-            document_text += paragraph.text
-            document_text += "\n\n"
     else:
         st.error("A fájltípus nem támogatott. Kérlek válassz ki egy PDF, DOCX vagy DOC fájlt!")

 # Definiáljuk a válaszgeneráló függvényt
 def generate_response(input_text, tokenizer, model):
+    # Bemeneti szöveg tisztítása
+    cleaned_input = input_text.strip()  # Eltávolítjuk a felesleges szóközöket és sortöréseket
     # Tokenizálás
+    inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024)
     # Modell használata a válasz generálásához
     outputs = model(**inputs)
         # PDF fájl feldolgozása
         with pdfplumber.open(document_file) as pdf:
             for page in pdf.pages:
+                text = page.extract_text()
+                if text:
+                    document_text += text.strip()  # Tisztítjuk a kinyert szöveget
+                    document_text += "\n\n"  # Új sor hozzáadása a bekezdések közé
     elif document_file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
         # DOCX fájl feldolgozása
         docx_file = docx.Document(document_file)
         for paragraph in docx_file.paragraphs:
+            text = paragraph.text
+            if text:
+                document_text += text.strip()  # Tisztítjuk a kinyert szöveget
+                document_text += "\n\n"  # Új sor hozzáadása a bekezdések közé
     elif document_file.type == "application/msword":
         # DOC fájl feldolgozása
         doc_file = docx.Document(document_file)
         for paragraph in doc_file.paragraphs:
+            text = paragraph.text
+            if text:
+                document_text += text.strip()  # Tisztítjuk a kinyert szöveget
+                document_text += "\n\n"  # Új sor hozzáadása a bekezdések közé
     else:
         st.error("A fájltípus nem támogatott. Kérlek válassz ki egy PDF, DOCX vagy DOC fájlt!")