Spaces:

ashok2216
/

pdf-chatbot

Sleeping

App Files Files Community

ashok2216 commited on Nov 19, 2024

Commit

d051bce

verified ·

1 Parent(s): 1788a8d

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -22

app.py CHANGED Viewed

@@ -66,12 +66,19 @@ def setup_chromadb():
 # Step 2: Extract Text from PDF
-def extract_text_from_pdf(pdf_path):
-    pdf_text = ""
-    with fitz.open(pdf_path) as doc:
         for page in doc:
-            pdf_text += page.get_text()
-    return pdf_text
 # Step 3: Add Extracted Text to Vector Database
 def add_pdf_text_to_db(collection, pdf_text):
@@ -106,23 +113,30 @@ def main():
     # File upload
     uploaded_file = st.file_uploader("Upload your PDF file", type="pdf")
     if uploaded_file:
-        st.write("Extracting text and populating the database...")
-        pdf_text = extract_text_from_pdf(uploaded_file)
-        add_pdf_text_to_db(collection, pdf_text)
-        st.success("PDF text has been added to the database. You can now query it!")
-        # Query Input
-        query = st.text_input("Enter your query about the PDF:")
-        if query:
-            try:
-                answer, metadata = query_pdf_data(collection, query, retriever_model)
-                st.subheader("Answer:")
-                st.write(answer[0]['generated_text'])
-                st.subheader("Retrieved Context:")
-                for meta in metadata[0]:
-                    st.write(meta)
-            except Exception as e:
-                st.error(f"An error occurred: {str(e)}")
 if __name__ == "__main__":
     main()

 # Step 2: Extract Text from PDF
+# def extract_text_from_pdf(pdf_path):
+#     pdf_text = ""
+#     with fitz.open(pdf_path) as doc:
+#         for page in doc:
+#             pdf_text += page.get_text()
+#     return pdf_text
+def extract_text_from_pdf(uploaded_file):
+    with fitz.open(stream=uploaded_file.read(), filetype="pdf") as doc:
+        text = ""
         for page in doc:
+            text += page.get_text()
+        return text
 # Step 3: Add Extracted Text to Vector Database
 def add_pdf_text_to_db(collection, pdf_text):
     # File upload
     uploaded_file = st.file_uploader("Upload your PDF file", type="pdf")
     if uploaded_file:
+        try:
+            pdf_text = extract_text_from_pdf(uploaded_file)
+            st.success("Text extracted successfully!")
+            st.text_area("Extracted Text:", pdf_text, height=300)
+        except Exception as e:
+            st.error(f"Error extracting text: {e}")
+    # if uploaded_file:
+    #     st.write("Extracting text and populating the database...")
+    #     pdf_text = extract_text_from_pdf(uploaded_file)
+    #     add_pdf_text_to_db(collection, pdf_text)
+    #     st.success("PDF text has been added to the database. You can now query it!")
+    #     # Query Input
+    #     query = st.text_input("Enter your query about the PDF:")
+    #     if query:
+    #         try:
+    #             answer, metadata = query_pdf_data(collection, query, retriever_model)
+    #             st.subheader("Answer:")
+    #             st.write(answer[0]['generated_text'])
+    #             st.subheader("Retrieved Context:")
+    #             for meta in metadata[0]:
+    #                 st.write(meta)
+    #         except Exception as e:
+    #             st.error(f"An error occurred: {str(e)}")
 if __name__ == "__main__":
     main()