Spaces:

techconspartners
/

ConversAI

Sleeping

Rauhan commited on Aug 7, 2024

Commit

c603fb2

1 Parent(s): 8f4f425

UPDATE: New Endpoints

Files changed (3) hide show

EasyOCRModels/craft_mlt_25k.pth ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a5efbfb48b4081100544e75e1e2b57f8de3d84f213004b14b85fd4b3748db17
+size 83152330

EasyOCRModels/english_g2.pth ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2272681d9d67a04e2dff396b6e95077bc19001f8f6d3593c307b9852e1c29e8
+size 15143997

functions.py CHANGED Viewed

@@ -40,6 +40,7 @@ vectorEmbeddings = HuggingFaceEmbeddings(
     model_kwargs = model_kwargs,
     encode_kwargs = encode_kwargs
 )
 sparseEmbeddings = FastEmbedSparse(model = "Qdrant/BM25")
 prompt = """
 INSTRUCTIONS:
@@ -289,7 +290,7 @@ def getLinks(url: str, timeout = 30):
 def getTextFromImagePDF(pdfBytes):
-    reader = easyocr.Reader(['ch_sim','en'], gpu = True)
     allImages = convert_from_bytes(pdfBytes)
     allImages = [np.array(image) for image in allImages]
     text = "\n\n\n".join(["\n".join([text[1] for text in reader.readtext(image, paragraph=True)]) for image in allImages])

     model_kwargs = model_kwargs,
     encode_kwargs = encode_kwargs
 )
+reader = easyocr.Reader(['en'], gpu = True, model_storage_directory = "/app/EasyOCRModels")
 sparseEmbeddings = FastEmbedSparse(model = "Qdrant/BM25")
 prompt = """
 INSTRUCTIONS:
 def getTextFromImagePDF(pdfBytes):
+    global reader
     allImages = convert_from_bytes(pdfBytes)
     allImages = [np.array(image) for image in allImages]
     text = "\n\n\n".join(["\n".join([text[1] for text in reader.readtext(image, paragraph=True)]) for image in allImages])