Spaces:

GT4SD
/

PatentToolkit

Runtime error

EmicoBinsfinder commited on Apr 10, 2023

Commit

1423dfb

1 Parent(s): e610ece

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,6 +54,22 @@ def broad_scope_class_predictor(class_embeddings, abstract_embedding, N=5, Sensi
             continue
     HighestSimilarity = predictions.nlargest(N, ['Score'])
     return HighestSimilarity
 def add_text(history, text):
@@ -75,14 +91,13 @@ class_embeddings = pd.read_csv('Embeddings/MainClassEmbeddings.csv')
 def classifier(userin):
     clean_in = classification.clean_data(userin, type='String')
-    in_emb = classification.sentence_embedder(clean_in, 'Model_bert')
     Number = 10
     broad_scope_predictions = broad_scope_class_predictor(class_embeddings, in_emb, Number, Sensitivity='High')
     return broad_scope_predictions
 def generateresponse(history):#, task):
     """
     Model definition here:

             continue
     HighestSimilarity = predictions.nlargest(N, ['Score'])
+def sentence_embedder(sentences, model_path):
+  """
+  Calling the sentence similarity model to generate embeddings on input text.
+  :param sentences: takes input text in the form of a string
+  :param model_path: path to the text similarity model
+  :return returns a (1, 384) embedding of the input text
+  """
+  tokenizer = AutoTokenizer.from_pretrained(model_path) #instantiating the sentence embedder using HuggingFace library
+  model = AutoModel.from_pretrained(model_path, from_tf=True) #making a model instance
+  encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
+  # Compute token embeddings
+  with torch.no_grad():
+    model_output = model(**encoded_input)
+  sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask']) #outputs a (1, 384) tensor representation of input text
+  return sentence_embeddings
     return HighestSimilarity
 def add_text(history, text):
 def classifier(userin):
     clean_in = classification.clean_data(userin, type='String')
+    in_emb = sentence_embedder(clean_in, 'Model_bert')
     Number = 10
     broad_scope_predictions = broad_scope_class_predictor(class_embeddings, in_emb, Number, Sensitivity='High')
     return broad_scope_predictions
 def generateresponse(history):#, task):
     """
     Model definition here: