Spaces:

dibend
/

Wiki_Search_Summary

Running

App Files Files Community

dibend commited on Nov 20, 2024

Commit

47d20f1

verified ·

1 Parent(s): 430297a

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -27

app.py CHANGED Viewed

@@ -2,11 +2,11 @@ from transformers import pipeline
 import gradio as gr
 import requests
-# Initialize the summarization model
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-# Function to fetch Wikipedia content
-def fetch_wikipedia_article(search_term):
     url = "https://en.wikipedia.org/w/api.php"
     params = {
         "action": "query",
@@ -16,51 +16,52 @@ def fetch_wikipedia_article(search_term):
         "titles": search_term,
         "redirects": 1  # Follow redirects
     }
-    headers = {
-        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
-    }
     try:
         response = requests.get(url, headers=headers, params=params)
         response.raise_for_status()
         data = response.json()
         page = next(iter(data["query"]["pages"].values()))
-        return page.get("extract", "") if "extract" in page else "⚠️ No content found for this topic."
     except requests.RequestException as e:
         return f"⚠️ Error fetching article: {e}"
-# Function to split long text into chunks
-def split_into_chunks(text, max_words=750):
     words = text.split()
-    return [" ".join(words[i:i+max_words]) for i in range(0, len(words), max_words)]
-# Function to summarize large text
-def summarize_large_text(text):
-    chunks = split_into_chunks(text)
     summaries = []
-    for chunk in chunks:
         try:
-            summary = summarizer(chunk, max_length=150, min_length=40, do_sample=False)[0]['summary_text']
             summaries.append(summary)
         except Exception as e:
-            summaries.append(f"⚠️ Error summarizing chunk: {str(e)}")
-    return " ".join(summaries)
-# Main function to fetch and summarize Wikipedia articles
-def summarize_wikipedia_article(search_term):
-    content = fetch_wikipedia_article(search_term)
     if content.startswith("⚠️"):
-        return content  # Return error or empty content message
-    return summarize_large_text(content)
 # Gradio Interface
 iface = gr.Interface(
-    fn=summarize_wikipedia_article,
     inputs=gr.Textbox(lines=1, placeholder="Enter a Wikipedia topic", label="Wikipedia Topic"),
     outputs=gr.Textbox(label="Summarized Content"),
-    title="Wikipedia Article Summarizer",
-    description="Fetch and summarize Wikipedia articles using AI. Enter a topic to get a concise summary.",
 )
-# Launch the Gradio app
 if __name__ == "__main__":
-    iface.launch(debug=True)

 import gradio as gr
 import requests
+# Initialize the summarization pipeline (global initialization for efficiency)
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+# Function to fetch content from Wikipedia with a limit on length
+def fetch_wikipedia_content(search_term, max_chars=10000):
     url = "https://en.wikipedia.org/w/api.php"
     params = {
         "action": "query",
         "titles": search_term,
         "redirects": 1  # Follow redirects
     }
     try:
         response = requests.get(url, headers=headers, params=params)
         response.raise_for_status()
         data = response.json()
         page = next(iter(data["query"]["pages"].values()))
+        content = page.get("extract", "")
+        return content[:max_chars] if content else "⚠️ No content found for this topic."
     except requests.RequestException as e:
         return f"⚠️ Error fetching article: {e}"
+# Function to split text into manageable chunks
+def split_text_into_chunks(text, max_words=500):
     words = text.split()
+    return [" ".join(words[i:i + max_words]) for i in range(0, len(words), max_words)]
+# Function to summarize text in chunks
+def summarize_text(text):
+    chunks = split_text_into_chunks(text)
     summaries = []
+    for i, chunk in enumerate(chunks):
         try:
+            chunk_word_count = len(chunk.split())
+            max_summary_length = min(120, max(40, chunk_word_count // 2))  # Optimized for smaller summaries
+            summary = summarizer(chunk, max_length=max_summary_length, min_length=30, do_sample=False)[0]['summary_text']
             summaries.append(summary)
         except Exception as e:
+            summaries.append(f"⚠️ Error summarizing chunk {i + 1}: {str(e)}")
+    return "\n\n".join(summaries)
+# Main function for Gradio
+def fetch_and_summarize(search_term):
+    content = fetch_wikipedia_content(search_term)
     if content.startswith("⚠️"):
+        return content
+    return summarize_text(content)
 # Gradio Interface
 iface = gr.Interface(
+    fn=fetch_and_summarize,
     inputs=gr.Textbox(lines=1, placeholder="Enter a Wikipedia topic", label="Wikipedia Topic"),
     outputs=gr.Textbox(label="Summarized Content"),
+    title="Optimized Wikipedia Article Summarizer",
+    description="Fetch and summarize Wikipedia articles efficiently. Optimized for lightweight summarization.",
+    allow_flagging="never"  # Disable flagging for a lightweight deployment
 )
+# Launch Gradio with queuing for handling concurrent requests
 if __name__ == "__main__":
+    iface.queue(concurrency_count=4).launch(debug=False)