Spaces:

amir22010
/

MarketMate

Sleeping

App Files Files Community

amir22010 commited on Oct 18, 2024

Commit

f0dd428

verified ·

1 Parent(s): b96fdc3

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -16

app.py CHANGED Viewed

@@ -26,6 +26,27 @@ for name in list_repo_files(repo_id="balacoon/tts"):
                 local_dir=os.getcwd(),
             )
 #client
 client = Groq(
     api_key=os.getenv("GROQ_API_KEY"),
@@ -98,16 +119,8 @@ def greet(product,description):
     response = client.chat.completions.create(model=guard_llm, messages=messages, temperature=0)
     if response.choices[0].message.content != "not moderated":
         a_list = ["Sorry, I can't proceed for generating marketing email. Your content needs to be moderated first. Thank you!"]
-        with locker:
-            tts = TTS(os.path.join(os.getcwd(), tts_model_str))
-            speakers = tts.get_speakers()
-            if len(a_list[0]) > 1024:
-                # truncate the text
-                text_str = a_list[0][:1024]
-            else:
-                text_str = a_list[0]
-            samples = tts.synthesize(text_str, speakers[-1])
-        yield gr.Audio(value=(tts.get_sampling_rate(), samples)), text_str
     else:
         output = llm.create_chat_completion(
         messages=[
@@ -122,15 +135,14 @@ def greet(product,description):
         stream=True
         )
         partial_message = ""
         for chunk in output:
             delta = chunk['choices'][0]['delta']
             if 'content' in delta:
-                with locker:
-                    tts = TTS(os.path.join(os.getcwd(), tts_model_str))
-                    speakers = tts.get_speakers()
-                    samples = tts.synthesize(delta.get('content', ''), speakers[-1])
-                    partial_message = partial_message + delta.get('content', '')
-                yield gr.Audio(value=(tts.get_sampling_rate(), samples)), partial_message
 audio = gr.Audio()
 demo = gr.Interface(fn=greet, inputs=["text","text"], concurrency_limit=10, outputs=[audio,"text"])

                 local_dir=os.getcwd(),
             )
+def text_to_speech(text):
+    with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as temp_file:
+        with locker:
+            tts = TTS(os.path.join(os.getcwd(), tts_model_str))
+            if len(text) > 1024:
+                # truncate the text
+                text_str = text[:1024]
+            else:
+                text_str = a_list[0]
+            audio_data = tts.synthesize(text_str, "92")
+        temp_file.write(np.ascontiguousarray(audio_data))
+    return temp_file.name
+def combine_audio_files(audio_files):
+    combined = AudioSegment.empty()
+    for audio_file in audio_files:
+        segment = AudioSegment.from_wav(audio_file)
+        combined += segment
+        os.remove(audio_file)  # Remove temporary files
+    return combined
 #client
 client = Groq(
     api_key=os.getenv("GROQ_API_KEY"),
     response = client.chat.completions.create(model=guard_llm, messages=messages, temperature=0)
     if response.choices[0].message.content != "not moderated":
         a_list = ["Sorry, I can't proceed for generating marketing email. Your content needs to be moderated first. Thank you!"]
+        processed_audio = combine_audio_files([text_to_speech(a_list[0])])
+        yield (processed_audio.sample_rate,processed_audio) a_list[0]
     else:
         output = llm.create_chat_completion(
         messages=[
         stream=True
         )
         partial_message = ""
+        audio_list = []
         for chunk in output:
             delta = chunk['choices'][0]['delta']
             if 'content' in delta:
+                audio_list = audio_list + [text_to_speech(delta.get('content', ''))]
+                processed_audio = combine_audio_files(audio_list)
+                partial_message = partial_message + delta.get('content', '')
+                yield (processed_audio.sample_rate,processed_audio), partial_message
 audio = gr.Audio()
 demo = gr.Interface(fn=greet, inputs=["text","text"], concurrency_limit=10, outputs=[audio,"text"])