Spaces:

sonalkum
/

synthio-stable-audio-open

Running on Zero

sonalkum commited on Oct 22, 2024

Commit

46f753f

verified ·

1 Parent(s): e8d4978

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -86,17 +86,20 @@ def generate_audio(prompt, seconds_total=10, steps=100, cfg_scale=7):
     return unique_filename
 # Setting up the Gradio Interface
 interface = gr.Interface(
     fn=generate_audio,
     inputs=[
         gr.Textbox(label="Prompt", placeholder="Enter your text prompt here"),
         gr.Slider(0, 10, value=5, label="Duration in Seconds"),
-        gr.Slider(10, 150, value=100, step=10, label="Number of Diffusion Steps"),
         gr.Slider(1, 10, value=7, step=0.1, label="CFG Scale")
     ],
     outputs=gr.Audio(type="filepath", label="Generated Audio"),
     title="Synthio Stable Audio Generator",
-    description="Generate variable-length stereo audio at 44.1kHz from text prompts using Synthio's Stable Audio Open 1.0.")
 # Launch the Interface
 interface.launch()

     return unique_filename
 # Setting up the Gradio Interface
+paper_link = "https://arxiv.org/pdf/2410.02056"
+paper_text = "Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data"
 interface = gr.Interface(
     fn=generate_audio,
     inputs=[
         gr.Textbox(label="Prompt", placeholder="Enter your text prompt here"),
         gr.Slider(0, 10, value=5, label="Duration in Seconds"),
+        gr.Slider(10, 250, value=150, step=10, label="Number of Diffusion Steps"),
         gr.Slider(1, 10, value=7, step=0.1, label="CFG Scale")
     ],
     outputs=gr.Audio(type="filepath", label="Generated Audio"),
     title="Synthio Stable Audio Generator",
+    description="A text-to-audio diffusion model (based on the Stable Audio DiT architecture) for generating variable length synthetic audios from text prompts at 44.1kHz.<br>"+
+                "This model was developed as part of the paper: " + f"<a href='{paper_link}'>{paper_text}</a> <br>")
 # Launch the Interface
 interface.launch()