Spaces:

harshananddev
/

speech-to-text

Sleeping

harshananddev commited on Jul 24, 2024

Commit

4af88fe

verified ·

1 Parent(s): b869493

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,11 @@
 import gradio as gr
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
 import torch
 import torchaudio
-# Install the necessary packages
 import subprocess
 import sys
 def install(package):
     subprocess.check_call([sys.executable, "-m", "pip", "install", package])
@@ -15,9 +14,9 @@ install("torch")
 install("torchaudio")
 install("gradio")
-# Load pre-trained model and tokenizer
 model_name = "facebook/wav2vec2-base-960h"
-tokenizer = Wav2Vec2Tokenizer.from_pretrained(model_name)
 model = Wav2Vec2ForCTC.from_pretrained(model_name)
 def speech_to_text(audio):
@@ -34,7 +33,7 @@ def speech_to_text(audio):
         waveform = resampler(waveform)
         # Tokenize the waveform
-        inputs = tokenizer(waveform.squeeze().numpy(), return_tensors="pt", sampling_rate=16000)
         # Perform inference
         with torch.no_grad():
@@ -42,7 +41,7 @@ def speech_to_text(audio):
         # Decode the output
         predicted_ids = torch.argmax(logits, dim=-1)
-        transcription = tokenizer.batch_decode(predicted_ids)[0]
         return transcription
     except Exception as e:
@@ -51,7 +50,7 @@ def speech_to_text(audio):
 # Create Gradio interface
 iface = gr.Interface(
     fn=speech_to_text,
-    inputs=gr.inputs.Audio(source="microphone", type="file"),
     outputs="text",
     live=True,
     title="Speech to Text",

 import gradio as gr
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import torch
 import torchaudio
 import subprocess
 import sys
+# Function to install required packages
 def install(package):
     subprocess.check_call([sys.executable, "-m", "pip", "install", package])
 install("torchaudio")
 install("gradio")
+# Load pre-trained model and processor
 model_name = "facebook/wav2vec2-base-960h"
+processor = Wav2Vec2Processor.from_pretrained(model_name)
 model = Wav2Vec2ForCTC.from_pretrained(model_name)
 def speech_to_text(audio):
         waveform = resampler(waveform)
         # Tokenize the waveform
+        inputs = processor(waveform.squeeze().numpy(), return_tensors="pt", sampling_rate=16000)
         # Perform inference
         with torch.no_grad():
         # Decode the output
         predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = processor.batch_decode(predicted_ids)[0]
         return transcription
     except Exception as e:
 # Create Gradio interface
 iface = gr.Interface(
     fn=speech_to_text,
+    inputs=gr.Audio(source="microphone", type="file"),
     outputs="text",
     live=True,
     title="Speech to Text",