Spaces:

jhj0517
/

Whisper-WebUI

Running

App Files Files Community

jhj0517 commited on Jun 25, 2024

Commit

6e99075

1 Parent(s): f1d9939

add diarization logic

Browse files

Files changed (1) hide show

modules/whisper_base.py +91 -3

modules/whisper_base.py CHANGED Viewed

@@ -1,12 +1,15 @@
 import os
 import torch
 from typing import List
 import whisper
 import gradio as gr
 from abc import ABC, abstractmethod
 from typing import BinaryIO, Union, Tuple, List
 import numpy as np
 from datetime import datetime
 from modules.subtitle_manager import get_srt, get_vtt, get_txt, write_file, safe_filename
 from modules.youtube_manager import get_ytdata, get_ytaudio
@@ -21,15 +24,20 @@ class WhisperBase(ABC):
         self.model = None
         self.current_model_size = None
         self.model_dir = model_dir
         self.output_dir = output_dir
         os.makedirs(self.output_dir, exist_ok=True)
         os.makedirs(self.model_dir, exist_ok=True)
         self.available_models = whisper.available_models()
         self.available_langs = sorted(list(whisper.tokenizer.LANGUAGES.values()))
         self.translatable_models = ["large", "large-v1", "large-v2", "large-v3"]
         self.device = self.get_device()
         self.available_compute_types = ["float16", "float32"]
         self.current_compute_type = "float16" if self.device == "cuda" else "float32"
     @abstractmethod
     def transcribe(self,
@@ -47,6 +55,86 @@ class WhisperBase(ABC):
                      ):
         pass
     def transcribe_file(self,
                         files: list,
                         file_format: str,
@@ -80,7 +168,7 @@ class WhisperBase(ABC):
         try:
             files_info = {}
             for file in files:
-                transcribed_segments, time_for_task = self.transcribe(
                     file.name,
                     progress,
                     *whisper_params,
@@ -146,7 +234,7 @@ class WhisperBase(ABC):
         """
         try:
             progress(0, desc="Loading Audio..")
-            transcribed_segments, time_for_task = self.transcribe(
                 mic_audio,
                 progress,
                 *whisper_params,
@@ -204,7 +292,7 @@ class WhisperBase(ABC):
             yt = get_ytdata(youtube_link)
             audio = get_ytaudio(yt)
-            transcribed_segments, time_for_task = self.transcribe(
                 audio,
                 progress,
                 *whisper_params,

 import os
 import torch
 from typing import List
+import whisperx
 import whisper
 import gradio as gr
 from abc import ABC, abstractmethod
 from typing import BinaryIO, Union, Tuple, List
 import numpy as np
 from datetime import datetime
+from dataclasses import astuple
+import time
 from modules.subtitle_manager import get_srt, get_vtt, get_txt, write_file, safe_filename
 from modules.youtube_manager import get_ytdata, get_ytaudio
         self.model = None
         self.current_model_size = None
         self.model_dir = model_dir
+        self.diarization_model_dir = os.path.join(self.model_dir, "..", "whisperx")
         self.output_dir = output_dir
         os.makedirs(self.output_dir, exist_ok=True)
         os.makedirs(self.model_dir, exist_ok=True)
+        os.makedirs(self.diarization_model_dir, exist_ok=True)
         self.available_models = whisper.available_models()
         self.available_langs = sorted(list(whisper.tokenizer.LANGUAGES.values()))
         self.translatable_models = ["large", "large-v1", "large-v2", "large-v3"]
         self.device = self.get_device()
         self.available_compute_types = ["float16", "float32"]
         self.current_compute_type = "float16" if self.device == "cuda" else "float32"
+        self.diarization_model = None
+        self.diarization_model_metadata = None
+        self.diarization_pipe = None
     @abstractmethod
     def transcribe(self,
                      ):
         pass
+    def run(self,
+            audio: Union[str, BinaryIO, np.ndarray],
+            progress: gr.Progress,
+            *whisper_params,
+            ):
+        params = WhisperParameters.post_process(*whisper_params)
+        if params.lang == "Automatic Detection":
+            params.lang = None
+        else:
+            language_code_dict = {value: key for key, value in whisper.tokenizer.LANGUAGES.items()}
+            params.lang = language_code_dict[params.lang]
+        result, elapsed_time = self.transcribe(
+            audio,
+            progress,
+            *whisper_params
+        )
+        if params.is_diarize:
+            if params.lang is None:
+                print("Diarization Failed!! You have to specify the language explicitly to use diarization")
+            else:
+                result, elapsed_time_diarization = self.diarize(
+                    audio=audio,
+                    language_code=params.lang,
+                    use_auth_token=params.hf_token,
+                    transcribed_result=result
+                )
+                elapsed_time += elapsed_time_diarization
+        return result, elapsed_time
+    def diarize(self,
+                audio: str,
+                language_code: str,
+                use_auth_token: str,
+                transcribed_result: List[dict]
+                ):
+        start_time = time.time()
+        if (self.diarization_model is None or
+                self.diarization_model_metadata is None or
+                self.diarization_pipe is None):
+            self._update_diarization_model(
+                language_code=language_code,
+                use_auth_token=use_auth_token
+            )
+        audio = whisperx.load_audio(audio)
+        diarization_segments = self.diarization_pipe(audio)
+        diarized_result = whisperx.assign_word_speakers(
+            diarization_segments,
+            {"segments": transcribed_result}
+        )
+        for segment in diarized_result["segments"]:
+            speaker = "None"
+            if "speaker" in segment:
+                speaker = segment["speaker"]
+            segment["text"] = speaker + "|" + segment["text"][1:]
+        elapsed_time = time.time() - start_time
+        return diarized_result["segments"], elapsed_time
+    def _update_diarization_model(self,
+                                  use_auth_token: str,
+                                  language_code: str
+                                  ):
+        print("loading diarization model...")
+        self.diarization_model, self.diarization_model_metadata = whisperx.load_align_model(
+            language_code=language_code,
+            device=self.device,
+            model_dir=self.diarization_model_dir,
+        )
+        self.diarization_pipe = whisperx.DiarizationPipeline(
+            use_auth_token=use_auth_token,
+            device=self.device
+        )
     def transcribe_file(self,
                         files: list,
                         file_format: str,
         try:
             files_info = {}
             for file in files:
+                transcribed_segments, time_for_task = self.run(
                     file.name,
                     progress,
                     *whisper_params,
         """
         try:
             progress(0, desc="Loading Audio..")
+            transcribed_segments, time_for_task = self.run(
                 mic_audio,
                 progress,
                 *whisper_params,
             yt = get_ytdata(youtube_link)
             audio = get_ytaudio(yt)
+            transcribed_segments, time_for_task = self.run(
                 audio,
                 progress,
                 *whisper_params,