Spaces:

Mahiruoshi
/

MyGO_VIts-bert

Running

App Files Files Community

Mahiruoshi commited on Feb 4, 2024

Commit

a04eaaf

verified ·

1 Parent(s): ccf8fa3

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -315

app.py CHANGED Viewed

@@ -33,9 +33,14 @@ from config import config
 import torch
 import commons
 from text import cleaned_text_to_sequence, get_bert
 from text.cleaner import clean_text
 import utils
 from models import SynthesizerTrn
 from text.symbols import symbols
 import sys
@@ -66,6 +71,8 @@ webBase = {
 languages = [ "Auto", "ZH", "JP"]
 modelPaths = []
 modes = ['pyopenjtalk-V2.3']
 sentence_modes = ['sentence','paragraph']
 net_g = None
@@ -97,317 +104,35 @@ BandList = {
         "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
-#翻译
-def translate(Sentence: str, to_Language: str = "jp", from_Language: str = ""):
-    """
-    :param Sentence: 待翻译语句
-    :param from_Language: 待翻译语句语言
-    :param to_Language: 目标语言
-    :return: 翻译后语句 出错时返回None
-    常见语言代码：中文 zh 英语 en 日语 jp
-    """
-    appid = "20231117001883321"
-    key = "lMQbvZHeJveDceLof2wf"
-    if appid == "" or key == "":
-        return "请开发者在config.yml中配置app_key与secret_key"
-    url = "https://fanyi-api.baidu.com/api/trans/vip/translate"
-    texts = Sentence.splitlines()
-    outTexts = []
-    for t in texts:
-        if t != "":
-            # 签名计算 参考文档 https://api.fanyi.baidu.com/product/113
-            salt = str(random.randint(1, 100000))
-            signString = appid + t + salt + key
-            hs = hashlib.md5()
-            hs.update(signString.encode("utf-8"))
-            signString = hs.hexdigest()
-            if from_Language == "":
-                from_Language = "auto"
-            headers = {"Content-Type": "application/x-www-form-urlencoded"}
-            payload = {
-                "q": t,
-                "from": from_Language,
-                "to": to_Language,
-                "appid": appid,
-                "salt": salt,
-                "sign": signString,
-            }
-            # 发送请求
-            try:
-                response = requests.post(
-                    url=url, data=payload, headers=headers, timeout=3
-                )
-                response = response.json()
-                if "trans_result" in response.keys():
-                    result = response["trans_result"][0]
-                    if "dst" in result.keys():
-                        dst = result["dst"]
-                        outTexts.append(dst)
-            except Exception:
-                return Sentence
-        else:
-            outTexts.append(t)
-    return "\n".join(outTexts)
-#文本清洗工具
-def is_japanese(string):
-        for ch in string:
-            if ord(ch) > 0x3040 and ord(ch) < 0x30FF:
-                return True
-        return False
-def is_chinese(string):
-    for ch in string:
-        if '\u4e00' <= ch <= '\u9fff':
-            return True
-    return False
-def is_single_language(sentence):
-    # 检查句子是否为单一语言
-    contains_chinese = re.search(r'[\u4e00-\u9fff]', sentence) is not None
-    contains_japanese = re.search(r'[\u3040-\u30ff\u31f0-\u31ff]', sentence) is not None
-    contains_english = re.search(r'[a-zA-Z]', sentence) is not None
-    language_count = sum([contains_chinese, contains_japanese, contains_english])
-    return language_count == 1
-def merge_scattered_parts(sentences):
-    """合并零散的部分到相邻的句子中，并确保单一语言性"""
-    merged_sentences = []
-    buffer_sentence = ""
-    for sentence in sentences:
-        # 检查是否是单一语言或者太短（可能是标点或单个词）
-        if is_single_language(sentence) and len(sentence) > 1:
-            # 如果缓冲区有内容，先将缓冲区的内容添加到列表
-            if buffer_sentence:
-                merged_sentences.append(buffer_sentence)
-                buffer_sentence = ""
-            merged_sentences.append(sentence)
-        else:
-            # 如果是零散的部分，将其添加到缓冲区
-            buffer_sentence += sentence
-    # 确保最后的缓冲区内容被添加
-    if buffer_sentence:
-        merged_sentences.append(buffer_sentence)
-    return merged_sentences
-def is_only_punctuation(s):
-    """检查字符串是否只包含标点符号"""
-    # 此处列出中文、日文、英文常见标点符号
-    punctuation_pattern = re.compile(r'^[\s。*；，：“”（）、！？《》\u3000\.,;:"\'?!()]+$')
-    return punctuation_pattern.match(s) is not None
-def split_mixed_language(sentence):
-    # 分割混合语言句子
-    # 逐字符检查，分割不同语言部分
-    sub_sentences = []
-    current_language = None
-    current_part = ""
-    for char in sentence:
-        if re.match(r'[\u4e00-\u9fff]', char):  # Chinese character
-            if current_language != 'chinese':
-                if current_part:
-                    sub_sentences.append(current_part)
-                current_part = char
-                current_language = 'chinese'
-            else:
-                current_part += char
-        elif re.match(r'[\u3040-\u30ff\u31f0-\u31ff]', char):  # Japanese character
-            if current_language != 'japanese':
-                if current_part:
-                    sub_sentences.append(current_part)
-                current_part = char
-                current_language = 'japanese'
-            else:
-                current_part += char
-        elif re.match(r'[a-zA-Z]', char):  # English character
-            if current_language != 'english':
-                if current_part:
-                    sub_sentences.append(current_part)
-                current_part = char
-                current_language = 'english'
-            else:
-                current_part += char
         else:
-            current_part += char  # For punctuation and other characters
-    if current_part:
-        sub_sentences.append(current_part)
-    return sub_sentences
-def replace_quotes(text):
-    # 替换中文、日文引号为英文引号
-    text = re.sub(r'[“”‘’『』「」（）()]', '"', text)
-    return text
-def remove_numeric_annotations(text):
-    # 定义用于匹配数字注释的正则表达式
-    # 包括 “”、【】和〔〕包裹的数字
-    pattern = r'“\d+”|【\d+】|〔\d+〕'
-    # 使用正则表达式替换掉这些注释
-    cleaned_text = re.sub(pattern, '', text)
-    return cleaned_text
-def merge_adjacent_japanese(sentences):
-    """合并相邻且都只包含日语的句子"""
-    merged_sentences = []
-    i = 0
-    while i < len(sentences):
-        current_sentence = sentences[i]
-        if i + 1 < len(sentences) and is_japanese(current_sentence) and is_japanese(sentences[i + 1]):
-            # 当前句子和下一句都是日语，合并它们
-            while i + 1 < len(sentences) and is_japanese(sentences[i + 1]):
-                current_sentence += sentences[i + 1]
-                i += 1
-        merged_sentences.append(current_sentence)
-        i += 1
-    return merged_sentences
-def extrac(text):
-    text = replace_quotes(remove_numeric_annotations(text))  # 替换引号
-    text = re.sub("<[^>]*>", "", text)  # 移除 HTML 标签
-    # 使用换行符和标点符号进行初步分割
-    preliminary_sentences = re.split(r'([\n。；！？\.\?!])', text)
-    final_sentences = []
-    preliminary_sentences = re.split(r'([\n。；！？\.\?!])', text)
-    for piece in preliminary_sentences:
-        if is_single_language(piece):
-            final_sentences.append(piece)
-        else:
-            sub_sentences = split_mixed_language(piece)
-            final_sentences.extend(sub_sentences)
-    # 处理长句子，使用jieba进行分词
-    split_sentences = []
-    for sentence in final_sentences:
-        split_sentences.extend(split_long_sentences(sentence))
-    # 合并相邻的日语句子
-    merged_japanese_sentences = merge_adjacent_japanese(split_sentences)
-    # 剔除只包含标点符号的元素
-    clean_sentences = [s for s in merged_japanese_sentences if not is_only_punctuation(s)]
-    # 移除空字符串并去除多余引号
-    return [s.replace('"','').strip() for s in clean_sentences if s]
-  # 移除空字符串
-def is_mixed_language(sentence):
-    contains_chinese = re.search(r'[\u4e00-\u9fff]', sentence) is not None
-    contains_japanese = re.search(r'[\u3040-\u30ff\u31f0-\u31ff]', sentence) is not None
-    contains_english = re.search(r'[a-zA-Z]', sentence) is not None
-    languages_count = sum([contains_chinese, contains_japanese, contains_english])
-    return languages_count > 1
-def split_mixed_language(sentence):
-    # 分割混合语言句子
-    sub_sentences = re.split(r'(?<=[。！？\.\?!])(?=")|(?<=")(?=[\u4e00-\u9fff\u3040-\u30ff\u31f0-\u31ff]|[a-zA-Z])', sentence)
-    return [s.strip() for s in sub_sentences if s.strip()]
-def seconds_to_ass_time(seconds):
-    """将秒数转换为ASS时间格式"""
-    hours = int(seconds / 3600)
-    minutes = int((seconds % 3600) / 60)
-    seconds = int(seconds) % 60
-    milliseconds = int((seconds - int(seconds)) * 1000)
-    return "{:01d}:{:02d}:{:02d}.{:02d}".format(hours, minutes, seconds, int(milliseconds / 10))
-def extract_text_from_epub(file_path):
-    book = epub.read_epub(file_path)
-    content = []
-    for item in book.items:
-        if isinstance(item, epub.EpubHtml):
-            soup = BeautifulSoup(item.content, 'html.parser')
-            content.append(soup.get_text())
-    return '\n'.join(content)
-def extract_text_from_pdf(file_path):
-    with open(file_path, 'rb') as file:
-        reader = PdfReader(file)
-        content = [page.extract_text() for page in reader.pages]
-    return '\n'.join(content)
-def remove_annotations(text):
-    # 移除方括号、尖括号和中文方括号中的内容
-    text = re.sub(r'\[.*?\]', '', text)
-    text = re.sub(r'\<.*?\>', '', text)
-    text = re.sub(r'&#8203;``【oaicite:1】``&#8203;', '', text)
-    return text
-def extract_text_from_file(inputFile):
-    file_extension = os.path.splitext(inputFile)[1].lower()
-    if file_extension == ".epub":
-        return extract_text_from_epub(inputFile)
-    elif file_extension == ".pdf":
-        return extract_text_from_pdf(inputFile)
-    elif file_extension == ".txt":
-        with open(inputFile, 'r', encoding='utf-8') as f:
-            return f.read()
-    else:
-        raise ValueError(f"Unsupported file format: {file_extension}")
-def split_by_punctuation(sentence):
-    """按照中文次级标点符号分割句子"""
-    # 常见的中文次级分隔符号：逗号、分号等
-    parts = re.split(r'([，,；;])', sentence)
-    # 将标点符号与前面的词语合并，避免单独标点符号成为一个部分
-    merged_parts = []
-    for part in parts:
-        if part and not part in '，,；;':
-            merged_parts.append(part)
-        elif merged_parts:
-            merged_parts[-1] += part
-    return merged_parts
-def split_long_sentences(sentence, max_length=30):
-    """如果中文句子太长，先按标点分割，必要时使用jieba进行分词并分割"""
-    if len(sentence) > max_length and is_chinese(sentence):
-        # 首先尝试按照次级标点符号分割
-        preliminary_parts = split_by_punctuation(sentence)
-        new_sentences = []
-        for part in preliminary_parts:
-            # 如果部分仍然太长，使用jieba进行分词
-            if len(part) > max_length:
-                words = jieba.lcut(part)
-                current_sentence = ""
-                for word in words:
-                    if len(current_sentence) + len(word) > max_length:
-                        new_sentences.append(current_sentence)
-                        current_sentence = word
-                    else:
-                        current_sentence += word
-                if current_sentence:
-                    new_sentences.append(current_sentence)
-            else:
-                new_sentences.append(part)
-        return new_sentences
-    return [sentence]  # 如果句子不长或不是中文，直接返回
-def extract_and_convert(text):
-    # 使用正则表达式找出所有英文单词
-    english_parts = re.findall(r'\b[A-Za-z]+\b', text)  # \b为单词边界标识
-    # 对每个英文单词进行片假名转换
-    kana_parts = ['\n{}\n'.format(romajitable.to_kana(word).katakana) for word in english_parts]
-    # 替换原文本中的英文部分
-    for eng, kana in zip(english_parts, kana_parts):
-        text = text.replace(eng, kana, 1)  # 限制每次只替换一个实例
-    return text
 def get_net_g(model_path: str,  device: str, hps):
     net_g = SynthesizerTrn(
@@ -480,6 +205,8 @@ def infer(
     if style_text == None:
         style_text = ""
         style_weight=0,
     if language == "JP":
         text = translate(text,"jp")
     if language == "ZH":
@@ -668,7 +395,7 @@ def generate_audio(
     if inputFile:
         text = extract_text_from_file(inputFile.name)
         sentence_mode = 'paragraph'
-    if mode == 'pyopenjtalk-V2.3':
         if sentence_mode == 'sentence':
             audio = infer(
                         text,
@@ -751,6 +478,9 @@ def generate_audio(
     return file_path
 if __name__ == "__main__":
     for dirpath, dirnames, filenames in os.walk('Data/BangDream/models/'):
         for filename in filenames:
             modelPaths.append(os.path.join(dirpath, filename))
@@ -762,9 +492,11 @@ if __name__ == "__main__":
     speakers = list(speaker_ids.keys())
     with gr.Blocks() as app:
         gr.Markdown(value="""
             ([Bert-Vits2](https://github.com/Stardust-minus/Bert-VITS2) V2.3)少歌邦邦全员在线语音合成\n
             [好玩的](http://love.soyorin.top/)\n
-            该界面的真实链接(国内可用): https://mahiruoshi-bangdream-bert-vits2.hf.space/\n
             API: https://mahiruoshi-bert-vits2-api.hf.space/ \n
             调用方式: https://mahiruoshi-bert-vits2-api.hf.space/?text={{speakText}}&speaker=chosen_speaker\n
             推荐搭配[Legado开源阅读](https://github.com/gedoor/legado)或[聊天bot](https://github.com/Paraworks/BangDreamAi)使用\n
@@ -809,13 +541,13 @@ if __name__ == "__main__":
                                         choices=modes, value="pyopenjtalk-V2.3", label="TTS模式，合成少歌角色需要切换成 pyopenjtalk-V2.3-Katakana "
                                     )
                                 sentence_mode = gr.Dropdown(
-                                        choices=sentence_modes, value="paragraph", label="文本合成模式"
                                     )
                                 with gr.Accordion(label="扩展选项", open=False):
                                     inputFile = gr.UploadButton(label="txt文件输入")
                                     speakerList = gr.TextArea(
                                         label="角色对应表,如果你记不住角色名可以这样,左边是你想要在每一句话合成中用到的speaker(见角色清单)右边是你上传文本时分隔符左边设置的说话人:{ChoseSpeakerFromConfigList}|{SeakerInUploadText}",
-                                        value = "ましろ|真白\n七深|七深\n透子|透子\nつくし|筑紫\n瑠唯|瑠唯\nそよ|素世\n祥子|祥子",
                                     )
                                     groupSize = gr.Slider(
                                         minimum=10, maximum=1000 if  torch.cuda.is_available() else 50,value = 50, step=1, label="单个音频文件包含的最大句子数"
@@ -835,8 +567,8 @@ if __name__ == "__main__":
                                 text = gr.TextArea(
                                         label="文本输入,可用'|'分割说话人和文本,注意换行",
                                         info="输入纯日语或者中文",
-                                        #placeholder=f"{name}|你觉得你是职业歌手吗\n真白|我觉得我是",
-                                        value=f"{name}|你觉得你是职业歌手吗\n真白|我觉得我是"
                                     )
                                 style_text = gr.Textbox(
                                     label="情感辅助文本",

 import torch
 import commons
 from text import cleaned_text_to_sequence, get_bert
+from tools.sentence import extrac, is_japanese, is_chinese, seconds_to_ass_time, extract_text_from_file, remove_annotations,extract_and_convert
 from text.cleaner import clean_text
 import utils
+from tools.translate import translate
 from models import SynthesizerTrn
 from text.symbols import symbols
 import sys
 languages = [ "Auto", "ZH", "JP"]
 modelPaths = []
 modes = ['pyopenjtalk-V2.3']
+if torch.cuda.is_available():
+    modes = ['pyopenjtalk-V2.3','fugashi-V2.3']
 sentence_modes = ['sentence','paragraph']
 net_g = None
         "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
+# 推理工具
+def download_unidic():
+    try:
+        Tagger()
+        print("Tagger launch successfully.")
+    except Exception as e:
+        print("UNIDIC dictionary not found, downloading...")
+        subprocess.run([sys.executable, "-m", "unidic", "download"])
+        print("Download completed.")
+def kanji_to_hiragana(text):
+    global tagger
+    output = ""
+    # 更新正则表达式以更准确地区分文本和标点符号
+    segments = re.findall(r'[一-龥ぁ-んァ-ン\w]+|[^\一-龥ぁ-んァ-ン\w\s]', text, re.UNICODE)
+    for segment in segments:
+        if re.match(r'[一-龥ぁ-んァ-ン\w]+', segment):
+            # 如果是单词或汉字，转换为平假名
+            for word in tagger(segment):
+                kana = word.feature.kana or word.surface
+                hiragana = jaconv.kata2hira(kana)  # 将片假名转换为平假名
+                output += hiragana
         else:
+            # 如果是标点符号，保持不变
+            output += segment
+    return output
 def get_net_g(model_path: str,  device: str, hps):
     net_g = SynthesizerTrn(
     if style_text == None:
         style_text = ""
         style_weight=0,
+    if mode == 'fugashi-V2.3':
+        text = kanji_to_hiragana(text) if is_japanese(text) else text
     if language == "JP":
         text = translate(text,"jp")
     if language == "ZH":
     if inputFile:
         text = extract_text_from_file(inputFile.name)
         sentence_mode = 'paragraph'
+    if mode == 'pyopenjtalk-V2.3' or mode == 'fugashi-V2.3':
         if sentence_mode == 'sentence':
             audio = infer(
                         text,
     return file_path
 if __name__ == "__main__":
+    if torch.cuda.is_available():
+        download_unidic()
+        tagger = Tagger()
     for dirpath, dirnames, filenames in os.walk('Data/BangDream/models/'):
         for filename in filenames:
             modelPaths.append(os.path.join(dirpath, filename))
     speakers = list(speaker_ids.keys())
     with gr.Blocks() as app:
         gr.Markdown(value="""
+            [日语特化版(推荐)](https://huggingface.co/spaces/Mahiruoshi/BangStarlight),国内可用连接: https://mahiruoshi-BangStarlight.hf.space/\n
+            [假名标注版](https://huggingface.co/spaces/Mahiruoshi/MyGO_VIts-bert)，国内可用连接: https://mahiruoshi-MyGO-VIts-bert.hf.space/\n
+            该界面的真实链接(国内可用): https://mahiruoshi-bangdream-bert-vits2.hf.space/\n
             ([Bert-Vits2](https://github.com/Stardust-minus/Bert-VITS2) V2.3)少歌邦邦全员在线语音合成\n
             [好玩的](http://love.soyorin.top/)\n
             API: https://mahiruoshi-bert-vits2-api.hf.space/ \n
             调用方式: https://mahiruoshi-bert-vits2-api.hf.space/?text={{speakText}}&speaker=chosen_speaker\n
             推荐搭配[Legado开源阅读](https://github.com/gedoor/legado)或[聊天bot](https://github.com/Paraworks/BangDreamAi)使用\n
                                         choices=modes, value="pyopenjtalk-V2.3", label="TTS模式，合成少歌角色需要切换成 pyopenjtalk-V2.3-Katakana "
                                     )
                                 sentence_mode = gr.Dropdown(
+                                        choices=sentence_modes, value="sentence", label="文本合成模式"
                                     )
                                 with gr.Accordion(label="扩展选项", open=False):
                                     inputFile = gr.UploadButton(label="txt文件输入")
                                     speakerList = gr.TextArea(
                                         label="角色对应表,如果你记不住角色名可以这样,左边是你想要在每一句话合成中用到的speaker(见角色清单)右边是你上传文本时分隔符左边设置的说话人:{ChoseSpeakerFromConfigList}|{SeakerInUploadText}",
+                                        value = "ましろ|天音\n七深|七深\n透子|透子\nつくし|筑紫\n瑠唯|瑠唯\nそよ|素世\n祥子|祥子",
                                     )
                                     groupSize = gr.Slider(
                                         minimum=10, maximum=1000 if  torch.cuda.is_available() else 50,value = 50, step=1, label="单个音频文件包含的最大句子数"
                                 text = gr.TextArea(
                                         label="文本输入,可用'|'分割说话人和文本,注意换行",
                                         info="输入纯日语或者中文",
+                                        value=f"{name}|你是职业歌手吗\n天音|我觉得我是",
+                                        placeholder=f"私は{name}です、あの子はだれ？ "
                                     )
                                 style_text = gr.Textbox(
                                     label="情感辅助文本",