Voice-Clone-Router

Paused

App Files Files Community

kemuriririn commited on 9 days ago

Commit

9e032ec

1 Parent(s): c82a118

(wip)debug

Browse files

Files changed (2) hide show

models.py +7 -0
tts.py +32 -31

models.py CHANGED Viewed

@@ -477,6 +477,13 @@ def insert_initial_models():
             is_open=True,
             model_url="https://github.com/FunAudioLLM/CosyVoice",
         ),
         # Model(
         #     id="papla-p1",
         #     name="Papla P1",

             is_open=True,
             model_url="https://github.com/FunAudioLLM/CosyVoice",
         ),
+        Model(
+            id="gpt-sovits-v2",
+            name="GPT-SoVITS v2",
+            model_type=ModelType.TTS,
+            is_open=True,
+            model_url="https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2",
+        ),
         # Model(
         #     id="papla-p1",
         #     name="Papla P1",

tts.py CHANGED Viewed

@@ -37,10 +37,6 @@ model_mapping = {
     #     "provider": "elevenlabs",
     #     "model": "eleven_flash_v2_5",
     # },
-    # "cartesia-sonic-2": {
-    #     "provider": "cartesia",
-    #     "model": "sonic-2",
-    # },
     "spark-tts": {
         "provider": "spark",
         "model": "spark-tts",
@@ -65,10 +61,6 @@ model_mapping = {
     #     "provider": "hume",
     #     "model": "octave",
     # },
-    # "megatts3": {
-    #     "provider": "megatts3",
-    #     "model": "megatts3",
-    # },
     # "minimax-02-hd": {
     #     "provider": "minimax",
     #     "model": "speech-02-hd",
@@ -85,14 +77,14 @@ model_mapping = {
         "provider": "bilibili",
         "model": "index-tts",
     },
-    "step-audio-tts-3b": {
-        "provider": "swarmeta_ai",
-        "model": "step-audio-tts-3b",
-    },
     "maskgct": {
         "provider": "amphion",
         "model": "maskgct",
     },
 }
 url = "https://tts-agi-tts-router-v2.hf.space/tts"
 headers = {
@@ -266,25 +258,9 @@ def predict_cosyvoice_tts(text, reference_audio_path=None):
     return result
-def predict_step_audio_tts_3b(text, reference_audio_path=None):
-    from gradio_client import Client, handle_file,file
-    client = Client("https://swarmeta-ai-step-audio-tts-3b.ms.show/")
-    if not reference_audio_path:
-        raise ValueError("step-audio-tts-3b 需要 reference_audio_path")
-    prompt_audio = handle_file(reference_audio_path)
-    result = client.predict(
-        text=text,
-        prompt_audio=file(reference_audio_path),
-        prompt_text="",
-        api_name="/generate_clone"
-    )
-    print("step-audio-tts-3b result:", result)
-    return result
 def predict_maskgct(text, reference_audio_path=None):
     from gradio_client import Client, handle_file
-    client = Client("https://s5k.cn/api/v1/studio/amphion/maskgct/gradio/")
     if not reference_audio_path:
         raise ValueError("maskgct 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
@@ -299,6 +275,31 @@ def predict_maskgct(text, reference_audio_path=None):
     return result
 def predict_tts(text, model, reference_audio_path=None):
     global client
     print(f"Predicting TTS for {model}")
@@ -315,10 +316,10 @@ def predict_tts(text, model, reference_audio_path=None):
         return predict_spark_tts(text, reference_audio_path)
     elif model == "cosyvoice-2.0":
         return predict_cosyvoice_tts(text, reference_audio_path)
-    elif model == "step-audio-tts-3b":
-        return predict_step_audio_tts_3b(text, reference_audio_path)
     elif model == "maskgct":
         return predict_maskgct(text, reference_audio_path)
     if not model in model_mapping:
         raise ValueError(f"Model {model} not found")

     #     "provider": "elevenlabs",
     #     "model": "eleven_flash_v2_5",
     # },
     "spark-tts": {
         "provider": "spark",
         "model": "spark-tts",
     #     "provider": "hume",
     #     "model": "octave",
     # },
     # "minimax-02-hd": {
     #     "provider": "minimax",
     #     "model": "speech-02-hd",
         "provider": "bilibili",
         "model": "index-tts",
     },
     "maskgct": {
         "provider": "amphion",
         "model": "maskgct",
     },
+    "gpt-sovits-v2": {
+        "provider": "gpt-sovits",
+        "model": "gpt-sovits-v2",
+    },
 }
 url = "https://tts-agi-tts-router-v2.hf.space/tts"
 headers = {
     return result
 def predict_maskgct(text, reference_audio_path=None):
     from gradio_client import Client, handle_file
+    client = Client("amphion/maskgct")
     if not reference_audio_path:
         raise ValueError("maskgct 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
     return result
+def predict_gpt_sovits_v2(text, reference_audio_path=None):
+    from gradio_client import Client, file
+    client = Client("lj1995/GPT-SoVITS-v2")
+    if not reference_audio_path:
+        raise ValueError("GPT-SoVITS-v2 需要 reference_audio_path")
+    result = client.predict(
+        ref_wav_path=file(reference_audio_path),
+        prompt_text="",
+        prompt_language="English",
+        text=text,
+        text_language="English",
+        how_to_cut="Slice once every 4 sentences",
+        top_k=15,
+        top_p=1,
+        temperature=1,
+        ref_free=False,
+        speed=1,
+        if_freeze=False,
+        inp_refs=[],
+        api_name="/get_tts_wav"
+    )
+    print("gpt-sovits-v2 result:", result)
+    return result
 def predict_tts(text, model, reference_audio_path=None):
     global client
     print(f"Predicting TTS for {model}")
         return predict_spark_tts(text, reference_audio_path)
     elif model == "cosyvoice-2.0":
         return predict_cosyvoice_tts(text, reference_audio_path)
     elif model == "maskgct":
         return predict_maskgct(text, reference_audio_path)
+    elif model == "gpt-sovits-v2":
+        return predict_gpt_sovits_v2(text, reference_audio_path)
     if not model in model_mapping:
         raise ValueError(f"Model {model} not found")