Spaces:

kemuriririn
/

Voice-Clone-Arena

Running

App Files Files Community

kemuriririn commited on 3 days ago

Commit

7fcb739

1 Parent(s): f55b556

(wip)debug

Browse files

Files changed (2) hide show

app.py +2 -1
tts.py +25 -25

app.py CHANGED Viewed

@@ -541,6 +541,7 @@ def initialize_tts_cache():
 @limiter.limit("10 per minute") # Keep limit, cached responses are still requests
 def generate_tts():
     # If verification not setup, handle it first
     if app.config["TURNSTILE_ENABLED"] and not session.get("turnstile_verified"):
         return jsonify({"error": "Turnstile verification required"}), 403
@@ -631,7 +632,7 @@ def generate_tts():
         # Function to process a single model (generate directly to TEMP_AUDIO_DIR, not cache subdir)
         def process_model_on_the_fly(model):
              # 传递 reference_audio_path 给 predict_tts
-             temp_audio_path = predict_tts(text, model.id, reference_audio_path=reference_audio_path)
              if not temp_audio_path or not os.path.exists(temp_audio_path):
                  raise ValueError(f"predict_tts failed for model {model.id}")

 @limiter.limit("10 per minute") # Keep limit, cached responses are still requests
 def generate_tts():
     # If verification not setup, handle it first
+    user_token = request.headers['x-ip-token']
     if app.config["TURNSTILE_ENABLED"] and not session.get("turnstile_verified"):
         return jsonify({"error": "Turnstile verification required"}), 403
         # Function to process a single model (generate directly to TEMP_AUDIO_DIR, not cache subdir)
         def process_model_on_the_fly(model):
              # 传递 reference_audio_path 给 predict_tts
+             temp_audio_path = predict_tts(text, model.id, reference_audio_path=reference_audio_path,user_token=user_token)
              if not temp_audio_path or not os.path.exists(temp_audio_path):
                  raise ValueError(f"predict_tts failed for model {model.id}")

tts.py CHANGED Viewed

@@ -1,9 +1,7 @@
 import os
 from dotenv import load_dotenv
 import random
-from fal_client import stream
-from gradio_client.exceptions import AppError
 load_dotenv()
@@ -44,10 +42,17 @@ headers = {
 }
 data = {"text": "string", "provider": "string", "model": "string"}
-def predict_index_tts(text, reference_audio_path=None):
-    from gradio_client import Client, handle_file
-    client = Client("kemuriririn/IndexTTS",verbose=True)
     if reference_audio_path:
         prompt = handle_file(reference_audio_path)
     else:
@@ -63,9 +68,8 @@ def predict_index_tts(text, reference_audio_path=None):
     return result
-def predict_spark_tts(text, reference_audio_path=None):
-    from gradio_client import Client, handle_file
-    client = Client("kemuriririn/SparkTTS")
     prompt_wav = None
     if reference_audio_path:
         prompt_wav = handle_file(reference_audio_path)
@@ -80,9 +84,8 @@ def predict_spark_tts(text, reference_audio_path=None):
     return result
-def predict_cosyvoice_tts(text, reference_audio_path=None):
-    from gradio_client import Client, file, handle_file
-    client = Client("kemuriririn/CosyVoice2-0.5B")
     if not reference_audio_path:
         raise ValueError("cosyvoice-2.0 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
@@ -106,9 +109,8 @@ def predict_cosyvoice_tts(text, reference_audio_path=None):
     return result
-def predict_maskgct(text, reference_audio_path=None):
-    from gradio_client import Client, handle_file
-    client = Client("amphion/maskgct")
     if not reference_audio_path:
         raise ValueError("maskgct 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
@@ -123,9 +125,8 @@ def predict_maskgct(text, reference_audio_path=None):
     return result
-def predict_gpt_sovits_v2(text, reference_audio_path=None):
-    from gradio_client import Client, file
-    client = Client("kemuriririn/GPT-SoVITS-v2")
     if not reference_audio_path:
         raise ValueError("GPT-SoVITS-v2 需要 reference_audio_path")
     result = client.predict(
@@ -148,20 +149,19 @@ def predict_gpt_sovits_v2(text, reference_audio_path=None):
     return result
-def predict_tts(text, model, reference_audio_path=None):
-    global client
     print(f"Predicting TTS for {model}")
     # Exceptions: special models that shouldn't be passed to the router
     if model == "index-tts":
-        result = predict_index_tts(text, reference_audio_path)
     elif model == "spark-tts":
-        result = predict_spark_tts(text, reference_audio_path)
     elif model == "cosyvoice-2.0":
-        result = predict_cosyvoice_tts(text, reference_audio_path)
     elif model == "maskgct":
-        result = predict_maskgct(text, reference_audio_path)
     elif model == "gpt-sovits-v2":
-        result = predict_gpt_sovits_v2(text, reference_audio_path)
     else:
         raise ValueError(f"Model {model} not found")
     return result

 import os
 from dotenv import load_dotenv
 import random
+from gradio_client import Client, handle_file,file
 load_dotenv()
 }
 data = {"text": "string", "provider": "string", "model": "string"}
+def set_client_for_session(space:str, user_token=None):
+    if user_token is None:
+        x_ip_token = get_zerogpu_token()
+    else:
+        x_ip_token = user_token
+    # The "gradio/text-to-image" space is a ZeroGPU space
+    return Client(space, headers={"X-IP-Token": x_ip_token})
+def predict_index_tts(text, user_token=None, reference_audio_path=None):
+    client = set_client_for_session("kemuriririn/IndexTTS",user_token=user_token)
     if reference_audio_path:
         prompt = handle_file(reference_audio_path)
     else:
     return result
+def predict_spark_tts(text, user_token=None,reference_audio_path=None):
+    client = set_client_for_session("kemuriririn/SparkTTS",user_token=user_token)
     prompt_wav = None
     if reference_audio_path:
         prompt_wav = handle_file(reference_audio_path)
     return result
+def predict_cosyvoice_tts(text, user_token=None, reference_audio_path=None):
+    client = set_client_for_session("kemuriririn/CosyVoice2-0.5B",user_token=user_token)
     if not reference_audio_path:
         raise ValueError("cosyvoice-2.0 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
     return result
+def predict_maskgct(text, user_token=None, reference_audio_path=None):
+    client = set_client_for_session("amphion/maskgct",user_token=user_token)
     if not reference_audio_path:
         raise ValueError("maskgct 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
     return result
+def predict_gpt_sovits_v2(text, user_token=None,reference_audio_path=None):
+    client = set_client_for_session("kemuriririn/GPT-SoVITS-v2",user_token=user_token)
     if not reference_audio_path:
         raise ValueError("GPT-SoVITS-v2 需要 reference_audio_path")
     result = client.predict(
     return result
+def predict_tts(text, model, user_token=None, reference_audio_path=None):
     print(f"Predicting TTS for {model}")
     # Exceptions: special models that shouldn't be passed to the router
     if model == "index-tts":
+        result = predict_index_tts(text, user_token,reference_audio_path)
     elif model == "spark-tts":
+        result = predict_spark_tts(text, user_token,reference_audio_path)
     elif model == "cosyvoice-2.0":
+        result = predict_cosyvoice_tts(text, user_token,reference_audio_path)
     elif model == "maskgct":
+        result = predict_maskgct(text, user_token,reference_audio_path)
     elif model == "gpt-sovits-v2":
+        result = predict_gpt_sovits_v2(text, user_token, reference_audio_path)
     else:
         raise ValueError(f"Model {model} not found")
     return result