Spaces:

HumeAI
/

expressive-tts-arena

Running

App Files Files Community

zach commited on Jan 28

Commit

681c05f

1 Parent(s): 136ff40

Update ElevenLabs integration to randmonly pick a voice from a predefined list of top voices

Browse files

Files changed (1) hide show

src/integrations/elevenlabs_api.py +19 -4

src/integrations/elevenlabs_api.py CHANGED Viewed

@@ -21,6 +21,7 @@ Functions:
 # Standard Library Imports
 from dataclasses import dataclass
 import logging
 from typing import Optional
 # Third-Party Library Imports
 from elevenlabs import ElevenLabs
@@ -34,7 +35,8 @@ from src.utils import validate_env_var, truncate_text
 class ElevenLabsConfig:
     """Immutable configuration for interacting with the ElevenLabs TTS API."""
     api_key: str = validate_env_var("ELEVENLABS_API_KEY")
-    voice_id: str = "pNInz6obpgDQGcFmaJgB" # Adam (popular ElevenLabs pre-made voice)
     model_id: str = "eleven_multilingual_v2" # ElevenLab's most emotionally expressive model
     output_format: str = "mp3_44100_128" # Output format of the generated audio.
@@ -42,12 +44,25 @@ class ElevenLabsConfig:
         # Validate that required attributes are set
         if not self.api_key:
             raise ValueError("ElevenLabs API key is not set.")
-        if not self.voice_id:
-            raise ValueError("ElevenLabs Voice ID is not set.")
         if not self.model_id:
             raise ValueError("ElevenLabs Model ID is not set.")
         if not self.output_format:
             raise ValueError("ElevenLabs Output Format is not set.")
     @property
     def client(self) -> ElevenLabs:
@@ -96,7 +111,7 @@ def text_to_speech_with_elevenlabs(text: str) -> bytes:
         # Generate audio using the ElevenLabs SDK
         audio_iterator = elevenlabs_config.client.text_to_speech.convert(
             text=text,
-            voice_id=elevenlabs_config.voice_id,
             model_id=elevenlabs_config.model_id,
             output_format=elevenlabs_config.output_format,
         )

 # Standard Library Imports
 from dataclasses import dataclass
 import logging
+import random
 from typing import Optional
 # Third-Party Library Imports
 from elevenlabs import ElevenLabs
 class ElevenLabsConfig:
     """Immutable configuration for interacting with the ElevenLabs TTS API."""
     api_key: str = validate_env_var("ELEVENLABS_API_KEY")
+    # voice_id: str = "pNInz6obpgDQGcFmaJgB" # Adam (popular ElevenLabs pre-made voice)
+    top_voices: list[str] = None  # Predefined top default voices
     model_id: str = "eleven_multilingual_v2" # ElevenLab's most emotionally expressive model
     output_format: str = "mp3_44100_128" # Output format of the generated audio.
         # Validate that required attributes are set
         if not self.api_key:
             raise ValueError("ElevenLabs API key is not set.")
         if not self.model_id:
             raise ValueError("ElevenLabs Model ID is not set.")
         if not self.output_format:
             raise ValueError("ElevenLabs Output Format is not set.")
+        if not self.top_voices:
+            # Predefined top default voice IDs
+            object.__setattr__(self, "top_voices", [
+                "pNInz6obpgDQGcFmaJgB",  # Adam
+                "ErXwobaYiN019PkySvjV",  # Antoni
+                "21m00Tcm4TlvDq8ikWAM",  # Rachel
+                "txTPZhQpfI89VbqtG6v7",  # Matilda
+            ])
+    @property
+    def random_voice_id(self) -> str:
+        """
+        Randomly selects a voice ID from the top default voices, ensuring different voices across calls.
+        """
+        return random.choice(self.top_voices)
     @property
     def client(self) -> ElevenLabs:
         # Generate audio using the ElevenLabs SDK
         audio_iterator = elevenlabs_config.client.text_to_speech.convert(
             text=text,
+            voice_id=elevenlabs_config.random_voice_id,  # Randomly chosen voice ID
             model_id=elevenlabs_config.model_id,
             output_format=elevenlabs_config.output_format,
         )