from TTS.api import TTS
import torch
import os
import spaces
os.environ["COQUI_TOS_AGREED"] = "1"

# Initialize TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# Generate and save speaker embedding
@spaces.GPU
def save_speaker_embedding(speaker_wav, output_path):
    embedding = tts.speaker_manager.compute_embedding_from_clip(speaker_wav)
    torch.save(embedding, output_path)
    return output_path

# Example usage
speaker_wav = "KristenScottGradeAClip.wav"
output_embedding_path = "xttsv2_kristenscott_embedding.pth"
save_speaker_embedding(speaker_wav, output_embedding_path)
print(f"Speaker embedding saved at {output_embedding_path}")