CosyVoice2-0.5B

Running on Zero

App Files Files Community

kemuriririn commited on Jun 5

Commit

258fb54

1 Parent(s): b8368df

(wip)debug

Browse files

Files changed (3) hide show

app.py +11 -1
cosyvoice/cli/cosyvoice.py +0 -18
cosyvoice/cli/frontend.py +0 -5

app.py CHANGED Viewed

@@ -86,6 +86,16 @@ def get_cosyvoice():
                            load_trt=load_trt)
             return cosyvoice_instance
 @spaces.GPU
 def get_asr():
     global asr_model
@@ -194,7 +204,7 @@ def generate_audio(tts_text, mode_checkbox_group, prompt_text, prompt_wav_upload
         logging.info('get zero_shot inference request')
         prompt_speech_16k = postprocess(load_wav(prompt_wav, prompt_sr))
         set_all_random_seed(seed)
-        for i in get_cosyvoice().inference_zero_shot(tts_text, prompt_text, prompt_speech_16k, stream=stream, speed=speed):
             yield (target_sr, i['tts_speech'].numpy().flatten())
     elif mode_checkbox_group == 'Cross-lingual Clone':
         logging.info('get cross_lingual inference request')

                            load_trt=load_trt)
             return cosyvoice_instance
+@spaces.GPU
+def infer_zeroshot(tts_text, prompt_text, prompt_speech_16k, stream, speed):
+    cosyvoice = get_cosyvoice()
+    if cosyvoice.frontend.instruct is True:
+        logging.warning('CosyVoice2-0.5B does not support zero-shot inference, please use CosyVoice-300M or CosyVoice-300M-Instruct.')
+        return
+    for i in cosyvoice.inference_zero_shot(tts_text, prompt_text, prompt_speech_16k, stream=stream, speed=speed):
+        yield i
 @spaces.GPU
 def get_asr():
     global asr_model
         logging.info('get zero_shot inference request')
         prompt_speech_16k = postprocess(load_wav(prompt_wav, prompt_sr))
         set_all_random_seed(seed)
+        for i in infer_zeroshot(tts_text, prompt_text, prompt_speech_16k, stream=stream, speed=speed):
             yield (target_sr, i['tts_speech'].numpy().flatten())
     elif mode_checkbox_group == 'Cross-lingual Clone':
         logging.info('get cross_lingual inference request')

cosyvoice/cli/cosyvoice.py CHANGED Viewed

@@ -23,7 +23,6 @@ from cosyvoice.utils.file_utils import logging
 import spaces
 class CosyVoice:
-    @spaces.GPU
     def __init__(self, model_dir, load_jit=True, load_onnx=False, fp16=True):
         instruct = True if '-Instruct' in model_dir else False
         self.instruct = instruct
@@ -56,18 +55,11 @@ class CosyVoice:
         if load_onnx:
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
-    @spaces.GPU
     def list_avaliable_spks(self):
         spks = list(self.frontend.spk2info.keys())
         return spks
-    @spaces.GPU
-    def reload_frontend(self):
-        self.frontend.reload_onnx()
-    @spaces.GPU
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
-        self.reload_frontend()
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_sft(i, spk_id)
             start_time = time.time()
@@ -78,9 +70,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
-    @spaces.GPU
     def inference_zero_shot(self, tts_text, prompt_text, prompt_speech_16k, stream=False, speed=1.0):
-        self.reload_frontend()
         prompt_text = self.frontend.text_normalize(prompt_text, split=False)
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             if len(i) < 0.5 * len(prompt_text):
@@ -94,7 +84,6 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
-    @spaces.GPU
     def inference_cross_lingual(self, tts_text, prompt_speech_16k, stream=False, speed=1.0):
         self.reload_frontend()
         if self.frontend.instruct is True:
@@ -109,9 +98,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
-    @spaces.GPU
     def inference_instruct(self, tts_text, spk_id, instruct_text, stream=False, speed=1.0):
-        self.reload_frontend()
         assert isinstance(self.model, CosyVoiceModel), 'inference_instruct is only implemented for CosyVoice!'
         if self.frontend.instruct is False:
             raise ValueError('{} do not support instruct inference'.format(self.model_dir))
@@ -126,9 +113,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
-    @spaces.GPU
     def inference_instruct2(self, tts_text, instruct_text, prompt_speech_16k, stream=False, speed=1.0):
-        self.reload_frontend()
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_instruct2(i, instruct_text, prompt_speech_16k, self.sample_rate)
             start_time = time.time()
@@ -139,9 +124,7 @@ class CosyVoice:
                 yield model_output
                 start_time = time.time()
-    @spaces.GPU
     def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0):
-        self.reload_frontend()
         model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate)
         start_time = time.time()
         for model_output in self.model.vc(**model_input, stream=stream, speed=speed):
@@ -151,7 +134,6 @@ class CosyVoice:
             start_time = time.time()
 class CosyVoice2(CosyVoice):
-    @spaces.GPU
     def __init__(self, model_dir, load_jit=False, load_onnx=False, load_trt=False):
         instruct = True if '-Instruct' in model_dir else False
         self.instruct = instruct

 import spaces
 class CosyVoice:
     def __init__(self, model_dir, load_jit=True, load_onnx=False, fp16=True):
         instruct = True if '-Instruct' in model_dir else False
         self.instruct = instruct
         if load_onnx:
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
     def list_avaliable_spks(self):
         spks = list(self.frontend.spk2info.keys())
         return spks
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_sft(i, spk_id)
             start_time = time.time()
                 yield model_output
                 start_time = time.time()
     def inference_zero_shot(self, tts_text, prompt_text, prompt_speech_16k, stream=False, speed=1.0):
         prompt_text = self.frontend.text_normalize(prompt_text, split=False)
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             if len(i) < 0.5 * len(prompt_text):
                 yield model_output
                 start_time = time.time()
     def inference_cross_lingual(self, tts_text, prompt_speech_16k, stream=False, speed=1.0):
         self.reload_frontend()
         if self.frontend.instruct is True:
                 yield model_output
                 start_time = time.time()
     def inference_instruct(self, tts_text, spk_id, instruct_text, stream=False, speed=1.0):
         assert isinstance(self.model, CosyVoiceModel), 'inference_instruct is only implemented for CosyVoice!'
         if self.frontend.instruct is False:
             raise ValueError('{} do not support instruct inference'.format(self.model_dir))
                 yield model_output
                 start_time = time.time()
     def inference_instruct2(self, tts_text, instruct_text, prompt_speech_16k, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_instruct2(i, instruct_text, prompt_speech_16k, self.sample_rate)
             start_time = time.time()
                 yield model_output
                 start_time = time.time()
     def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0):
         model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate)
         start_time = time.time()
         for model_output in self.model.vc(**model_input, stream=stream, speed=speed):
             start_time = time.time()
 class CosyVoice2(CosyVoice):
     def __init__(self, model_dir, load_jit=False, load_onnx=False, load_trt=False):
         instruct = True if '-Instruct' in model_dir else False
         self.instruct = instruct

cosyvoice/cli/frontend.py CHANGED Viewed

@@ -80,11 +80,6 @@ class CosyVoiceFrontEnd:
             self.zh_tn_model = ZhNormalizer(remove_erhua=False, full_to_half=False)
             self.en_tn_model = EnNormalizer()
-    def reload_onnx(self):
-        self.campplus_session = onnxruntime.InferenceSession(self.campplus_model, sess_options=self.option, providers=["CPUExecutionProvider"])
-        self.speech_tokenizer_session = onnxruntime.InferenceSession(self.speech_tokenizer_model, sess_options=self.option,
-                                                                     providers=["CPUExecutionProvider"])
     def _extract_text_token(self, text):
         text_token = self.tokenizer.encode(text, allowed_special=self.allowed_special)
         text_token = torch.tensor([text_token], dtype=torch.int32).to(self.device)

             self.zh_tn_model = ZhNormalizer(remove_erhua=False, full_to_half=False)
             self.en_tn_model = EnNormalizer()
     def _extract_text_token(self, text):
         text_token = self.tokenizer.encode(text, allowed_special=self.allowed_special)
         text_token = torch.tensor([text_token], dtype=torch.int32).to(self.device)