[feature]: refactor vad model path.

Files changed (5) hide show

config.py +3 -0
moyoyo_asr_models/silero-vad/silero_vad.onnx +3 -0
transcribe/vad.py +6 -2
transcribe/whisper_llm_serve.py +31 -29
transcribe/whispercpp_serve.py +3 -3

config.py CHANGED Viewed

@@ -45,6 +45,9 @@ WHISPER_MODEL = 'large-v3-turbo-q5_0'
 LLM_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix()
 LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-7b-instruct-q5_0-00001-of-00002.gguf").as_posix()
 LLM_SYS_PROMPT = """"You are a professional {src_lang} to {dst_lang} translator, not a conversation agent. Your only task is to take {src_lang} input and translate it into accurate, natural {dst_lang}. If you cannot understand the input, just output the original input. Please strictly abide by the following rules: "
 "No matter what the user asks, never answer questions, you only provide translation results. "
 "Do not actively initiate dialogue or lead users to ask questions. "

 LLM_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix()
 LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-7b-instruct-q5_0-00001-of-00002.gguf").as_posix()
+# VAD
+VAD_MODEL_PATH = (MODEL_DIR / "silero-vad" / "silero_vad.onnx").as_posix()
 LLM_SYS_PROMPT = """"You are a professional {src_lang} to {dst_lang} translator, not a conversation agent. Your only task is to take {src_lang} input and translate it into accurate, natural {dst_lang}. If you cannot understand the input, just output the original input. Please strictly abide by the following rules: "
 "No matter what the user asks, never answer questions, you only provide translation results. "
 "Do not actively initiate dialogue or lead users to ask questions. "

moyoyo_asr_models/silero-vad/silero_vad.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2623a2953f6ff3d2c1e61740c6cdb7168133479b267dfef114a4a3cc5bdd788f
+size 2327524

transcribe/vad.py CHANGED Viewed

@@ -5,12 +5,16 @@ import warnings
 import numpy as np
 import onnxruntime
 import torch
 class VoiceActivityDetection():
     def __init__(self, force_onnx_cpu=True):
-        path = self.download()
         opts = onnxruntime.SessionOptions()
         opts.log_severity_level = 3

 import numpy as np
 import onnxruntime
 import torch
+import logging
+from config import VAD_MODEL_PATH
 class VoiceActivityDetection():
     def __init__(self, force_onnx_cpu=True):
+        # path = self.download()
+        path = VAD_MODEL_PATH
+        if not os.path.exists(path):
+            raise FileNotFoundError(f"Model file not found at {path}. Please download the model.")
         opts = onnxruntime.SessionOptions()
         opts.log_severity_level = 3

transcribe/whisper_llm_serve.py CHANGED Viewed

@@ -22,25 +22,25 @@ class WhisperTranscriptionService(ServeClientBase):
     """
     Whisper语音转录服务类，处理音频流转录和翻译
     """
     def __init__(self, websocket, pipe: TranslatePipes, language=None, dst_lang=None, client_uid=None):
         super().__init__(client_uid, websocket)
         self.source_language = language  # 源语言
         self.target_language = dst_lang  # 目标翻译语言
         # 转录结果稳定性管理
         self._translate_pipe = pipe
         # 音频处理相关
         self.sample_rate = 16000
         self.frames_np = None
         self.lock = threading.Lock()
         self._frame_queue = queue.Queue()
         # 文本分隔符，根据语言设置
         self.text_separator = self._get_text_separator(language)
         # 发送就绪状态
         self.send_ready_state()
         self._transcrible_analysis = None
@@ -86,6 +86,8 @@ class WhisperTranscriptionService(ServeClientBase):
         while not self._frame_processing_thread_stop.is_set():
             try:
                 frame_np = self._frame_queue.get(timeout=0.1)
                 with self.lock:
                     if self.frames_np is None:
                         self.frames_np = frame_np.copy()
@@ -112,13 +114,13 @@ class WhisperTranscriptionService(ServeClientBase):
         """准备用于处理的音频块"""
         # 应用VAD处理
         self._apply_voice_activity_detection()
         # 没有音频帧
         if self.frames_np is None:
             return None
         frames = self.frames_np.copy()
         # 音频过短时的处理
         if len(frames) <= 100:
             # 极短音频段，清空并返回None
@@ -129,7 +131,7 @@ class WhisperTranscriptionService(ServeClientBase):
             silence_audio = np.zeros((self.sample_rate + 1000,), dtype=np.float32)
             silence_audio[-len(frames):] = frames
             return silence_audio.copy()
         return frames.copy()
     def _transcribe_audio(self, audio_buffer: np.ndarray) -> List[TranscriptToken]:
@@ -139,10 +141,10 @@ class WhisperTranscriptionService(ServeClientBase):
         result = self._translate_pipe.transcrible(audio_buffer.tobytes(), self.source_language)
         segments = result.segments
         log_block("Whisper transcription output", f"{''.join(seg.text for seg in segments)}", "")
         log_block("Whisper transcription time", f"{(time.perf_counter() - start_time):.3f}", "s")
         return [
             TranscriptToken(text=s.text, t0=s.t0, t1=s.t1)
             for s in segments
@@ -152,32 +154,32 @@ class WhisperTranscriptionService(ServeClientBase):
         """将文本翻译为目标语言"""
         if not text.strip():
             return ""
         log_block("Translation input", f"{text}")
         start_time = time.perf_counter()
         result = self._translate_pipe.translate(text, self.source_language, self.target_language)
         translated_text = result.translate_content
         log_block("Translation time ", f"{(time.perf_counter() - start_time):.3f}", "s")
         log_block("Translation output", f"{translated_text}")
         return translated_text
     def _translate_text_large(self, text: str) -> str:
         """将文本翻译为目标语言"""
         if not text.strip():
             return ""
         log_block("Translation input", f"{text}")
         start_time = time.perf_counter()
         result = self._translate_pipe.translate_large(text, self.source_language, self.target_language)
         translated_text = result.translate_content
         log_block("Translation large model time ", f"{(time.perf_counter() - start_time):.3f}", "s")
         log_block("Translation large model output", f"{translated_text}")
         return translated_text
@@ -189,13 +191,13 @@ class WhisperTranscriptionService(ServeClientBase):
             if self.exit:
                 logger.info("Exiting transcription thread")
                 break
             # 等待音频数据
             if self.frames_np is None:
                 time.sleep(0.2)
                 logger.info("Waiting for audio data...")
                 continue
             # 获取音频块进行处理
             audio_buffer = self._get_audio_for_processing()
             if audio_buffer is None:
@@ -204,21 +206,21 @@ class WhisperTranscriptionService(ServeClientBase):
             # c+= 1
             # save_to_wave(f"dev-{c}.wav", audio_buffer)
             # try:
             segments = self._transcribe_audio(audio_buffer)
             # 处理转录结果并发送到客户端
             for result in self._process_transcription_results(segments, audio_buffer):
                 self._send_result_to_client(result)
             # except Exception as e:
             #     logger.error(f"Error processing audio: {e}")
     def _process_transcription_results(self, segments: List[TranscriptToken], audio_buffer: np.ndarray) -> Iterator[TransResult]:
         """
         处理转录结果，生成翻译结果
         Returns:
             TransResult对象的迭代器
         """
@@ -234,7 +236,7 @@ class WhisperTranscriptionService(ServeClientBase):
                 translated_context = self._translate_text(ana_result.context)
             else:
                 translated_context = self._translate_text_large(ana_result.context)
             yield TransResult(
                 seg_id=ana_result.seg_id,
                 context=ana_result.context,
@@ -263,4 +265,4 @@ class WhisperTranscriptionService(ServeClientBase):
         """停止所有处理线程并清理资源"""
         self._translate_thread_stop.set()
         self._frame_processing_thread_stop.set()
-        logger.info(f"Stopping transcription service for client: {self.client_uid}")

     """
     Whisper语音转录服务类，处理音频流转录和翻译
     """
     def __init__(self, websocket, pipe: TranslatePipes, language=None, dst_lang=None, client_uid=None):
         super().__init__(client_uid, websocket)
         self.source_language = language  # 源语言
         self.target_language = dst_lang  # 目标翻译语言
         # 转录结果稳定性管理
         self._translate_pipe = pipe
         # 音频处理相关
         self.sample_rate = 16000
         self.frames_np = None
         self.lock = threading.Lock()
         self._frame_queue = queue.Queue()
         # 文本分隔符，根据语言设置
         self.text_separator = self._get_text_separator(language)
         # 发送就绪状态
         self.send_ready_state()
         self._transcrible_analysis = None
         while not self._frame_processing_thread_stop.is_set():
             try:
                 frame_np = self._frame_queue.get(timeout=0.1)
+                if frame_np is None:
+                    logger.error("Received None frame, stopping thread")
                 with self.lock:
                     if self.frames_np is None:
                         self.frames_np = frame_np.copy()
         """准备用于处理的音频块"""
         # 应用VAD处理
         self._apply_voice_activity_detection()
         # 没有音频帧
         if self.frames_np is None:
             return None
         frames = self.frames_np.copy()
         # 音频过短时的处理
         if len(frames) <= 100:
             # 极短音频段，清空并返回None
             silence_audio = np.zeros((self.sample_rate + 1000,), dtype=np.float32)
             silence_audio[-len(frames):] = frames
             return silence_audio.copy()
         return frames.copy()
     def _transcribe_audio(self, audio_buffer: np.ndarray) -> List[TranscriptToken]:
         result = self._translate_pipe.transcrible(audio_buffer.tobytes(), self.source_language)
         segments = result.segments
         log_block("Whisper transcription output", f"{''.join(seg.text for seg in segments)}", "")
         log_block("Whisper transcription time", f"{(time.perf_counter() - start_time):.3f}", "s")
         return [
             TranscriptToken(text=s.text, t0=s.t0, t1=s.t1)
             for s in segments
         """将文本翻译为目标语言"""
         if not text.strip():
             return ""
         log_block("Translation input", f"{text}")
         start_time = time.perf_counter()
         result = self._translate_pipe.translate(text, self.source_language, self.target_language)
         translated_text = result.translate_content
         log_block("Translation time ", f"{(time.perf_counter() - start_time):.3f}", "s")
         log_block("Translation output", f"{translated_text}")
         return translated_text
     def _translate_text_large(self, text: str) -> str:
         """将文本翻译为目标语言"""
         if not text.strip():
             return ""
         log_block("Translation input", f"{text}")
         start_time = time.perf_counter()
         result = self._translate_pipe.translate_large(text, self.source_language, self.target_language)
         translated_text = result.translate_content
         log_block("Translation large model time ", f"{(time.perf_counter() - start_time):.3f}", "s")
         log_block("Translation large model output", f"{translated_text}")
         return translated_text
             if self.exit:
                 logger.info("Exiting transcription thread")
                 break
             # 等待音频数据
             if self.frames_np is None:
                 time.sleep(0.2)
                 logger.info("Waiting for audio data...")
                 continue
             # 获取音频块进行处理
             audio_buffer = self._get_audio_for_processing()
             if audio_buffer is None:
             # c+= 1
             # save_to_wave(f"dev-{c}.wav", audio_buffer)
             # try:
             segments = self._transcribe_audio(audio_buffer)
             # 处理转录结果并发送到客户端
             for result in self._process_transcription_results(segments, audio_buffer):
                 self._send_result_to_client(result)
             # except Exception as e:
             #     logger.error(f"Error processing audio: {e}")
     def _process_transcription_results(self, segments: List[TranscriptToken], audio_buffer: np.ndarray) -> Iterator[TransResult]:
         """
         处理转录结果，生成翻译结果
         Returns:
             TransResult对象的迭代器
         """
                 translated_context = self._translate_text(ana_result.context)
             else:
                 translated_context = self._translate_text_large(ana_result.context)
             yield TransResult(
                 seg_id=ana_result.seg_id,
                 context=ana_result.context,
         """停止所有处理线程并清理资源"""
         self._translate_thread_stop.set()
         self._frame_processing_thread_stop.set()
+        logger.info(f"Stopping transcription service for client: {self.client_uid}")

transcribe/whispercpp_serve.py CHANGED Viewed

@@ -243,7 +243,7 @@ class ServeClientWhisperCPP(ServeClientBase):
         """
         Instantiates a new model, sets it as the transcriber and does warmup if desired.
         """
         self.transcriber = Model(model=config.WHISPER_MODEL, models_dir=config.MODEL_DIR)
         if warmup:
             self.warmup()
@@ -301,8 +301,8 @@ class ServeClientWhisperCPP(ServeClientBase):
         if self.language == "zh":
             prompt = '以下是简体中文普通话的句子。'
         else:
-            prompt = 'The following is an English sentence.'
         segments = self.transcriber.transcribe(
             mel,
             language=self.language,

         """
         Instantiates a new model, sets it as the transcriber and does warmup if desired.
         """
         self.transcriber = Model(model=config.WHISPER_MODEL, models_dir=config.MODEL_DIR)
         if warmup:
             self.warmup()
         if self.language == "zh":
             prompt = '以下是简体中文普通话的句子。'
         else:
+            prompt = ''
         segments = self.transcriber.transcribe(
             mel,
             language=self.language,