add logging format

Files changed (5) hide show

config.py +10 -0
run_client.py +1 -0
transcribe/transcription.py +4 -2
transcribe/utils.py +7 -0
transcribe/whisper_llm_serve.py +22 -12

config.py CHANGED Viewed

@@ -1,5 +1,15 @@
 import pathlib
 BASE_DIR = pathlib.Path(__file__).parent
 MODEL_DIR = BASE_DIR / "moyoyo_asr_models"

 import pathlib
+import logging
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s - %(levelname)s - %(message)s",
+    datefmt="%H:%M:%S"
+)
+logging.getLogger("pywhispercpp").setLevel(logging.WARNING)
 BASE_DIR = pathlib.Path(__file__).parent
 MODEL_DIR = BASE_DIR / "moyoyo_asr_models"

run_client.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from transcribe.client import TranscriptionClient
 client = TranscriptionClient(


1	+
2	from transcribe.client import TranscriptionClient
3
4	client = TranscriptionClient(

transcribe/transcription.py CHANGED Viewed

@@ -14,6 +14,8 @@ from urllib.parse import urlparse, parse_qsl
 from websockets.exceptions import ConnectionClosed
 from websockets.sync.server import serve
 from uuid import uuid1
 logging.basicConfig(level=logging.INFO)
@@ -174,8 +176,8 @@ class TranscriptionServer:
         frame_data = websocket.recv()
         if frame_data == b"END_OF_AUDIO":
             return False
-        # return np.frombuffer(frame_data, dtype=np.int16).astype(np.float32) / 32768.0
-        return np.frombuffer(frame_data, dtype=np.float32)
     def handle_new_connection(self, websocket):

 from websockets.exceptions import ConnectionClosed
 from websockets.sync.server import serve
 from uuid import uuid1
 logging.basicConfig(level=logging.INFO)
         frame_data = websocket.recv()
         if frame_data == b"END_OF_AUDIO":
             return False
+        return np.frombuffer(frame_data, dtype=np.int16).astype(np.float32) / 32768.0
+        # return np.frombuffer(frame_data, dtype=np.float32)
     def handle_new_connection(self, websocket):

transcribe/utils.py CHANGED Viewed

@@ -1,8 +1,15 @@
 import os
 import textwrap
 from pathlib import Path
 import av
 def clear_screen():

 import os
 import textwrap
 from pathlib import Path
+import logging
 import av
+def log_block(key: str, value, unit=''):
+    """格式化输出日志内容"""
+    key_fmt = f"[{key.ljust(25)}]"  # 左对齐填充
+    val_fmt = f"{value} {unit}".strip()
+    logging.info(f"{key_fmt}: {val_fmt}")
 def clear_screen():

transcribe/whisper_llm_serve.py CHANGED Viewed

@@ -19,9 +19,9 @@ from pywhispercpp.model import Model
 from queue import Queue
 from scipy.io.wavfile import write
 from api_model import TransResult, Message
-logger = getLogger(__name__)
 def save_to_wave(filename, data:np.ndarray, sample_rate=16000):
     write(filename, sample_rate, data)
@@ -133,7 +133,6 @@ class PywhisperInference:
         # init llamacpp
         cls.llm_model = QwenTranslator(config.LLM_MODEL_PATH, config.LLM_SYS_PROMPT)
         # cls.vad_model = VoiceActivityDetector()
         event.set()
@@ -157,7 +156,7 @@ class PywhisperInference:
         raise ValueError(f"Unsupported language : {language}")
     @classmethod
-    def inference(cls, audio_buffer, language):
         max_len, prompt = cls.config_language(language)
         audio_buffer = np.frombuffer(audio_buffer, dtype=np.float32)
         return cls.whisper_model.transcribe(
@@ -197,7 +196,10 @@ class PyWhiperCppServe(ServeClientBase):
         # 进程初始化后再开始收音频
         self._ready_state = mp.Event()
         self._pool = PPool(
-            max_workers=1, initializer=PywhisperInference.initializer, initargs=(self._ready_state, ))
         self._pool.submit(PywhisperInference.init)
         logger.info('Create a process to process audio.')
         self.send_ready_state()
@@ -211,7 +213,6 @@ class PyWhiperCppServe(ServeClientBase):
     def send_ready_state(self):
         self._ready_state.wait()
         self.websocket.send(json.dumps({
             "uid": self.client_uid,
             "message": self.SERVER_READY,
@@ -256,8 +257,14 @@ class PyWhiperCppServe(ServeClientBase):
         Args:
             audio_buffer (np.array): The audio chunk to transcribe.
         """
         transcribe_fut = self._pool.submit(
-            PywhisperInference.inference, audio_buffer.tobytes(), self.language)
         segments = transcribe_fut.result()
         return segments
@@ -265,8 +272,12 @@ class PyWhiperCppServe(ServeClientBase):
         """
         translate the text to dst lang"""
         # return "sample english"
         translate_fut = self._pool.submit(
             PywhisperInference.translate, text, self.language, self.dst_lang)
         return  translate_fut.result()
     def _segments_split(self, segments, audio_buffer: np.ndarray):
@@ -330,11 +341,10 @@ class PyWhiperCppServe(ServeClientBase):
             # name = f"dev-{c}.wav"
             # save_to_wave(name, audio_buffer)
             try:
-                logger.info(f"Processing audio with duration: {len(audio_buffer) / self.sample_rate:.2f}s")
                 segments = self.transcribe_audio(audio_buffer)
                 for tran_result in self.handle_transcription_output(segments, audio_buffer):
                     self.send_to_client(tran_result)
             except KeyboardInterrupt:
                 break
             except Exception as e:
@@ -359,7 +369,7 @@ class PyWhiperCppServe(ServeClientBase):
         if is_end_sentence and last_cut_index:
             message = self._segment_manager.segment
             seg_id = self._segment_manager.get_seg_id() - 1
-            logger.info(f"{seg_id}, {message}")
             yield TransResult(
                 seg_id=seg_id,
                 context=message,
@@ -370,7 +380,7 @@ class PyWhiperCppServe(ServeClientBase):
             )
             if self._segment_manager.string.strip():
                 message = self._segment_manager.string.strip()
-                logger.info(f"{seg_id + 1}, {message}")
                 yield TransResult(
                     seg_id=seg_id+1,
                     context=self._segment_manager.string,
@@ -382,7 +392,7 @@ class PyWhiperCppServe(ServeClientBase):
         else:
             seg_id = self._segment_manager.get_seg_id()
             message = self._segment_manager.short_sentence + self._segment_manager.string
-            logger.info(f"{seg_id}, {message}")
             yield TransResult(
                 seg_id=seg_id,
                 context=message,

 from queue import Queue
 from scipy.io.wavfile import write
 from api_model import TransResult, Message
+from .utils import log_block
+logger = getLogger("TranslatorApp")
 def save_to_wave(filename, data:np.ndarray, sample_rate=16000):
     write(filename, sample_rate, data)
         # init llamacpp
         cls.llm_model = QwenTranslator(config.LLM_MODEL_PATH, config.LLM_SYS_PROMPT)
         # cls.vad_model = VoiceActivityDetector()
         event.set()
         raise ValueError(f"Unsupported language : {language}")
     @classmethod
+    def transcribe(cls, audio_buffer, language):
         max_len, prompt = cls.config_language(language)
         audio_buffer = np.frombuffer(audio_buffer, dtype=np.float32)
         return cls.whisper_model.transcribe(
         # 进程初始化后再开始收音频
         self._ready_state = mp.Event()
         self._pool = PPool(
+            max_workers=1,
+            initializer=PywhisperInference.initializer,
+            initargs=(self._ready_state,)
+        )
         self._pool.submit(PywhisperInference.init)
         logger.info('Create a process to process audio.')
         self.send_ready_state()
     def send_ready_state(self):
         self._ready_state.wait()
         self.websocket.send(json.dumps({
             "uid": self.client_uid,
             "message": self.SERVER_READY,
         Args:
             audio_buffer (np.array): The audio chunk to transcribe.
         """
+        log_block("Audio buffer length", f"{audio_buffer.shape[0]/self.sample_rate:.2f}", "s")
+        start_time = time.perf_counter()
         transcribe_fut = self._pool.submit(
+            PywhisperInference.transcribe, audio_buffer.tobytes(), self.language)
+        log_block("Whisper transcrible time", f"{(time.perf_counter() - start_time):.3f}", "s")
         segments = transcribe_fut.result()
         return segments
         """
         translate the text to dst lang"""
         # return "sample english"
+        log_block("LLM translate input", f"{text}")
+        start_time = time.perf_counter()
         translate_fut = self._pool.submit(
             PywhisperInference.translate, text, self.language, self.dst_lang)
+        log_block("LLM translate time", f"{(time.perf_counter() - start_time):.3f}", "s")
         return  translate_fut.result()
     def _segments_split(self, segments, audio_buffer: np.ndarray):
             # name = f"dev-{c}.wav"
             # save_to_wave(name, audio_buffer)
             try:
+                # logger.info(f"Audio buffer length: {len(audio_buffer) / self.sample_rate:.2f}s")
                 segments = self.transcribe_audio(audio_buffer)
                 for tran_result in self.handle_transcription_output(segments, audio_buffer):
                     self.send_to_client(tran_result)
             except KeyboardInterrupt:
                 break
             except Exception as e:
         if is_end_sentence and last_cut_index:
             message = self._segment_manager.segment
             seg_id = self._segment_manager.get_seg_id() - 1
+            # logger.info(f"{seg_id}, {message}")
             yield TransResult(
                 seg_id=seg_id,
                 context=message,
             )
             if self._segment_manager.string.strip():
                 message = self._segment_manager.string.strip()
+                # logger.info(f"{seg_id + 1}, {message}")
                 yield TransResult(
                     seg_id=seg_id+1,
                     context=self._segment_manager.string,
         else:
             seg_id = self._segment_manager.get_seg_id()
             message = self._segment_manager.short_sentence + self._segment_manager.string
+            # logger.info(f"{seg_id}, {message}")
             yield TransResult(
                 seg_id=seg_id,
                 context=message,