MoYoYoTech
/

Translator

ONNX

GGUF

conversational

Model card Files Files and versions

xet

Community

Xin Zhang commited on Apr 23

Commit

ea1c85a

1 Parent(s): 0672a0f

[fix]: update parameter.

Browse files

Files changed (1) hide show

transcribe/pipelines/pipe_vad.py +8 -8

transcribe/pipelines/pipe_vad.py CHANGED Viewed

@@ -20,7 +20,7 @@ class VadPipe(BasePipe):
         self._status = 'END'
         self.last_state_change_offset = 0
         self.adaptive_ctrl = AdaptiveSilenceController()
     def reset(self):
         self._offset = 0
@@ -38,7 +38,7 @@ class VadPipe(BasePipe):
                 # speech_pad_ms=10
                 min_silence_duration_ms = 150,
                 # speech_pad_ms = 30,
-                max_speech_duration_s=5.0,
                 )
             cls.vac.reset_states()
@@ -57,23 +57,23 @@ class VadPipe(BasePipe):
             if end_frame:
                 relative_end_frame = max(0, end_frame - self._offset)
             return relative_start_frame, relative_end_frame
     def update_silence_ms(self):
         min_silence = self.adaptive_ctrl.get_adaptive_silence_ms()
-        logging.debug(f"🫠 update_silence_ms :{min_silence} ")
         self.vac.min_silence_duration_ms = min_silence
     def process(self, in_data: MetaItem) -> MetaItem:
         if self._offset == 0:
             self.vac.reset_states()
         # silence_audio_100ms = np.zeros(int(0.1*self.sample_rate))
         source_audio = np.frombuffer(in_data.source_audio, dtype=np.float32)
         speech_data  = self._process_speech_chunk(source_audio)
         if speech_data: # 表示有音频的变化点出现
             self.update_silence_ms()
-            rel_start_frame, rel_end_frame = speech_data
             if rel_start_frame is not None and rel_end_frame is None:
                 self._status = "START" # 语音开始
                 target_audio = source_audio[rel_start_frame:]
@@ -82,7 +82,7 @@ class VadPipe(BasePipe):
                 silence_len = (self._offset + rel_start_frame - self.last_state_change_offset) / self.sample_rate * 1000
                 self.adaptive_ctrl.update_silence(silence_len)
                 self.last_state_change_offset = self._offset + rel_start_frame
                 logging.debug("🫸 Speech start frame: {}".format(rel_start_frame))
             elif rel_start_frame is None and rel_end_frame is not None:
                 self._status = "END" # 音频结束

         self._status = 'END'
         self.last_state_change_offset = 0
         self.adaptive_ctrl = AdaptiveSilenceController()
     def reset(self):
         self._offset = 0
                 # speech_pad_ms=10
                 min_silence_duration_ms = 150,
                 # speech_pad_ms = 30,
+                max_speech_duration_s=20.0,
                 )
             cls.vac.reset_states()
             if end_frame:
                 relative_end_frame = max(0, end_frame - self._offset)
             return relative_start_frame, relative_end_frame
     def update_silence_ms(self):
         min_silence = self.adaptive_ctrl.get_adaptive_silence_ms()
+        logging.error(f"🫠 update_silence_ms :{min_silence} => current: {self.vac.min_silence_duration_ms} ")
         self.vac.min_silence_duration_ms = min_silence
     def process(self, in_data: MetaItem) -> MetaItem:
         if self._offset == 0:
             self.vac.reset_states()
         # silence_audio_100ms = np.zeros(int(0.1*self.sample_rate))
         source_audio = np.frombuffer(in_data.source_audio, dtype=np.float32)
         speech_data  = self._process_speech_chunk(source_audio)
         if speech_data: # 表示有音频的变化点出现
             self.update_silence_ms()
+            rel_start_frame, rel_end_frame = speech_data
             if rel_start_frame is not None and rel_end_frame is None:
                 self._status = "START" # 语音开始
                 target_audio = source_audio[rel_start_frame:]
                 silence_len = (self._offset + rel_start_frame - self.last_state_change_offset) / self.sample_rate * 1000
                 self.adaptive_ctrl.update_silence(silence_len)
                 self.last_state_change_offset = self._offset + rel_start_frame
                 logging.debug("🫸 Speech start frame: {}".format(rel_start_frame))
             elif rel_start_frame is None and rel_end_frame is not None:
                 self._status = "END" # 音频结束