Audio-Separator

Sleeping

fffiloni commited on May 23

Commit

c4f5bac

verified ·

1 Parent(s): bf8f862

Update gradio_app.py

Files changed (1) hide show

gradio_app.py CHANGED Viewed

@@ -102,6 +102,8 @@ def separate_dnr_video(video_path):
     return dialog_video, effect_video, music_video
 @spaces.GPU()
 def separate_speakers_video(video_path):
     audio_path, video = extract_audio_from_video(video_path)
@@ -123,29 +125,18 @@ def separate_speakers_video(video_path):
     output_files = []
     for i in range(ests_speech.shape[0]):
-        audio_np = ests_speech[i].cpu().numpy().astype('float32')
-        # Ensure shape is [samples, channels]
-        if audio_np.ndim == 1:
-            audio_np = audio_np[:, None]
-        audio_filename = f"speaker_{i+1}.wav"
-        separated_audio_path = os.path.join(output_dir, audio_filename)
-        # Explicitly set format/subtype
-        sf.write(separated_audio_path, audio_np, TARGET_SR, format='WAV', subtype='PCM_16')
-        # Attach to video
         out_video_path = os.path.join(output_dir, f"speaker_{i+1}.mp4")
         attach_audio_to_video(video, separated_audio_path, out_video_path)
         output_files.append(out_video_path)
-    # Return only existing video files
     return output_files + [None] * (MAX_SPEAKERS - len(output_files))
 # --- Gradio UI ---
 with gr.Blocks() as demo:
     gr.Markdown("# TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation")
@@ -197,4 +188,4 @@ with gr.Blocks() as demo:
             vsep_btn.click(separate_speakers_video, inputs=vsep_input, outputs=vsep_outputs)
 if __name__ == "__main__":
-    demo.launch()

     return dialog_video, effect_video, music_video
 @spaces.GPU()
 def separate_speakers_video(video_path):
     audio_path, video = extract_audio_from_video(video_path)
     output_files = []
     for i in range(ests_speech.shape[0]):
+        separated_audio_path = os.path.join(output_dir, f"speaker_{i+1}.wav")
+        torchaudio.save(separated_audio_path, ests_speech[i].unsqueeze(0).cpu(), TARGET_SR)
+        # Attach audio back to video
         out_video_path = os.path.join(output_dir, f"speaker_{i+1}.mp4")
         attach_audio_to_video(video, separated_audio_path, out_video_path)
         output_files.append(out_video_path)
     return output_files + [None] * (MAX_SPEAKERS - len(output_files))
 # --- Gradio UI ---
 with gr.Blocks() as demo:
     gr.Markdown("# TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation")
             vsep_btn.click(separate_speakers_video, inputs=vsep_input, outputs=vsep_outputs)
 if __name__ == "__main__":
+    demo.launch(ssr_mode=False)