Audio-Separator

Sleeping

fffiloni commited on May 23

Commit

bf8f862

verified ·

1 Parent(s): 2abb303

Update gradio_app.py

Files changed (1) hide show

gradio_app.py CHANGED Viewed

@@ -121,23 +121,28 @@ def separate_speakers_video(video_path):
     output_dir = os.path.join("output_sep_video", session_id)
     os.makedirs(output_dir, exist_ok=True)
-    output_videos = []
     for i in range(ests_speech.shape[0]):
-        separated_audio_path = os.path.join(output_dir, f"speaker_{i+1}.wav")
-        audio_np = ests_speech[i].cpu().numpy()
         sf.write(separated_audio_path, audio_np, TARGET_SR, format='WAV', subtype='PCM_16')
-        speaker_video_path = os.path.join(output_dir, f"speaker_{i+1}_video.mp4")
-        final_video = attach_audio_to_video(video, separated_audio_path, speaker_video_path)
-        output_videos.append(final_video)
-    updates = []
-    for i in range(MAX_SPEAKERS):
-        if i < len(output_videos):
-            updates.append(gr.update(value=output_videos[i], visible=True, label=f"Speaker {i+1}"))
-        else:
-            updates.append(gr.update(value=None, visible=False))
-    return updates

     output_dir = os.path.join("output_sep_video", session_id)
     os.makedirs(output_dir, exist_ok=True)
+    output_files = []
     for i in range(ests_speech.shape[0]):
+        audio_np = ests_speech[i].cpu().numpy().astype('float32')
+        # Ensure shape is [samples, channels]
+        if audio_np.ndim == 1:
+            audio_np = audio_np[:, None]
+        audio_filename = f"speaker_{i+1}.wav"
+        separated_audio_path = os.path.join(output_dir, audio_filename)
+        # Explicitly set format/subtype
         sf.write(separated_audio_path, audio_np, TARGET_SR, format='WAV', subtype='PCM_16')
+        # Attach to video
+        out_video_path = os.path.join(output_dir, f"speaker_{i+1}.mp4")
+        attach_audio_to_video(video, separated_audio_path, out_video_path)
+        output_files.append(out_video_path)
+    # Return only existing video files
+    return output_files + [None] * (MAX_SPEAKERS - len(output_files))