Spaces:

fffiloni
/

auffusion

Running on Zero

App Files Files Community

fffiloni commited on May 29

Commit

258a0ab

verified ·

1 Parent(s): b8350da

MCP ready

Browse files

Files changed (1) hide show

app.py +54 -7

app.py CHANGED Viewed

@@ -49,6 +49,16 @@ def save_spectrogram_image(spectrogram, filename):
 @spaces.GPU
 def infer(prompt, progress=gr.Progress(track_tqdm=True)):
     pipeline = AuffusionPipeline.from_pretrained("auffusion/auffusion")
     prompt = prompt
     output = pipeline(prompt=prompt)
@@ -59,6 +69,21 @@ def infer(prompt, progress=gr.Progress(track_tqdm=True)):
 @spaces.GPU
 def infer_img2img(prompt, audio_path, desired_strength, progress=gr.Progress(track_tqdm=True)):
     # Load your audio file
     input_audio, original_sr = librosa.load(audio_path, sr=None)  # Load with original sampling rate
@@ -165,6 +190,22 @@ def infer_img2img(prompt, audio_path, desired_strength, progress=gr.Progress(tra
 @spaces.GPU
 def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.Progress(track_tqdm=True)):
     # Load your audio file
     input_audio, original_sr = librosa.load(audio_path, sr=None)  # Load with original sampling rate
@@ -353,7 +394,8 @@ with gr.Blocks(css=css) as demo:
             submit_btn.click(
                 fn = infer,
                 inputs = [prompt],
-                outputs = [audio_out]
             )
         with gr.Tab("Audio-to-Audio"):
@@ -381,7 +423,8 @@ with gr.Blocks(css=css) as demo:
             submit_btn_img2img.click(
                 fn = infer_img2img,
                 inputs = [prompt_img2img, audio_in_img2img, prompt_strength],
-                outputs = [audio_out_img2img, input_spectrogram, output_spectrogram]
             )
         with gr.Tab("Audio InPainting"):
@@ -419,25 +462,29 @@ with gr.Blocks(css=css) as demo:
             audio_in_inp.upload(
                 fn = load_input_spectrogram,
                 inputs = [audio_in_inp],
-                outputs = [audio_in_spec]
             )
             audio_in_inp.stop_recording(
                 fn = load_input_spectrogram,
                 inputs = [audio_in_inp],
-                outputs = [audio_in_spec]
             )
             preview_mask_btn.click(
                 fn = preview_masked_area,
                 inputs = [audio_in_inp, mask_start_point, mask_end_point],
-                outputs = [masked_spec_preview]
             )
             submit_btn_inp.click(
                 fn = infer_inp,
                 inputs = [prompt_inp, audio_in_inp, mask_start_point, mask_end_point],
-                outputs = [audio_out_inp, input_spectrogram_inp, output_spectrogram_inp]
             )
-demo.queue().launch(show_api=False, show_error=True)

 @spaces.GPU
 def infer(prompt, progress=gr.Progress(track_tqdm=True)):
+    """
+    Generate audio from a textual prompt using AuffusionPipeline.
+    Args:
+        prompt (str): Text description of the desired audio content.
+        progress (gr.Progress, optional): Progress tracker for UI feedback.
+    Returns:
+        str: The file path to the generated WAV audio file.
+    """
     pipeline = AuffusionPipeline.from_pretrained("auffusion/auffusion")
     prompt = prompt
     output = pipeline(prompt=prompt)
 @spaces.GPU
 def infer_img2img(prompt, audio_path, desired_strength, progress=gr.Progress(track_tqdm=True)):
+    """
+    Perform audio-to-audio transformation with image-to-image style generation.
+    Args:
+        prompt (str): Text prompt guiding the audio transformation.
+        audio_path (str): File path to the input WAV audio reference.
+        desired_strength (float): Strength of prompt influence in [0.0, 1.0].
+        progress (gr.Progress, optional): Progress tracker for UI feedback.
+    Returns:
+        tuple:
+            - str: File path of the generated output WAV audio.
+            - str: File path of the input spectrogram image (PNG).
+            - str: File path of the output spectrogram image (PNG).
+    """
     # Load your audio file
     input_audio, original_sr = librosa.load(audio_path, sr=None)  # Load with original sampling rate
 @spaces.GPU
 def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.Progress(track_tqdm=True)):
+    """
+    Perform audio inpainting with masked spectrogram region guided by a prompt.
+    Args:
+        prompt (str): Text prompt describing the desired inpainted audio content.
+        audio_path (str): File path to the input WAV audio reference.
+        mask_start_point (int): Start index of the mask region in the spectrogram.
+        mask_end_point (int): End index of the mask region in the spectrogram.
+        progress (gr.Progress, optional): Progress tracker for UI feedback.
+    Returns:
+        tuple:
+            - str: File path of the generated inpainted output WAV audio.
+            - str: File path of the input spectrogram image (PNG).
+            - PIL.Image.Image: The output spectrogram image with inpainted region (PIL image).
+    """
     # Load your audio file
     input_audio, original_sr = librosa.load(audio_path, sr=None)  # Load with original sampling rate
             submit_btn.click(
                 fn = infer,
                 inputs = [prompt],
+                outputs = [audio_out],
+                show_api=True
             )
         with gr.Tab("Audio-to-Audio"):
             submit_btn_img2img.click(
                 fn = infer_img2img,
                 inputs = [prompt_img2img, audio_in_img2img, prompt_strength],
+                outputs = [audio_out_img2img, input_spectrogram, output_spectrogram],
+                show_api=True
             )
         with gr.Tab("Audio InPainting"):
             audio_in_inp.upload(
                 fn = load_input_spectrogram,
                 inputs = [audio_in_inp],
+                outputs = [audio_in_spec],
+                show_api=False
             )
             audio_in_inp.stop_recording(
                 fn = load_input_spectrogram,
                 inputs = [audio_in_inp],
+                outputs = [audio_in_spec],
+                show_api=False
             )
             preview_mask_btn.click(
                 fn = preview_masked_area,
                 inputs = [audio_in_inp, mask_start_point, mask_end_point],
+                outputs = [masked_spec_preview],
+                show_api=False
             )
             submit_btn_inp.click(
                 fn = infer_inp,
                 inputs = [prompt_inp, audio_in_inp, mask_start_point, mask_end_point],
+                outputs = [audio_out_inp, input_spectrogram_inp, output_spectrogram_inp],
+                show_api=False
             )
+demo.queue().launch(ssr_mode=False, mcp_server=True, show_error=True)