Spaces:

fffiloni
/

auffusion

Running on Zero

App Files Files Community

fffiloni commited on Feb 5

Commit

3c3e8e9

verified ·

1 Parent(s): 05091a2

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -22

app.py CHANGED Viewed

@@ -70,8 +70,14 @@ def infer_img2img(prompt, audio_path, desired_strength, progress=gr.Progress(tra
     # Loading
     audio, sampling_rate = load_wav(audio_path)
     audio, spec = get_mel_spectrogram_from_audio(audio)
     norm_spec = normalize_spectrogram(spec)
     # norm_spec = norm_spec[:,:, width_start:width_start+width]
     norm_spec = pad_spec(norm_spec, 1024)
     norm_spec = normalize(norm_spec) # normalize to [-1, 1], because pipeline do not normalize for torch.Tensor input
@@ -166,8 +172,14 @@ def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.
     # Loading
     audio, sampling_rate = load_wav(audio_path)
     audio, spec = get_mel_spectrogram_from_audio(audio)
     norm_spec = normalize_spectrogram(spec)
     norm_spec = pad_spec(norm_spec, 1024)
     norm_spec = normalize(norm_spec) # normalize to [-1, 1], because pipeline do not normalize for torch.Tensor input
@@ -206,10 +218,6 @@ def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.
     post_masked_spec = denormalize(masked_spec).to(device, dtype)
     denorm_masked_spec = denormalize_spectrogram(post_masked_spec)
     denorm_masked_spec_audio = vocoder.inference(denorm_masked_spec)
-    # Rescale generated spectrogram to match original range
-    output_spec = (output_spec - output_spec.min()) / (output_spec.max() - output_spec.min())  # Normalize to [0,1]
-    output_spec = output_spec * (norm_spec.max() - norm_spec.min()) + norm_spec.min()  # Rescale to match input range
     denorm_spec = denormalize_spectrogram(output_spec)
     denorm_spec_audio = vocoder.inference(denorm_spec)
@@ -218,19 +226,9 @@ def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.
     # Ensure correct shape
     denorm_spec_audio = denorm_spec_audio.flatten()  # Converts (1, N) → (N,)
-    print("Original spectrogram min/max:", norm_spec.min().item(), norm_spec.max().item())
-    print("Generated spectrogram min/max:", output_spec.min().item(), output_spec.max().item())
-    global_max = max(np.max(np.abs(raw_chunk_audio)), np.max(np.abs(denorm_spec_audio)))
-    denorm_spec_audio = denorm_spec_audio / global_max  # Normalize using a shared scale
-    print("Masked spectrogram min/max:", masked_spec.min().item(), masked_spec.max().item())
-    print("Output spectrogram min/max:", output_spec.min().item(), output_spec.max().item())
     # Save as WAV
-    sf.write("raw_output.wav", raw_chunk_audio, 16000)
-    sf.write("masked_raw_output.wav", denorm_masked_spec_audio, 16000)
     sf.write("generated_output.wav", denorm_spec_audio, 16000)
     # Save input spectrogram image
@@ -241,7 +239,7 @@ def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.
     output_spec_image_path = "output_spectrogram.png"
     color_output_spec_image.save(output_spec_image_path)
-    return "raw_output.wav", input_spec_image_path, color_output_spec_image, "raw_output.wav", "masked_raw_output.wav"
 def load_input_spectrogram(audio_path):
     # Loading
@@ -387,11 +385,6 @@ with gr.Blocks(css=css) as demo:
                     input_spectrogram_inp = gr.Image(label="Input Spectrogram")
                     output_spectrogram_inp = gr.Image(label="Output Spectrogram")
-            with gr.Accordion("Raw Processed audio", open=False):
-                with gr.Column():
-                    raw_out_audio = gr.Audio(label="RAW Audio")
-                    raw_masked_out_audio = gr.Audio(label="RAW Masked Audio")
             gr.Examples(
                 examples = [
                     ["A siren ringing with a vehicle speeding closer", "./notebooks/examples/inpainting/IvfaKPDWC00_160.wav"],
@@ -426,7 +419,7 @@ with gr.Blocks(css=css) as demo:
             submit_btn_inp.click(
                 fn = infer_inp,
                 inputs = [prompt_inp, audio_in_inp, mask_start_point, mask_end_point],
-                outputs = [audio_out_inp, input_spectrogram_inp, output_spectrogram_inp, raw_out_audio, raw_masked_out_audio]
             )
 demo.queue().launch(show_api=False, show_error=True)

     # Loading
     audio, sampling_rate = load_wav(audio_path)
+    print(f"Raw audio min/max: {audio.min()}, {audio.max()}")
     audio, spec = get_mel_spectrogram_from_audio(audio)
+    print(f"Spectrogram min/max before normalization: {spec.min()}, {spec.max()}")
     norm_spec = normalize_spectrogram(spec)
+    print(f"Spectrogram min/max after normalization: {norm_spec.min()}, {norm_spec.max()}")
     # norm_spec = norm_spec[:,:, width_start:width_start+width]
     norm_spec = pad_spec(norm_spec, 1024)
     norm_spec = normalize(norm_spec) # normalize to [-1, 1], because pipeline do not normalize for torch.Tensor input
     # Loading
     audio, sampling_rate = load_wav(audio_path)
+    print(f"Raw audio min/max: {audio.min()}, {audio.max()}")
     audio, spec = get_mel_spectrogram_from_audio(audio)
+    print(f"Spectrogram min/max before normalization: {spec.min()}, {spec.max()}")
     norm_spec = normalize_spectrogram(spec)
+    print(f"Spectrogram min/max after normalization: {norm_spec.min()}, {norm_spec.max()}")
     norm_spec = pad_spec(norm_spec, 1024)
     norm_spec = normalize(norm_spec) # normalize to [-1, 1], because pipeline do not normalize for torch.Tensor input
     post_masked_spec = denormalize(masked_spec).to(device, dtype)
     denorm_masked_spec = denormalize_spectrogram(post_masked_spec)
     denorm_masked_spec_audio = vocoder.inference(denorm_masked_spec)
     denorm_spec = denormalize_spectrogram(output_spec)
     denorm_spec_audio = vocoder.inference(denorm_spec)
     # Ensure correct shape
     denorm_spec_audio = denorm_spec_audio.flatten()  # Converts (1, N) → (N,)
+    denorm_spec_audio = denorm_spec_audio / np.max(np.abs(denorm_spec_audio))  # Scale between -1 and 1
     # Save as WAV
     sf.write("generated_output.wav", denorm_spec_audio, 16000)
     # Save input spectrogram image
     output_spec_image_path = "output_spectrogram.png"
     color_output_spec_image.save(output_spec_image_path)
+    return "raw_output.wav", input_spec_image_path, color_output_spec_image
 def load_input_spectrogram(audio_path):
     # Loading
                     input_spectrogram_inp = gr.Image(label="Input Spectrogram")
                     output_spectrogram_inp = gr.Image(label="Output Spectrogram")
             gr.Examples(
                 examples = [
                     ["A siren ringing with a vehicle speeding closer", "./notebooks/examples/inpainting/IvfaKPDWC00_160.wav"],
             submit_btn_inp.click(
                 fn = infer_inp,
                 inputs = [prompt_inp, audio_in_inp, mask_start_point, mask_end_point],
+                outputs = [audio_out_inp, input_spectrogram_inp, output_spectrogram_inp]
             )
 demo.queue().launch(show_api=False, show_error=True)