import gradio as gr
from transformers import pipeline
import torch

# Cargar el modelo que convierte imagen a texto
image_to_text_model = pipeline("image-classification")

# Cargar el modelo que genera audio a partir de texto
text_to_audio_model = pipeline("text-to-speech")

# Función para la interfaz de Gradio
def image_to_audio(input_image):
    # Convertir la imagen a texto
    text_output = image_to_text_model(input_image)[0]['label']

    # Generar audio a partir del texto
    audio_output = text_to_audio_model(text_output)[0]['audio']

    return audio_output

# Interfaz Gradio
iface = gr.Interface(
    fn=image_to_audio,
    inputs=gr.Image(),
    outputs="audio",
    live=True,
    interpretation="default",
    capture_session=True
)

# Ejecutar la interfaz
iface.launch()
# Crear interfaz de Gradio
#iface = gr.Interface(fn=asr, inputs=gr.inputs.Audio(source="microphone", type="file"), outputs="text")
#iface.launch()