import gradio as gr from transformers import pipeline from gtts import gTTS import IPython.display as ipd #Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta # el resultado del primero modelo(texto generado) en la entrada del 2º modelo # texto to audio # Cargar el modelo que convierte imagen a texto image_to_text_model = pipeline("image-classification",model="models/timm/mobilenetv3_large_100_ra_in1k") # Cargar el modelo que genera audio a partir de texto # Función para convertir texto a audio def text_to_audio(text): tts = gTTS(text=text, lang='es') tts.save('output.mp3') return ipd.Audio('output.mp3') # Interfaz Gradio iface = gr.Interface( fn=image_to_text_model, inputs=gr.Image(), outputs=[gr.Textbox(), gr.Audio(fn=text_to_audio)], live=True, interpretation="default", capture_session=True ) # Ejecutar la interfaz iface.launch()