Spaces:
Sleeping
Sleeping
import gradio as gr | |
from transformers import pipeline | |
from gtts import gTTS | |
import IPython.display as ipd | |
#Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta | |
# el resultado del primero modelo(texto generado) en la entrada del 2º modelo | |
# texto to audio | |
# Cargar el modelo que convierte imagen a texto | |
image_to_text_model = pipeline("image-classification",model="models/timm/mobilenetv3_large_100_ra_in1k") | |
# Cargar el modelo que genera audio a partir de texto | |
# Función para convertir texto a audio | |
def text_to_audio(text): | |
tts = gTTS(text=text, lang='es') | |
tts.save('output.mp3') | |
return ipd.Audio('output.mp3') | |
# Interfaz Gradio | |
iface = gr.Interface( | |
fn=image_to_text_model, | |
inputs=gr.Image(), | |
outputs=[gr.Textbox(), gr.Audio(fn=text_to_audio)], | |
live=True, | |
interpretation="default", | |
capture_session=True | |
) | |
# Ejecutar la interfaz | |
iface.launch() |