Spaces:
Sleeping
Sleeping
File size: 924 Bytes
5c5a283 9e26359 b767750 fac92f6 d6da658 9e26359 b767750 fac92f6 9e26359 b767750 d6da658 b767750 9e26359 b767750 9e26359 5c5a283 9e26359 d6da658 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
import gradio as gr
from transformers import pipeline
from gtts import gTTS
import IPython.display as ipd
#Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta
# el resultado del primero modelo(texto generado) en la entrada del 2º modelo
# texto to audio
# Cargar el modelo que convierte imagen a texto
image_to_text_model = pipeline("image-classification",model="models/timm/mobilenetv3_large_100_ra_in1k")
# Cargar el modelo que genera audio a partir de texto
# Función para convertir texto a audio
def text_to_audio(text):
tts = gTTS(text=text, lang='es')
tts.save('output.mp3')
return ipd.Audio('output.mp3')
# Interfaz Gradio
iface = gr.Interface(
fn=image_to_text_model,
inputs=gr.Image(),
outputs=[gr.Textbox(), gr.Audio(fn=text_to_audio)],
live=True,
interpretation="default",
capture_session=True
)
# Ejecutar la interfaz
iface.launch() |