Spaces:

SandraCLV
/

injectModel1intoModel2

Sleeping

SandraCLV commited on Oct 29, 2023

Commit

b767750

1 Parent(s): 18b45bd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,7 @@
 import gradio as gr
 from transformers import pipeline
-from PIL import Image, ImageOps
-import torch
 #Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta
 # el resultado del primero modelo(texto generado) en la entrada del 2º modelo
@@ -10,26 +9,21 @@ import torch
 # Cargar el modelo que convierte imagen a texto
-image_to_text_model = pipeline("image-classification")
 # Cargar el modelo que genera audio a partir de texto
-text_to_audio_model = pipeline("text-to-speech")
-# Función para la interfaz de Gradio
-def image_to_audio(input_image):
-    # Convertir la imagen a texto
-     model=gr.Interface.load("models/timm/mobilenetv3_large_100.ra_in1k").launch()
-     text_output = image_to_text_model(model)[0]['label']
-    # get model specific transforms (normalization, resize)
-     audio_output = text_to_audio_model(model)['audio']
 # Interfaz Gradio
 iface = gr.Interface(
-    fn=image_to_audio,
-    inputs= gr.Image(type='pil'),
-    outputs="audio",
     live=True,
     interpretation="default",
     capture_session=True

 import gradio as gr
 from transformers import pipeline
+from gtts import gTTS
+import IPython.display as ipd
 #Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta
 # el resultado del primero modelo(texto generado) en la entrada del 2º modelo
 # Cargar el modelo que convierte imagen a texto
+image_to_text_model = pipeline("image-classification",model="models/timm/mobilenetv3_large_100_ra_in1k")
 # Cargar el modelo que genera audio a partir de texto
+# Función para convertir texto a audio
+def text_to_audio(text):
+    tts = gTTS(text=text, lang='es')
+    tts.save('output.mp3')
+    return ipd.Audio('output.mp3')
 # Interfaz Gradio
 iface = gr.Interface(
+    fn=image_to_text_model,
+    inputs=gr.Image(),
+    outputs=[gr.Textbox(), gr.Audio(fn=text_to_audio)],
     live=True,
     interpretation="default",
     capture_session=True