Spaces:

SandraCLV
/

injectModel1intoModel2

Sleeping

SandraCLV commited on Oct 29, 2023

Commit

d6da658

1 Parent(s): 3f34b60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,18 @@ import gradio as gr
 from transformers import pipeline
 import torch
 # Cargar el modelo que convierte imagen a texto
 image_to_text_model = pipeline("image-classification")
@@ -11,13 +23,14 @@ text_to_audio_model = pipeline("text-to-speech")
 # Función para la interfaz de Gradio
 def image_to_audio(input_image):
     # Convertir la imagen a texto
-    text_output = image_to_text_model(input_image)[0]['label']
     # Generar audio a partir del texto
     audio_output = text_to_audio_model(text_output)[0]['audio']
     return audio_output
 # Interfaz Gradio
 iface = gr.Interface(
     fn=image_to_audio,
@@ -29,7 +42,4 @@ iface = gr.Interface(
 )
 # Ejecutar la interfaz
-iface.launch()
-# Crear interfaz de Gradio
-#iface = gr.Interface(fn=asr, inputs=gr.inputs.Audio(source="microphone", type="file"), outputs="text")
-#iface.launch()

 from transformers import pipeline
 import torch
+#Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta
+# el resultado del primero modelo(texto generado) en la entrada del 2º modelo
+# texto to audio
+def transform(example_batch):
+    # Take a list of PIL images and turn them to pixel values
+    inputs = feature_extractor([x.convert("RGB") for x in example_batch['image']], return_tensors='pt')
+    # Don't forget to include the labels!
+    inputs['labels'] = example_batch['labels']
+    return inputs
 # Cargar el modelo que convierte imagen a texto
 image_to_text_model = pipeline("image-classification")
 # Función para la interfaz de Gradio
 def image_to_audio(input_image):
     # Convertir la imagen a texto
+    text_output = transform(image_to_text_model(input_image)[0]['label'])
     # Generar audio a partir del texto
     audio_output = text_to_audio_model(text_output)[0]['audio']
     return audio_output
 # Interfaz Gradio
 iface = gr.Interface(
     fn=image_to_audio,
 )
 # Ejecutar la interfaz
+iface.launch()