Spaces:

SandraCLV
/

injectModel1intoModel2

Sleeping

App Files Files Community

SandraCLV commited on Nov 1, 2023

Commit

66b1e3d

1 Parent(s): 758ce80

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -11

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ import logging
 import time
 import uuid
 import soundfile as sf
 from model import get_pretrained_model, language_to_models
 # demo for a input given image transform into text interpretation, and those text put a speech text to be played
@@ -23,14 +24,6 @@ def build_html_output(s: str, style: str = "result_item_success"):
         </div>
     </div>
     """
-def image_to_text(input_image):
-    # Convertir la imagen a texto
-    text_output = image_to_text_model(input_image)[0]['label']
-    print(text_output)
-    #texts = transcriber(text_output)
-    return text_output
 def text_to_speech(language: str, repo_id: str, text: str, sid: str, speed: float):
     logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
     sid = int(sid)
@@ -76,8 +69,9 @@ with demo:
     language_choices = list(language_to_models.keys())
     inputsImg=gr.Image(type='pil')
     idx=0
-    for txt in image_to_text(inputsImg):
-        output_txt[idx] = gr.Textbox(label=txt,lines=1,max_lines=1,value=txt,placeholder="Interpretation")
         input_sid = gr.Textbox(
                 label="Speaker ID",
                 info="Speaker ID",
@@ -91,7 +85,7 @@ with demo:
                 value=1,
                 step=0.1,
                 label="Speed (larger->faster; smaller->slower)")
-        text_to_speech(language_choices[0],language_to_models[language_choices[0]][0],txt,input_sid,input_speed)
         output_audio[idx] = gr.Audio(label="Output")
         output_info[idx] = gr.HTML(label="Info")
         idx=idx+1

 import time
 import uuid
 import soundfile as sf
+# model.py apache license 2.0 Copyright      2022-2023  Xiaomi Corp.        (authors: Fangjun Kuang)
 from model import get_pretrained_model, language_to_models
 # demo for a input given image transform into text interpretation, and those text put a speech text to be played
         </div>
     </div>
     """
 def text_to_speech(language: str, repo_id: str, text: str, sid: str, speed: float):
     logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
     sid = int(sid)
     language_choices = list(language_to_models.keys())
     inputsImg=gr.Image(type='pil')
     idx=0
+    for txt in inputsImg:
+        text_output = image_to_text_model(txt)[0]['label']
+        output_txt[idx] = gr.Textbox(label=text_output,lines=1,max_lines=1,value=text_output,placeholder="Interpretation")
         input_sid = gr.Textbox(
                 label="Speaker ID",
                 info="Speaker ID",
                 value=1,
                 step=0.1,
                 label="Speed (larger->faster; smaller->slower)")
+        text_to_speech(language_choices[0],language_to_models[language_choices[0]][0],text_output,input_sid,input_speed)
         output_audio[idx] = gr.Audio(label="Output")
         output_info[idx] = gr.HTML(label="Info")
         idx=idx+1