Spaces:

SandraCLV
/

injectModel1intoModel2

Sleeping

SandraCLV commited on Oct 26, 2023

Commit

5c5a283

1 Parent(s): c6c05a4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,27 @@
-from transformers import pipeline
-from PIL import Image
-import requests
-from io import BytesIO
-# Inicializa el modelo de OCR (Reconocimiento Óptico de Caracteres)
-ocr_model = pipeline('text-recognition', model='your-model-name')
-# Inicializa el modelo de TTS (Texto a Voz)
-tts_model = pipeline('text-to-speech', model='your-model-name')
-# Carga la imagen desde una URL
-response = requests.get('https://example.com/your-image.jpg')
-img = Image.open(BytesIO(response.content))
-# Convierte la imagen a texto
-text = ocr_model(img)
-# Convierte el texto a audio
-audio = tts_model(text)
-# Guarda el audio en un archivo
-with open('output.wav', 'wb') as f:
-    f.write(audio)

+import gradio as gr
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import torch
+# Cargar el modelo y el procesador
+model = Wav2Vec2ForCTC.from_pretrained("openai/whisper-large-v2")
+processor = Wav2Vec2Processor.from_pretrained("openai/whisper-large-v2")
+def asr(audio_file_path):
+    # Cargar archivo de audio
+    input_audio, _ = librosa.load(audio_file_path, sr=16000)
+    # Preprocesar audio
+    input_values = processor(input_audio, return_tensors="pt", sampling_rate=16000).input_values
+    # Realizar inferencia
+    logits = model(input_values).logits
+    # Decodificar los logits a texto
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.decode(predicted_ids[0])
+    return transcription
+# Crear interfaz de Gradio
+iface = gr.Interface(fn=asr, inputs=gr.inputs.Audio(source="microphone", type="file"), outputs="text")
+iface.launch()