Spaces:

mguven61
/

VoiceAI61

Sleeping

App Files Files Community

mguven61 commited on May 29

Commit

671772e

verified ·

1 Parent(s): 8cd1f2c

Upload 2 files

Browse files

Files changed (2) hide show

app.py +113 -0
requirements.txt +10 -0

app.py ADDED Viewed

	@@ -0,0 +1,113 @@

+import os
+import torch
+import gradio as gr
+import numpy as np
+import whisper
+from deep_translator import GoogleTranslator
+from gtts import gTTS
+import librosa
+import tempfile
+import soundfile as sf
+class RealTimeTranslator:
+    def __init__(self):
+        self.model = whisper.load_model("base")
+        self.languages = {
+            'en': 'English',
+            'fr': 'French',
+            'hi': 'Hindi',
+            'es': 'Spanish',
+            'de': 'German',
+            'ja': 'Japanese',
+            'tr': 'Turkish'
+        }
+    def speech_to_text(self, audio_path, source_lang):
+        try:
+            result = self.model.transcribe(
+                audio_path,
+                language=source_lang,
+                temperature=0.0,
+                best_of=5,
+                beam_size=5
+            )
+            return result["text"]
+        except Exception as e:
+            return f"Error in speech-to-text: {str(e)}"
+    def translate_text(self, text, source_lang, target_lang):
+        try:
+            translation = GoogleTranslator(source=source_lang, target=target_lang).translate(text)
+            return translation
+        except Exception as e:
+            return f"Error in translation: {str(e)}"
+    def text_to_speech(self, text, target_lang):
+        try:
+            with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as fp:
+                tts = gTTS(text=text, lang=target_lang)
+                tts.save(fp.name)
+                return fp.name
+        except Exception as e:
+            return f"Error in text-to-speech: {str(e)}"
+    def process_audio(self, audio, source_lang, target_lang):
+        try:
+            if audio is None:
+                return None, "No audio input received", "Please provide audio input"
+            with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as fp:
+                sf.write(fp.name, audio[1], audio[0])
+                audio_path = fp.name
+            text = self.speech_to_text(audio_path, source_lang)
+            if "Error" in text:
+                return None, text, ""
+            translated_text = self.translate_text(text, source_lang, target_lang)
+            if "Error" in translated_text:
+                return None, text, translated_text
+            output_audio_path = self.text_to_speech(translated_text, target_lang)
+            if "Error" in output_audio_path:
+                return None, text, translated_text
+            output_audio, sr = librosa.load(output_audio_path)
+            os.unlink(audio_path)
+            os.unlink(output_audio_path)
+            return (sr, output_audio), text, translated_text
+        except Exception as e:
+            return None, f"Error: {str(e)}", f"Error: {str(e)}"
+def create_gradio_interface():
+    translator = RealTimeTranslator()
+    demo = gr.Interface(
+        fn=translator.process_audio,
+        inputs=[
+            gr.Audio(sources=["microphone"], type="numpy", label="Audio Input"),
+            gr.Dropdown(choices=list(translator.languages.keys()), value="tr", label="Source Language"),
+            gr.Dropdown(choices=list(translator.languages.keys()), value="en", label="Target Language")
+        ],
+        outputs=[
+            gr.Audio(label="Translated Audio"),
+            gr.Textbox(label="Original Text"),
+            gr.Textbox(label="Translated Text")
+        ],
+        title="VoiceAI61",
+        examples=[
+            [None, "tr", "en"],
+            [None, "en", "tr"],
+            [None, "tr", "fr"],
+            [None, "es", "tr"]
+        ]
+    )
+    return demo
+if __name__ == "__main__":
+    demo = create_gradio_interface()
+    demo.launch(share=True, debug=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+transformers
+torch
+gradio
+numpy
+deep-translator
+gtts
+librosa
+soundfile