Spaces:

mguven61
/

VoiceAI61

Sleeping

App Files Files Community

mguven61 commited on May 29

Commit

51bfbfb

verified ·

1 Parent(s): 9248fab

Update app.py

Browse files

Files changed (1) hide show

app.py +99 -36

app.py CHANGED Viewed

@@ -12,21 +12,20 @@ import soundfile as sf
 class RealTimeTranslator:
     def __init__(self):
         self.model = whisper.load_model("base")
         self.languages = {
             'en': 'English',
-            'fr': 'French',
             'hi': 'Hindi',
             'es': 'Spanish',
             'de': 'German',
             'ja': 'Japanese',
             'tr': 'Turkish'
         }
     def speech_to_text(self, audio_path, source_lang):
         try:
             result = self.model.transcribe(
-                audio_path,
                 language=source_lang,
                 temperature=0.0,
                 best_of=5,
@@ -35,74 +34,138 @@ class RealTimeTranslator:
             return result["text"]
         except Exception as e:
             return f"Error in speech-to-text: {str(e)}"
     def translate_text(self, text, source_lang, target_lang):
         try:
             translation = GoogleTranslator(source=source_lang, target=target_lang).translate(text)
             return translation
         except Exception as e:
             return f"Error in translation: {str(e)}"
     def text_to_speech(self, text, target_lang):
         try:
-            with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as fp:
-                tts = gTTS(text=text, lang=target_lang)
                 tts.save(fp.name)
                 return fp.name
         except Exception as e:
             return f"Error in text-to-speech: {str(e)}"
     def process_audio(self, audio, source_lang, target_lang):
         try:
             if audio is None:
                 return None, "No audio input received", "Please provide audio input"
             with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as fp:
-                sf.write(fp.name, audio[1], audio[0])
                 audio_path = fp.name
             text = self.speech_to_text(audio_path, source_lang)
             if "Error" in text:
                 return None, text, ""
             translated_text = self.translate_text(text, source_lang, target_lang)
             if "Error" in translated_text:
                 return None, text, translated_text
             output_audio_path = self.text_to_speech(translated_text, target_lang)
             if "Error" in output_audio_path:
                 return None, text, translated_text
-            output_audio, sr = librosa.load(output_audio_path)
             os.unlink(audio_path)
             os.unlink(output_audio_path)
             return (sr, output_audio), text, translated_text
         except Exception as e:
             return None, f"Error: {str(e)}", f"Error: {str(e)}"
 def create_gradio_interface():
     translator = RealTimeTranslator()
-    demo = gr.Interface(
-        fn=translator.process_audio,
-        inputs=[
-            gr.Audio(sources=["microphone"], type="numpy", label="Audio Input", streaming=False),
-            gr.Dropdown(choices=list(translator.languages.keys()), value="tr", label="Source Language"),
-            gr.Dropdown(choices=list(translator.languages.keys()), value="en", label="Target Language")
-        ],
-        outputs=[
-            gr.Audio(label="Translated Audio"),
-            gr.Textbox(label="Original Text"),
-            gr.Textbox(label="Translated Text")
-        ],
-        title="VoıceAI61",
-        allow_flagging="never"
-    )
     return demo
 if __name__ == "__main__":
     demo = create_gradio_interface()
-    demo.launch(share=True, debug=True)

 class RealTimeTranslator:
     def __init__(self):
         self.model = whisper.load_model("base")
         self.languages = {
             'en': 'English',
+            'fr': 'French',
             'hi': 'Hindi',
             'es': 'Spanish',
             'de': 'German',
             'ja': 'Japanese',
             'tr': 'Turkish'
         }
     def speech_to_text(self, audio_path, source_lang):
         try:
             result = self.model.transcribe(
+                audio_path,
                 language=source_lang,
                 temperature=0.0,
                 best_of=5,
             return result["text"]
         except Exception as e:
             return f"Error in speech-to-text: {str(e)}"
     def translate_text(self, text, source_lang, target_lang):
         try:
+            if source_lang == target_lang:
+                return text
             translation = GoogleTranslator(source=source_lang, target=target_lang).translate(text)
             return translation
         except Exception as e:
             return f"Error in translation: {str(e)}"
     def text_to_speech(self, text, target_lang):
         try:
+            with tempfile.NamedTemporaryFile(suffix='.mp3', delete=False) as fp:
+                tts = gTTS(text=text, lang=target_lang, slow=False)
                 tts.save(fp.name)
                 return fp.name
         except Exception as e:
             return f"Error in text-to-speech: {str(e)}"
     def process_audio(self, audio, source_lang, target_lang):
         try:
             if audio is None:
                 return None, "No audio input received", "Please provide audio input"
+            # Handle different audio input formats
+            if isinstance(audio, tuple):
+                sample_rate, audio_data = audio
+            else:
+                # If audio is a file path (uploaded file)
+                audio_data, sample_rate = librosa.load(audio, sr=None)
+            # Save audio to temporary file
             with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as fp:
+                sf.write(fp.name, audio_data, sample_rate)
                 audio_path = fp.name
+            # Speech to text
             text = self.speech_to_text(audio_path, source_lang)
             if "Error" in text:
+                os.unlink(audio_path)
                 return None, text, ""
+            # Translate text
             translated_text = self.translate_text(text, source_lang, target_lang)
             if "Error" in translated_text:
+                os.unlink(audio_path)
                 return None, text, translated_text
+            # Text to speech
             output_audio_path = self.text_to_speech(translated_text, target_lang)
             if "Error" in output_audio_path:
+                os.unlink(audio_path)
                 return None, text, translated_text
+            # Load output audio
+            output_audio, sr = librosa.load(output_audio_path, sr=22050)
+            # Clean up temporary files
             os.unlink(audio_path)
             os.unlink(output_audio_path)
             return (sr, output_audio), text, translated_text
         except Exception as e:
             return None, f"Error: {str(e)}", f"Error: {str(e)}"
 def create_gradio_interface():
     translator = RealTimeTranslator()
+    with gr.Blocks(title="VoiceAI61 - Real-Time Voice Translator") as demo:
+        gr.Markdown("# 🎤 VoiceAI61 - Real-Time Voice Translator")
+        gr.Markdown("Record your voice or upload an audio file to translate between languages!")
+        with gr.Row():
+            with gr.Column():
+                # Audio input with both microphone and file upload
+                audio_input = gr.Audio(
+                    sources=["microphone", "upload"],
+                    type="filepath",
+                    label="🎤 Record Audio or Upload File"
+                )
+                with gr.Row():
+                    source_lang = gr.Dropdown(
+                        choices=list(translator.languages.keys()),
+                        value="tr",
+                        label="🗣️ Source Language"
+                    )
+                    target_lang = gr.Dropdown(
+                        choices=list(translator.languages.keys()),
+                        value="en",
+                        label="🌍 Target Language"
+                    )
+                translate_btn = gr.Button("🔄 Translate", variant="primary", size="lg")
+            with gr.Column():
+                audio_output = gr.Audio(label="🔊 Translated Audio")
+                original_text = gr.Textbox(label="📝 Original Text", lines=3)
+                translated_text = gr.Textbox(label="🌐 Translated Text", lines=3)
+        # Event handlers
+        translate_btn.click(
+            fn=translator.process_audio,
+            inputs=[audio_input, source_lang, target_lang],
+            outputs=[audio_output, original_text, translated_text]
+        )
+        # Auto-translate when audio is recorded/uploaded
+        audio_input.change(
+            fn=translator.process_audio,
+            inputs=[audio_input, source_lang, target_lang],
+            outputs=[audio_output, original_text, translated_text]
+        )
+        # Examples
+        gr.Examples(
+            examples=[
+                [None, "en", "tr"],
+                [None, "tr", "en"],
+                [None, "fr", "en"],
+            ],
+            inputs=[audio_input, source_lang, target_lang],
+        )
     return demo
 if __name__ == "__main__":
     demo = create_gradio_interface()
+    demo.launch(
+        share=True,
+        debug=True,
+        server_name="0.0.0.0",
+        server_port=7860
+    )