Spaces:

vankienemk
/

Voice-regconizer

Sleeping

vankienemk commited on Apr 10

Commit

a8f06f7

verified ·

1 Parent(s): ff06dc1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,23 +1,31 @@
 import gradio as gr
-from transformers import pipeline
-# Tạo pipeline nhận diện giọng nói
-asr = pipeline("automatic-speech-recognition", model="openai/whisper-base")
-# Hàm xử lý âm thanh
-def transcribe(audio_file):
-    if audio_file is None:
-        return "Chưa có file âm thanh."
-    result = asr(audio_file)
-    return result["text"]
-# Giao diện Gradio
-demo = gr.Interface(
-    fn=transcribe,
-    inputs=gr.Audio(type="filepath", label="Tải lên file âm thanh (.wav, .mp3...)"),
-    outputs=gr.Textbox(label="Kết quả chuyển văn bản"),
-    title="Nhận diện giọng nói bằng Whisper",
-    description="Tải file âm thanh và hệ thống sẽ nhận diện nội dung giọng nói bằng mô hình Whisper của OpenAI."
-)
-demo.launch()

 import gradio as gr
+import torch
+import soundfile as sf
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+# Load model
+processor = Wav2Vec2Processor.from_pretrained("vlsp2020/wav2vec2-base-vietnamese-250h")
+model = Wav2Vec2ForCTC.from_pretrained("vlsp2020/wav2vec2-base-vietnamese-250h")
+def transcribe(audio):
+    # Load audio
+    speech, rate = sf.read(audio)
+    if rate != 16000:
+        return "Vui lòng cung cấp file audio 16kHz."
+    # Preprocess and predict
+    inputs = processor(speech, sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.decode(predicted_ids[0])
+    return transcription
+# Gradio UI
+gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(source="upload", type="filepath", label="Upload audio (16kHz, mono)"),
+    outputs="text",
+    title="Wav2Vec2 Vietnamese STT",
+    description="Nhận dạng giọng nói tiếng Việt bằng mô hình wav2vec2-base-vietnamese-250h từ VLSP."
+).launch()