Spaces:

vankienemk
/

Voice-regconizer

Sleeping

vankienemk commited on Apr 10

Commit

f8da254

verified ·

1 Parent(s): d0b7fd5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,20 +1,23 @@
 import gradio as gr
 import torch
-import soundfile as sf
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 # Load model
-processor = Wav2Vec2Processor.from_pretrained("nguyenvulebinh/wav2vec2-base-vietnamese-250h")
-model = Wav2Vec2ForCTC.from_pretrained("nguyenvulebinh/wav2vec2-base-vietnamese-250h")
 def transcribe(audio):
-    # Load audio
-    speech, rate = sf.read(audio)
-    if rate != 16000:
-        return "Vui lòng cung cấp file audio 16kHz."
-    # Preprocess and predict
-    inputs = processor(speech, sampling_rate=16000, return_tensors="pt", padding=True)
     with torch.no_grad():
         logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
@@ -24,8 +27,8 @@ def transcribe(audio):
 # Gradio UI
 gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(type="filepath", label="Upload audio (16kHz, mono)"),
     outputs="text",
-    title="Wav2Vec2 Vietnamese STT",
-    description="Nhận dạng giọng nói tiếng Việt bằng mô hình wav2vec2-base-vietnamese-250h từ VLSP."
 ).launch()

 import gradio as gr
 import torch
+import numpy as np
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 # Load model
+processor = Wav2Vec2Processor.from_pretrained("FPTAI/vietnamese-wav2vec2-base")
+model = Wav2Vec2ForCTC.from_pretrained("FPTAI/vietnamese-wav2vec2-base")
 def transcribe(audio):
+    if audio is None:
+        return "Không có âm thanh."
+    # Gradio trả về (sample_rate, numpy_array)
+    sample_rate, audio_data = audio
+    if sample_rate != 16000:
+        return f"Sample rate đang là {sample_rate}Hz. Vui lòng nói lại sau khi chọn 16kHz."
+    # Chuyển sang tensor
+    inputs = processor(audio_data, sampling_rate=16000, return_tensors="pt", padding=True)
     with torch.no_grad():
         logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
 # Gradio UI
 gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(sources=["microphone"], type="numpy", label="Ghi âm từ micro (16kHz mono)"),
     outputs="text",
+    title="STT Tiếng Việt với Wav2Vec2",
+    description="Ghi âm và nhận dạng giọng nói tiếng Việt bằng mô hình FPTAI/wav2vec2-base"
 ).launch()