Spaces:

vankienemk
/

Voice-regconizer

Running

vankienemk commited on Apr 10

Commit

e387fff

verified ·

1 Parent(s): 1d9d391

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,14 +10,18 @@ model = Wav2Vec2ForCTC.from_pretrained("nguyenvulebinh/wav2vec2-base-vietnamese-
 def transcribe(audio):
     if audio is None:
         return "Không có âm thanh."
-    # Gradio trả về (sample_rate, numpy_array)
     sample_rate, audio_data = audio
-    if sample_rate != 16000:
-        return f"Sample rate đang là {sample_rate}Hz. Vui lòng nói lại sau khi chọn 16kHz."
-    # Chuyển sang tensor
-    inputs = processor(audio_data, sampling_rate=16000, return_tensors="pt", padding=True)
     with torch.no_grad():
         logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)

 def transcribe(audio):
     if audio is None:
         return "Không có âm thanh."
     sample_rate, audio_data = audio
+    target_rate = 16000
+    # Nếu sample rate khác 16kHz thì chuyển về
+    if sample_rate != target_rate:
+        duration = len(audio_data) / sample_rate
+        new_length = int(duration * target_rate)
+        audio_data = resample(audio_data, new_length)
+    # Dự đoán
+    inputs = processor(audio_data, sampling_rate=target_rate, return_tensors="pt", padding=True)
     with torch.no_grad():
         logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)