Spaces:
Paused
Paused
File size: 519 Bytes
c69c2f9 b8e326d c69c2f9 b8e326d c69c2f9 b8e326d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
# utils.py
import re
from typing import List
def tokenize_vi_simple(text: str) -> List[str]:
"""
Tokenize tiếng Việt một cách đơn giản cho các tác vụ như BM25.
Chuyển thành chữ thường, loại bỏ dấu câu cơ bản và tách theo khoảng trắng.
"""
if not isinstance(text, str):
return []
text = text.lower()
# Loại bỏ các ký tự không phải chữ, số, hoặc khoảng trắng
text = re.sub(r'[^\w\s]', '', text)
return text.split() |