Spaces:
Paused
Paused
# utils.py | |
import re | |
from typing import List | |
def tokenize_vi_simple(text: str) -> List[str]: | |
""" | |
Tokenize tiếng Việt một cách đơn giản cho các tác vụ như BM25. | |
Chuyển thành chữ thường, loại bỏ dấu câu cơ bản và tách theo khoảng trắng. | |
""" | |
if not isinstance(text, str): | |
return [] | |
text = text.lower() | |
# Loại bỏ các ký tự không phải chữ, số, hoặc khoảng trắng | |
text = re.sub(r'[^\w\s]', '', text) | |
return text.split() |