File size: 519 Bytes
c69c2f9
 
 
 
 
 
 
b8e326d
 
c69c2f9
 
 
 
b8e326d
c69c2f9
b8e326d
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# utils.py

import re
from typing import List

def tokenize_vi_simple(text: str) -> List[str]:
    """
    Tokenize tiếng Việt một cách đơn giản cho các tác vụ như BM25.
    Chuyển thành chữ thường, loại bỏ dấu câu cơ bản và tách theo khoảng trắng.
    """
    if not isinstance(text, str):
        return []
    text = text.lower()
    # Loại bỏ các ký tự không phải chữ, số, hoặc khoảng trắng
    text = re.sub(r'[^\w\s]', '', text)
    return text.split()