Spaces:
Sleeping
Sleeping
# coding: utf8 | |
""" | |
This module provides the functionality to generate tokens (both sentence and word wise) from Urdu text. | |
""" | |
from typing import List | |
from .eos import _generate_sentences | |
def sentence_tokenizer(text: str) -> List[str]: | |
""" | |
Convert ``Urdu`` text into possible sentences. | |
If successful, this function returns a :py:class:`List` object containing multiple urdu :py:class:`String` | |
sentences. | |
Args: | |
text (str): ``Urdu`` text | |
Returns: | |
list: Returns a ``list`` object containing multiple urdu sentences type ``str``. | |
Raises: | |
TypeError: If text is not a str Type | |
Examples: | |
>>> from urduhack.tokenization import sentence_tokenizer | |
>>> text = "عراق اور شام نے اعلان کیا ہے دونوں ممالک جلد اپنے اپنے سفیروں کو واپس بغداد اور دمشق بھیج دیں گے؟" | |
>>> sentences = sentence_tokenizer(text) | |
>>> sentences | |
["دونوں ممالک جلد اپنے اپنے سفیروں کو واپس بغداد اور دمشق بھیج دیں گے؟" ,"عراق اور شام نے اعلان کیا ہے۔"] | |
""" | |
if not isinstance(text, str): | |
raise TypeError("text parameter must be str type.") | |
return _generate_sentences(text) | |