Sai5480
/

monolingual-tokenizer-iso-guj-vocab-128000

Model card Files Files and versions

monolingual-tokenizer-iso-guj-vocab-128000 / README.md

Sai5480's picture

Add README for guj tokenizer

62b9027 verified about 1 month ago

|

history blame contribute delete

615 Bytes

	---
	license: mit
	tags:
	- tokenizer
	- sentencepiece
	- monolingual
	- guj
	- vocab-128000
	---

	# Monolingual Tokenizer - Gujarati (Vocab 128000)

	This is a monolingual tokenizer trained on Gujarati text with vocabulary size 128000.

	## Usage

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("monolingual-tokenizer-iso-guj-vocab-128000")
	```

	## Files

	- `guj.model`: SentencePiece model file
	- `guj.vocab`: Vocabulary file
	- `config.json`: Tokenizer configuration

	## Training Details

	- Language: Gujarati (guj)
	- Vocabulary Size: 128000
	- Model Type: SentencePiece Unigram