breadlicker45
/

model

Model card Files Files and versions

model / llama /tokenizer.py

breadlicker45's picture

Upload 26 files

fcbe832 about 3 years ago

history blame contribute delete

1.35 kB

	# Copyright (c) Meta Platforms, Inc. and affiliates.
	# This software may be used and distributed according to the terms of the GNU General Public License version 3.

	from sentencepiece import SentencePieceProcessor
	from logging import getLogger
	from typing import List
	import os


	logger = getLogger()


	class Tokenizer:
	def __init__(self, model_path: str):
	# reload tokenizer
	assert os.path.isfile(model_path), model_path
	self.sp_model = SentencePieceProcessor(model_file=model_path)
	logger.info(f"Reloaded SentencePiece model from {model_path}")

	# BOS / EOS token IDs
	self.n_words: int = self.sp_model.vocab_size()
	self.bos_id: int = self.sp_model.bos_id()
	self.eos_id: int = self.sp_model.eos_id()
	self.pad_id: int = self.sp_model.pad_id()
	logger.info(
	f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
	)
	assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()

	def encode(self, s: str, bos: bool, eos: bool) -> List[int]:
	assert type(s) is str
	t = self.sp_model.encode(s)
	if bos:
	t = [self.bos_id] + t
	if eos:
	t = t + [self.eos_id]
	return t

	def decode(self, t: List[int]) -> str:
	return self.sp_model.decode(t)