📄

Drop your file here

Analyzing text...
📎

Tokenizer Pro

Advanced tokenization analysis and visualization

Predefined
Custom
ℹ
{{ error }}
Ctrl+Enter

Token Visualization

Note: Showing preview of first 8096 characters. Stats are calculated on the full file.
{% if token_data %} {% for token in token_data.tokens %} {{ token.display }} {% if token.newline %}
{% endif %} {% endfor %} {% endif %}
Note: Only showing first 50,000 tokens. Total token count: 0
Total Tokens
{{ token_data.stats.basic_stats.total_tokens if token_data else 0 }}
{{ token_data.stats.basic_stats.unique_tokens if token_data else 0 }} unique ({{ token_data.stats.basic_stats.unique_percentage if token_data else 0 }}%)
Token Types
{{ token_data.stats.basic_stats.special_tokens if token_data else 0 }}
special tokens
Whitespace
{{ token_data.stats.basic_stats.space_tokens if token_data else 0 }}
spaces: {{ token_data.stats.basic_stats.space_tokens if token_data else 0 }}, newlines: {{ token_data.stats.basic_stats.newline_tokens if token_data else 0 }}
Token Length
{{ token_data.stats.length_stats.avg_length if token_data else 0 }}
median: {{ token_data.stats.length_stats.median_length if token_data else 0 }}, ±{{ token_data.stats.length_stats.std_dev if token_data else 0 }} std
Compression
{{ token_data.stats.basic_stats.compression_ratio if token_data else 0 }}
characters per token
@bartar/tokenizers