Tokenizer Pro

Token Visualization

Note: Showing preview of first 8096 characters. Stats are calculated on the full file.

{% if token_data %} {% for token in token_data.tokens %} {{ token.display }} {% if token.newline %}
{% endif %} {% endfor %} {% endif %}

Note: Only showing first 50,000 tokens. Total token count: 0

Total Tokens

{{ token_data.stats.basic_stats.total_tokens if token_data else 0 }}

{{ token_data.stats.basic_stats.unique_tokens if token_data else 0 }} unique ({{ token_data.stats.basic_stats.unique_percentage if token_data else 0 }}%)

Token Types

{{ token_data.stats.basic_stats.special_tokens if token_data else 0 }}

special tokens

Whitespace

{{ token_data.stats.basic_stats.space_tokens if token_data else 0 }}

spaces: {{ token_data.stats.basic_stats.space_tokens if token_data else 0 }}, newlines: {{ token_data.stats.basic_stats.newline_tokens if token_data else 0 }}

Token Length

{{ token_data.stats.length_stats.avg_length if token_data else 0 }}

median: {{ token_data.stats.length_stats.median_length if token_data else 0 }}, ±{{ token_data.stats.length_stats.std_dev if token_data else 0 }} std

Compression

{{ token_data.stats.basic_stats.compression_ratio if token_data else 0 }}

characters per token