lmmy commited on Sep 15

Commit

2ef7c9f

verified ·

1 Parent(s): 78f058f

Add files using upload-large-folder tool

Browse files

Files changed (23) hide show

.gitattributes +1 -0
README.md +28 -0
added_tokens.json +28 -0
chat_template.jinja +86 -0
config.json +821 -0
generation_config.json +13 -0
merges.txt +0 -0
model-00001-of-00011.safetensors +3 -0
model-00002-of-00011.safetensors +3 -0
model-00003-of-00011.safetensors +3 -0
model-00004-of-00011.safetensors +3 -0
model-00005-of-00011.safetensors +3 -0
model-00006-of-00011.safetensors +3 -0
model-00007-of-00011.safetensors +3 -0
model-00008-of-00011.safetensors +3 -0
model-00009-of-00011.safetensors +3 -0
model-00010-of-00011.safetensors +3 -0
model-00011-of-00011.safetensors +3 -0
model.safetensors.index.json +0 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,28 @@

+---
+library_name: transformers
+license: apache-2.0
+license_link: https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct/blob/main/LICENSE
+pipeline_tag: text-generation
+tags:
+- mlx
+base_model: Qwen/Qwen3-Next-80B-A3B-Instruct
+---
+## 💫 Community Model> Qwen3-Next-80B-A3B-Instruct by Qwen
+_👾 [LM Studio](https://lmstudio.ai) Community models highlights program. Highlighting new & noteworthy models by the community. Join the conversation on [Discord](https://discord.gg/aPQfnNkxGC)_.
+**Model creator**: [Qwen](https://huggingface.co/Qwen)<br>
+**Original model**: [Qwen3-Next-80B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct)<br>
+**MLX quantization**: provided by [LM Studio team](https://x.com/lmstudio) using [mlx_lm](https://github.com/ml-explore/mlx-lm)<br>
+## Technical Details
+5-bit quantized version of Qwen3-Next-80B-A3B-Instruct using MLX, optimized for Apple Silicon.
+## Special thanks
+🙏 Special thanks to the [Apple Machine Learning Research](https://github.com/ml-explore) team for creating [MLX](https://github.com/ml-explore/mlx).
+## Disclaimers
+LM Studio is not the creator, originator, or owner of any Model featured in the Community Model Program. Each Community Model is created and provided by third parties. LM Studio does not endorse, support, represent or guarantee the completeness, truthfulness, accuracy, or reliability of any Community Model. You understand that Community Models can produce content that might be offensive, harmful, inaccurate or otherwise inappropriate, or deceptive. Each Community Model is the sole responsibility of the person or entity who originated such Model. LM Studio may not monitor or control the Community Models and cannot, and does not, take responsibility for any such Model. LM Studio disclaims all warranties or guarantees about the accuracy, reliability or benefits of the Community Models. LM Studio further disclaims any warranty that the Community Model will meet your requirements, be secure, uninterrupted or available at any time or location, or error-free, viruses-free, or that any errors will be corrected, or otherwise. You will be solely responsible for any damage resulting from your use of or access to the Community Models, your downloading of any Community Model, or use of any other Community Model provided by or through LM Studio.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,86 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,821 @@

+{
+    "architectures": [
+        "Qwen3NextForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "decoder_sparse_step": 1,
+    "eos_token_id": 151645,
+    "full_attention_interval": 4,
+    "head_dim": 256,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 5120,
+    "linear_conv_kernel_dim": 4,
+    "linear_key_head_dim": 128,
+    "linear_num_key_heads": 16,
+    "linear_num_value_heads": 32,
+    "linear_value_head_dim": 128,
+    "max_position_embeddings": 262144,
+    "mlp_only_layers": [],
+    "model_type": "qwen3_next",
+    "moe_intermediate_size": 512,
+    "norm_topk_prob": true,
+    "num_attention_heads": 16,
+    "num_experts": 512,
+    "num_experts_per_tok": 10,
+    "num_hidden_layers": 48,
+    "num_key_value_heads": 2,
+    "output_router_logits": false,
+    "partial_rotary_factor": 0.25,
+    "quantization": {
+        "group_size": 64,
+        "bits": 5,
+        "mode": "affine",
+        "model.layers.0.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.0.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.1.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.1.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.2.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.2.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.3.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.3.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.4.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.4.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.5.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.5.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.6.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.6.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.7.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.7.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.8.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.8.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.9.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.9.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.10.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.10.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.11.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.11.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.12.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.12.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.13.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.13.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.14.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.14.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.15.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.15.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.16.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.16.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.17.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.17.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.18.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.18.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.19.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.19.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.20.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.20.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.21.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.21.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.22.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.22.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.23.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.23.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.24.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.24.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.25.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.25.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.26.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.26.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.27.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.27.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.28.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.28.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.29.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.29.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.30.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.30.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.31.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.31.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.32.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.32.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.33.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.33.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.34.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.34.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.35.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.35.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.36.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.36.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.37.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.37.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.38.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.38.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.39.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.39.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.40.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.40.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.41.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.41.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.42.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.42.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.43.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.43.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.44.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.44.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.45.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.45.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.46.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.46.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.47.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.47.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        }
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 5,
+        "mode": "affine",
+        "model.layers.0.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.0.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.1.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.1.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.2.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.2.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.3.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.3.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.4.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.4.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.5.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.5.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.6.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.6.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.7.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.7.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.8.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.8.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.9.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.9.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.10.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.10.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.11.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.11.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.12.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.12.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.13.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.13.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.14.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.14.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.15.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.15.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.16.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.16.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.17.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.17.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.18.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.18.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.19.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.19.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.20.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.20.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.21.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.21.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.22.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.22.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.23.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.23.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.24.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.24.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.25.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.25.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.26.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.26.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.27.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.27.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.28.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.28.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.29.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.29.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.30.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.30.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.31.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.31.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.32.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.32.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.33.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.33.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.34.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.34.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.35.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.35.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.36.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.36.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.37.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.37.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.38.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.38.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.39.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.39.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.40.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.40.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.41.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.41.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.42.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.42.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.43.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.43.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.44.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.44.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.45.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.45.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.46.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.46.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.47.mlp.gate": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.47.mlp.shared_expert_gate": {
+            "group_size": 64,
+            "bits": 8
+        }
+    },
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 10000000,
+    "router_aux_loss_coef": 0.001,
+    "shared_expert_intermediate_size": 512,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.57.0.dev0",
+    "use_cache": true,
+    "use_sliding_window": false,
+    "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+      151645,
+      151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.57.0.dev0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:190d929aa68634668aafc855295940a8fce3f593852226ac679cc4659bd26c39
+size 5138145185

model-00002-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fcfe105bc2558d2d684e8046d083e4047df129b148da3e12caf3099585988a9
+size 5295484498

model-00003-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e11a2064d9d3877a4144ca20435f2863f78c4cce71dba0803867e58b28c5ebf4
+size 5268969275

model-00004-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdac2c0df1bd4677bdd1a3fafa72d48e179b0abce1c98cfebf4692c9b8b2e7d0
+size 5295484681

model-00005-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67b05769a6ba2a22b326b7ef7bc438e29af32de9c1e5a919e2394f324fe80ed0
+size 5291004293

model-00006-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f57608f42405d357f2bc6b92f760e52b240cd539fa3a4bc3057c0de9db5cd7a
+size 5268969280

model-00007-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:495eb1215f90b033a030ec71873d94177f88840b116c68259718ad18cab51d0a
+size 5295484759

model-00008-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39fd7f9f2ce1f7f7e8d23facefdd75c510f457495028a4445b681eef51018710
+size 5295484631

model-00009-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6936e391b2d0b3598672eaca70e59f4f322f4d320c51db3ad837d38a3327963
+size 5268969280

model-00010-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f388431933623429b622308fd858c481102bcfa4847e6f74e5b03b7909e81785
+size 5295484657

model-00011-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75b54c0e6ea0e4192e0e0d2a50176a957233bc40af7def76f5517cf15cefc6b4
+size 2083627441

model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 1010000,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if message.content is string %}\n        {%- set content = message.content %}\n    {%- else %}\n        {%- set content = '' %}\n    {%- endif %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff