model: add config and update index

Browse files

Files changed (7) hide show

config.json +27 -0
generate_index.py +46 -0
generation_config.json +14 -0
model.safetensors.index.json +250 -2
tokenizer.json +0 -0
tokenizer_config.json +40 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 8192,
+  "initializer_range": 0.02,
+  "intermediate_size": 29568,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 80,
+  "model_type": "qwen2",
+  "num_attention_heads": 64,
+  "num_hidden_layers": 80,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generate_index.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import os
+import json
+from safetensors import safe_open
+import torch
+from typing import Dict
+def generate_index(directory: str) -> Dict:
+    index = {
+        "metadata": {"total_size": 0},
+        "weight_map": {}
+    }
+    safetensors_files = [f for f in os.listdir(directory) if f.endswith('.safetensors')]
+    safetensors_files.sort()  # Ensure consistent ordering
+    for filename in safetensors_files:
+        filepath = os.path.join(directory, filename)
+        try:
+            with safe_open(filepath, framework="pt") as f:
+                for key in f.keys():
+                    if key in index["weight_map"]:
+                        print(f"Warning: Duplicate key '{key}' found in {filename}. Using the last occurrence.")
+                    index["weight_map"][key] = filename
+                    tensor = f.get_tensor(key)
+                    tensor_size = tensor.numel() * tensor.element_size()
+                    index["metadata"]["total_size"] += tensor_size
+        except Exception as e:
+            print(f"Error processing {filename}: {str(e)}")
+    return index
+def save_index(index: Dict, output_file: str):
+    with open(output_file, 'w') as f:
+        json.dump(index, f, indent=2)
+if __name__ == "__main__":
+    current_dir = os.getcwd()
+    output_file = "model.safetensors.index.json"
+    index = generate_index(current_dir)
+    save_index(index, output_file)
+    print(f"Index generated with {len(index['weight_map'])} tensors.")
+    print(f"Total size: {index['metadata']['total_size']} bytes")
+    print(f"Index saved to {output_file}")

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "pad_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_p": 0.8,
+  "top_k": 20,
+  "transformers_version": "4.37.0"
+}

model.safetensors.index.json CHANGED Viewed

@@ -1,8 +1,10 @@
 {
   "metadata": {
-    "total_size": 103868809216
   },
   "weight_map": {
     "model.layers.0.input_layernorm.weight": "model_layers_0_input_layernorm_weight.safetensors",
     "model.layers.0.mlp.down_proj.weight": "model_layers_0_mlp_down_proj_weight.safetensors",
     "model.layers.0.mlp.gate_proj.weight": "model_layers_0_mlp_gate_proj_weight.safetensors",
@@ -651,6 +653,11 @@
     "model.layers.58.self_attn.q_proj.weight": "model_layers_58_self_attn_q_proj_weight.safetensors",
     "model.layers.58.self_attn.v_proj.bias": "model_layers_58_self_attn_v_proj_bias.safetensors",
     "model.layers.58.self_attn.v_proj.weight": "model_layers_58_self_attn_v_proj_weight.safetensors",
     "model.layers.59.self_attn.k_proj.bias": "model_layers_59_self_attn_k_proj_bias.safetensors",
     "model.layers.59.self_attn.k_proj.weight": "model_layers_59_self_attn_k_proj_weight.safetensors",
     "model.layers.59.self_attn.o_proj.weight": "model_layers_59_self_attn_o_proj_weight.safetensors",
@@ -670,6 +677,126 @@
     "model.layers.5.self_attn.q_proj.weight": "model_layers_5_self_attn_q_proj_weight.safetensors",
     "model.layers.5.self_attn.v_proj.bias": "model_layers_5_self_attn_v_proj_bias.safetensors",
     "model.layers.5.self_attn.v_proj.weight": "model_layers_5_self_attn_v_proj_weight.safetensors",
     "model.layers.6.input_layernorm.weight": "model_layers_6_input_layernorm_weight.safetensors",
     "model.layers.6.mlp.down_proj.weight": "model_layers_6_mlp_down_proj_weight.safetensors",
     "model.layers.6.mlp.gate_proj.weight": "model_layers_6_mlp_gate_proj_weight.safetensors",
@@ -682,6 +809,126 @@
     "model.layers.6.self_attn.q_proj.weight": "model_layers_6_self_attn_q_proj_weight.safetensors",
     "model.layers.6.self_attn.v_proj.bias": "model_layers_6_self_attn_v_proj_bias.safetensors",
     "model.layers.6.self_attn.v_proj.weight": "model_layers_6_self_attn_v_proj_weight.safetensors",
     "model.layers.7.input_layernorm.weight": "model_layers_7_input_layernorm_weight.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model_layers_7_mlp_down_proj_weight.safetensors",
     "model.layers.7.mlp.gate_proj.weight": "model_layers_7_mlp_gate_proj_weight.safetensors",
@@ -717,6 +964,7 @@
     "model.layers.9.self_attn.q_proj.bias": "model_layers_9_self_attn_q_proj_bias.safetensors",
     "model.layers.9.self_attn.q_proj.weight": "model_layers_9_self_attn_q_proj_weight.safetensors",
     "model.layers.9.self_attn.v_proj.bias": "model_layers_9_self_attn_v_proj_bias.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model_layers_9_self_attn_v_proj_weight.safetensors"
   }
 }

 {
   "metadata": {
+    "total_size": 145412407296
   },
   "weight_map": {
+    "lm_head.weight": "model-00031-of-00031.safetensors",
+    "model.embed_tokens.weight": "model_embed_tokens_weight.safetensors",
     "model.layers.0.input_layernorm.weight": "model_layers_0_input_layernorm_weight.safetensors",
     "model.layers.0.mlp.down_proj.weight": "model_layers_0_mlp_down_proj_weight.safetensors",
     "model.layers.0.mlp.gate_proj.weight": "model_layers_0_mlp_gate_proj_weight.safetensors",
     "model.layers.58.self_attn.q_proj.weight": "model_layers_58_self_attn_q_proj_weight.safetensors",
     "model.layers.58.self_attn.v_proj.bias": "model_layers_58_self_attn_v_proj_bias.safetensors",
     "model.layers.58.self_attn.v_proj.weight": "model_layers_58_self_attn_v_proj_weight.safetensors",
+    "model.layers.59.input_layernorm.weight": "model_layers_59_input_layernorm_weight.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model_layers_59_mlp_down_proj_weight.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model_layers_59_mlp_gate_proj_weight.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model_layers_59_mlp_up_proj_weight.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model_layers_59_post_attention_layernorm_weight.safetensors",
     "model.layers.59.self_attn.k_proj.bias": "model_layers_59_self_attn_k_proj_bias.safetensors",
     "model.layers.59.self_attn.k_proj.weight": "model_layers_59_self_attn_k_proj_weight.safetensors",
     "model.layers.59.self_attn.o_proj.weight": "model_layers_59_self_attn_o_proj_weight.safetensors",
     "model.layers.5.self_attn.q_proj.weight": "model_layers_5_self_attn_q_proj_weight.safetensors",
     "model.layers.5.self_attn.v_proj.bias": "model_layers_5_self_attn_v_proj_bias.safetensors",
     "model.layers.5.self_attn.v_proj.weight": "model_layers_5_self_attn_v_proj_weight.safetensors",
+    "model.layers.60.input_layernorm.weight": "model_layers_60_input_layernorm_weight.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model_layers_60_mlp_down_proj_weight.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model_layers_60_mlp_gate_proj_weight.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model_layers_60_mlp_up_proj_weight.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model_layers_60_post_attention_layernorm_weight.safetensors",
+    "model.layers.60.self_attn.k_proj.bias": "model_layers_60_self_attn_k_proj_bias.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model_layers_60_self_attn_k_proj_weight.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model_layers_60_self_attn_o_proj_weight.safetensors",
+    "model.layers.60.self_attn.q_proj.bias": "model_layers_60_self_attn_q_proj_bias.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model_layers_60_self_attn_q_proj_weight.safetensors",
+    "model.layers.60.self_attn.v_proj.bias": "model_layers_60_self_attn_v_proj_bias.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model_layers_60_self_attn_v_proj_weight.safetensors",
+    "model.layers.61.input_layernorm.weight": "model_layers_61_input_layernorm_weight.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model_layers_61_mlp_down_proj_weight.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model_layers_61_mlp_gate_proj_weight.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model_layers_61_mlp_up_proj_weight.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model_layers_61_post_attention_layernorm_weight.safetensors",
+    "model.layers.61.self_attn.k_proj.bias": "model_layers_61_self_attn_k_proj_bias.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model_layers_61_self_attn_k_proj_weight.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model_layers_61_self_attn_o_proj_weight.safetensors",
+    "model.layers.61.self_attn.q_proj.bias": "model_layers_61_self_attn_q_proj_bias.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model_layers_61_self_attn_q_proj_weight.safetensors",
+    "model.layers.61.self_attn.v_proj.bias": "model_layers_61_self_attn_v_proj_bias.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model_layers_61_self_attn_v_proj_weight.safetensors",
+    "model.layers.62.input_layernorm.weight": "model_layers_62_input_layernorm_weight.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model_layers_62_mlp_down_proj_weight.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model_layers_62_mlp_gate_proj_weight.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model_layers_62_mlp_up_proj_weight.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model_layers_62_post_attention_layernorm_weight.safetensors",
+    "model.layers.62.self_attn.k_proj.bias": "model_layers_62_self_attn_k_proj_bias.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model_layers_62_self_attn_k_proj_weight.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model_layers_62_self_attn_o_proj_weight.safetensors",
+    "model.layers.62.self_attn.q_proj.bias": "model_layers_62_self_attn_q_proj_bias.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model_layers_62_self_attn_q_proj_weight.safetensors",
+    "model.layers.62.self_attn.v_proj.bias": "model_layers_62_self_attn_v_proj_bias.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model_layers_62_self_attn_v_proj_weight.safetensors",
+    "model.layers.63.input_layernorm.weight": "model_layers_63_input_layernorm_weight.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model_layers_63_mlp_down_proj_weight.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model_layers_63_mlp_gate_proj_weight.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model_layers_63_mlp_up_proj_weight.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model_layers_63_post_attention_layernorm_weight.safetensors",
+    "model.layers.63.self_attn.k_proj.bias": "model_layers_63_self_attn_k_proj_bias.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model_layers_63_self_attn_k_proj_weight.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model_layers_63_self_attn_o_proj_weight.safetensors",
+    "model.layers.63.self_attn.q_proj.bias": "model_layers_63_self_attn_q_proj_bias.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model_layers_63_self_attn_q_proj_weight.safetensors",
+    "model.layers.63.self_attn.v_proj.bias": "model_layers_63_self_attn_v_proj_bias.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model_layers_63_self_attn_v_proj_weight.safetensors",
+    "model.layers.64.input_layernorm.weight": "model_layers_64_input_layernorm_weight.safetensors",
+    "model.layers.64.mlp.down_proj.weight": "model_layers_64_mlp_down_proj_weight.safetensors",
+    "model.layers.64.mlp.gate_proj.weight": "model_layers_64_mlp_gate_proj_weight.safetensors",
+    "model.layers.64.mlp.up_proj.weight": "model_layers_64_mlp_up_proj_weight.safetensors",
+    "model.layers.64.post_attention_layernorm.weight": "model_layers_64_post_attention_layernorm_weight.safetensors",
+    "model.layers.64.self_attn.k_proj.bias": "model_layers_64_self_attn_k_proj_bias.safetensors",
+    "model.layers.64.self_attn.k_proj.weight": "model_layers_64_self_attn_k_proj_weight.safetensors",
+    "model.layers.64.self_attn.o_proj.weight": "model_layers_64_self_attn_o_proj_weight.safetensors",
+    "model.layers.64.self_attn.q_proj.bias": "model_layers_64_self_attn_q_proj_bias.safetensors",
+    "model.layers.64.self_attn.q_proj.weight": "model_layers_64_self_attn_q_proj_weight.safetensors",
+    "model.layers.64.self_attn.v_proj.bias": "model_layers_64_self_attn_v_proj_bias.safetensors",
+    "model.layers.64.self_attn.v_proj.weight": "model_layers_64_self_attn_v_proj_weight.safetensors",
+    "model.layers.65.input_layernorm.weight": "model_layers_65_input_layernorm_weight.safetensors",
+    "model.layers.65.mlp.down_proj.weight": "model_layers_65_mlp_down_proj_weight.safetensors",
+    "model.layers.65.mlp.gate_proj.weight": "model_layers_65_mlp_gate_proj_weight.safetensors",
+    "model.layers.65.mlp.up_proj.weight": "model_layers_65_mlp_up_proj_weight.safetensors",
+    "model.layers.65.post_attention_layernorm.weight": "model_layers_65_post_attention_layernorm_weight.safetensors",
+    "model.layers.65.self_attn.k_proj.bias": "model_layers_65_self_attn_k_proj_bias.safetensors",
+    "model.layers.65.self_attn.k_proj.weight": "model_layers_65_self_attn_k_proj_weight.safetensors",
+    "model.layers.65.self_attn.o_proj.weight": "model_layers_65_self_attn_o_proj_weight.safetensors",
+    "model.layers.65.self_attn.q_proj.bias": "model_layers_65_self_attn_q_proj_bias.safetensors",
+    "model.layers.65.self_attn.q_proj.weight": "model_layers_65_self_attn_q_proj_weight.safetensors",
+    "model.layers.65.self_attn.v_proj.bias": "model_layers_65_self_attn_v_proj_bias.safetensors",
+    "model.layers.65.self_attn.v_proj.weight": "model_layers_65_self_attn_v_proj_weight.safetensors",
+    "model.layers.66.input_layernorm.weight": "model_layers_66_input_layernorm_weight.safetensors",
+    "model.layers.66.mlp.down_proj.weight": "model_layers_66_mlp_down_proj_weight.safetensors",
+    "model.layers.66.mlp.gate_proj.weight": "model_layers_66_mlp_gate_proj_weight.safetensors",
+    "model.layers.66.mlp.up_proj.weight": "model_layers_66_mlp_up_proj_weight.safetensors",
+    "model.layers.66.post_attention_layernorm.weight": "model_layers_66_post_attention_layernorm_weight.safetensors",
+    "model.layers.66.self_attn.k_proj.bias": "model_layers_66_self_attn_k_proj_bias.safetensors",
+    "model.layers.66.self_attn.k_proj.weight": "model_layers_66_self_attn_k_proj_weight.safetensors",
+    "model.layers.66.self_attn.o_proj.weight": "model_layers_66_self_attn_o_proj_weight.safetensors",
+    "model.layers.66.self_attn.q_proj.bias": "model_layers_66_self_attn_q_proj_bias.safetensors",
+    "model.layers.66.self_attn.q_proj.weight": "model_layers_66_self_attn_q_proj_weight.safetensors",
+    "model.layers.66.self_attn.v_proj.bias": "model_layers_66_self_attn_v_proj_bias.safetensors",
+    "model.layers.66.self_attn.v_proj.weight": "model_layers_66_self_attn_v_proj_weight.safetensors",
+    "model.layers.67.input_layernorm.weight": "model_layers_67_input_layernorm_weight.safetensors",
+    "model.layers.67.mlp.down_proj.weight": "model_layers_67_mlp_down_proj_weight.safetensors",
+    "model.layers.67.mlp.gate_proj.weight": "model_layers_67_mlp_gate_proj_weight.safetensors",
+    "model.layers.67.mlp.up_proj.weight": "model_layers_67_mlp_up_proj_weight.safetensors",
+    "model.layers.67.post_attention_layernorm.weight": "model_layers_67_post_attention_layernorm_weight.safetensors",
+    "model.layers.67.self_attn.k_proj.bias": "model_layers_67_self_attn_k_proj_bias.safetensors",
+    "model.layers.67.self_attn.k_proj.weight": "model_layers_67_self_attn_k_proj_weight.safetensors",
+    "model.layers.67.self_attn.o_proj.weight": "model_layers_67_self_attn_o_proj_weight.safetensors",
+    "model.layers.67.self_attn.q_proj.bias": "model_layers_67_self_attn_q_proj_bias.safetensors",
+    "model.layers.67.self_attn.q_proj.weight": "model_layers_67_self_attn_q_proj_weight.safetensors",
+    "model.layers.67.self_attn.v_proj.bias": "model_layers_67_self_attn_v_proj_bias.safetensors",
+    "model.layers.67.self_attn.v_proj.weight": "model_layers_67_self_attn_v_proj_weight.safetensors",
+    "model.layers.68.input_layernorm.weight": "model_layers_68_input_layernorm_weight.safetensors",
+    "model.layers.68.mlp.down_proj.weight": "model_layers_68_mlp_down_proj_weight.safetensors",
+    "model.layers.68.mlp.gate_proj.weight": "model_layers_68_mlp_gate_proj_weight.safetensors",
+    "model.layers.68.mlp.up_proj.weight": "model_layers_68_mlp_up_proj_weight.safetensors",
+    "model.layers.68.post_attention_layernorm.weight": "model_layers_68_post_attention_layernorm_weight.safetensors",
+    "model.layers.68.self_attn.k_proj.bias": "model_layers_68_self_attn_k_proj_bias.safetensors",
+    "model.layers.68.self_attn.k_proj.weight": "model_layers_68_self_attn_k_proj_weight.safetensors",
+    "model.layers.68.self_attn.o_proj.weight": "model_layers_68_self_attn_o_proj_weight.safetensors",
+    "model.layers.68.self_attn.q_proj.bias": "model_layers_68_self_attn_q_proj_bias.safetensors",
+    "model.layers.68.self_attn.q_proj.weight": "model_layers_68_self_attn_q_proj_weight.safetensors",
+    "model.layers.68.self_attn.v_proj.bias": "model_layers_68_self_attn_v_proj_bias.safetensors",
+    "model.layers.68.self_attn.v_proj.weight": "model_layers_68_self_attn_v_proj_weight.safetensors",
+    "model.layers.69.input_layernorm.weight": "model_layers_69_input_layernorm_weight.safetensors",
+    "model.layers.69.mlp.down_proj.weight": "model_layers_69_mlp_down_proj_weight.safetensors",
+    "model.layers.69.mlp.gate_proj.weight": "model_layers_69_mlp_gate_proj_weight.safetensors",
+    "model.layers.69.mlp.up_proj.weight": "model_layers_69_mlp_up_proj_weight.safetensors",
+    "model.layers.69.post_attention_layernorm.weight": "model_layers_69_post_attention_layernorm_weight.safetensors",
+    "model.layers.69.self_attn.k_proj.bias": "model_layers_69_self_attn_k_proj_bias.safetensors",
+    "model.layers.69.self_attn.k_proj.weight": "model_layers_69_self_attn_k_proj_weight.safetensors",
+    "model.layers.69.self_attn.o_proj.weight": "model_layers_69_self_attn_o_proj_weight.safetensors",
+    "model.layers.69.self_attn.q_proj.bias": "model_layers_69_self_attn_q_proj_bias.safetensors",
+    "model.layers.69.self_attn.q_proj.weight": "model_layers_69_self_attn_q_proj_weight.safetensors",
+    "model.layers.69.self_attn.v_proj.bias": "model_layers_69_self_attn_v_proj_bias.safetensors",
+    "model.layers.69.self_attn.v_proj.weight": "model_layers_69_self_attn_v_proj_weight.safetensors",
     "model.layers.6.input_layernorm.weight": "model_layers_6_input_layernorm_weight.safetensors",
     "model.layers.6.mlp.down_proj.weight": "model_layers_6_mlp_down_proj_weight.safetensors",
     "model.layers.6.mlp.gate_proj.weight": "model_layers_6_mlp_gate_proj_weight.safetensors",
     "model.layers.6.self_attn.q_proj.weight": "model_layers_6_self_attn_q_proj_weight.safetensors",
     "model.layers.6.self_attn.v_proj.bias": "model_layers_6_self_attn_v_proj_bias.safetensors",
     "model.layers.6.self_attn.v_proj.weight": "model_layers_6_self_attn_v_proj_weight.safetensors",
+    "model.layers.70.input_layernorm.weight": "model_layers_70_input_layernorm_weight.safetensors",
+    "model.layers.70.mlp.down_proj.weight": "model_layers_70_mlp_down_proj_weight.safetensors",
+    "model.layers.70.mlp.gate_proj.weight": "model_layers_70_mlp_gate_proj_weight.safetensors",
+    "model.layers.70.mlp.up_proj.weight": "model_layers_70_mlp_up_proj_weight.safetensors",
+    "model.layers.70.post_attention_layernorm.weight": "model_layers_70_post_attention_layernorm_weight.safetensors",
+    "model.layers.70.self_attn.k_proj.bias": "model_layers_70_self_attn_k_proj_bias.safetensors",
+    "model.layers.70.self_attn.k_proj.weight": "model_layers_70_self_attn_k_proj_weight.safetensors",
+    "model.layers.70.self_attn.o_proj.weight": "model_layers_70_self_attn_o_proj_weight.safetensors",
+    "model.layers.70.self_attn.q_proj.bias": "model_layers_70_self_attn_q_proj_bias.safetensors",
+    "model.layers.70.self_attn.q_proj.weight": "model_layers_70_self_attn_q_proj_weight.safetensors",
+    "model.layers.70.self_attn.v_proj.bias": "model_layers_70_self_attn_v_proj_bias.safetensors",
+    "model.layers.70.self_attn.v_proj.weight": "model_layers_70_self_attn_v_proj_weight.safetensors",
+    "model.layers.71.input_layernorm.weight": "model_layers_71_input_layernorm_weight.safetensors",
+    "model.layers.71.mlp.down_proj.weight": "model_layers_71_mlp_down_proj_weight.safetensors",
+    "model.layers.71.mlp.gate_proj.weight": "model_layers_71_mlp_gate_proj_weight.safetensors",
+    "model.layers.71.mlp.up_proj.weight": "model_layers_71_mlp_up_proj_weight.safetensors",
+    "model.layers.71.post_attention_layernorm.weight": "model_layers_71_post_attention_layernorm_weight.safetensors",
+    "model.layers.71.self_attn.k_proj.bias": "model_layers_71_self_attn_k_proj_bias.safetensors",
+    "model.layers.71.self_attn.k_proj.weight": "model_layers_71_self_attn_k_proj_weight.safetensors",
+    "model.layers.71.self_attn.o_proj.weight": "model_layers_71_self_attn_o_proj_weight.safetensors",
+    "model.layers.71.self_attn.q_proj.bias": "model_layers_71_self_attn_q_proj_bias.safetensors",
+    "model.layers.71.self_attn.q_proj.weight": "model_layers_71_self_attn_q_proj_weight.safetensors",
+    "model.layers.71.self_attn.v_proj.bias": "model_layers_71_self_attn_v_proj_bias.safetensors",
+    "model.layers.71.self_attn.v_proj.weight": "model_layers_71_self_attn_v_proj_weight.safetensors",
+    "model.layers.72.input_layernorm.weight": "model_layers_72_input_layernorm_weight.safetensors",
+    "model.layers.72.mlp.down_proj.weight": "model_layers_72_mlp_down_proj_weight.safetensors",
+    "model.layers.72.mlp.gate_proj.weight": "model_layers_72_mlp_gate_proj_weight.safetensors",
+    "model.layers.72.mlp.up_proj.weight": "model_layers_72_mlp_up_proj_weight.safetensors",
+    "model.layers.72.post_attention_layernorm.weight": "model_layers_72_post_attention_layernorm_weight.safetensors",
+    "model.layers.72.self_attn.k_proj.bias": "model_layers_72_self_attn_k_proj_bias.safetensors",
+    "model.layers.72.self_attn.k_proj.weight": "model_layers_72_self_attn_k_proj_weight.safetensors",
+    "model.layers.72.self_attn.o_proj.weight": "model_layers_72_self_attn_o_proj_weight.safetensors",
+    "model.layers.72.self_attn.q_proj.bias": "model_layers_72_self_attn_q_proj_bias.safetensors",
+    "model.layers.72.self_attn.q_proj.weight": "model_layers_72_self_attn_q_proj_weight.safetensors",
+    "model.layers.72.self_attn.v_proj.bias": "model_layers_72_self_attn_v_proj_bias.safetensors",
+    "model.layers.72.self_attn.v_proj.weight": "model_layers_72_self_attn_v_proj_weight.safetensors",
+    "model.layers.73.input_layernorm.weight": "model_layers_73_input_layernorm_weight.safetensors",
+    "model.layers.73.mlp.down_proj.weight": "model_layers_73_mlp_down_proj_weight.safetensors",
+    "model.layers.73.mlp.gate_proj.weight": "model_layers_73_mlp_gate_proj_weight.safetensors",
+    "model.layers.73.mlp.up_proj.weight": "model_layers_73_mlp_up_proj_weight.safetensors",
+    "model.layers.73.post_attention_layernorm.weight": "model_layers_73_post_attention_layernorm_weight.safetensors",
+    "model.layers.73.self_attn.k_proj.bias": "model_layers_73_self_attn_k_proj_bias.safetensors",
+    "model.layers.73.self_attn.k_proj.weight": "model_layers_73_self_attn_k_proj_weight.safetensors",
+    "model.layers.73.self_attn.o_proj.weight": "model_layers_73_self_attn_o_proj_weight.safetensors",
+    "model.layers.73.self_attn.q_proj.bias": "model_layers_73_self_attn_q_proj_bias.safetensors",
+    "model.layers.73.self_attn.q_proj.weight": "model_layers_73_self_attn_q_proj_weight.safetensors",
+    "model.layers.73.self_attn.v_proj.bias": "model_layers_73_self_attn_v_proj_bias.safetensors",
+    "model.layers.73.self_attn.v_proj.weight": "model_layers_73_self_attn_v_proj_weight.safetensors",
+    "model.layers.74.input_layernorm.weight": "model_layers_74_input_layernorm_weight.safetensors",
+    "model.layers.74.mlp.down_proj.weight": "model_layers_74_mlp_down_proj_weight.safetensors",
+    "model.layers.74.mlp.gate_proj.weight": "model_layers_74_mlp_gate_proj_weight.safetensors",
+    "model.layers.74.mlp.up_proj.weight": "model_layers_74_mlp_up_proj_weight.safetensors",
+    "model.layers.74.post_attention_layernorm.weight": "model_layers_74_post_attention_layernorm_weight.safetensors",
+    "model.layers.74.self_attn.k_proj.bias": "model_layers_74_self_attn_k_proj_bias.safetensors",
+    "model.layers.74.self_attn.k_proj.weight": "model_layers_74_self_attn_k_proj_weight.safetensors",
+    "model.layers.74.self_attn.o_proj.weight": "model_layers_74_self_attn_o_proj_weight.safetensors",
+    "model.layers.74.self_attn.q_proj.bias": "model_layers_74_self_attn_q_proj_bias.safetensors",
+    "model.layers.74.self_attn.q_proj.weight": "model_layers_74_self_attn_q_proj_weight.safetensors",
+    "model.layers.74.self_attn.v_proj.bias": "model_layers_74_self_attn_v_proj_bias.safetensors",
+    "model.layers.74.self_attn.v_proj.weight": "model_layers_74_self_attn_v_proj_weight.safetensors",
+    "model.layers.75.input_layernorm.weight": "model_layers_75_input_layernorm_weight.safetensors",
+    "model.layers.75.mlp.down_proj.weight": "model_layers_75_mlp_down_proj_weight.safetensors",
+    "model.layers.75.mlp.gate_proj.weight": "model_layers_75_mlp_gate_proj_weight.safetensors",
+    "model.layers.75.mlp.up_proj.weight": "model_layers_75_mlp_up_proj_weight.safetensors",
+    "model.layers.75.post_attention_layernorm.weight": "model_layers_75_post_attention_layernorm_weight.safetensors",
+    "model.layers.75.self_attn.k_proj.bias": "model_layers_75_self_attn_k_proj_bias.safetensors",
+    "model.layers.75.self_attn.k_proj.weight": "model_layers_75_self_attn_k_proj_weight.safetensors",
+    "model.layers.75.self_attn.o_proj.weight": "model_layers_75_self_attn_o_proj_weight.safetensors",
+    "model.layers.75.self_attn.q_proj.bias": "model_layers_75_self_attn_q_proj_bias.safetensors",
+    "model.layers.75.self_attn.q_proj.weight": "model_layers_75_self_attn_q_proj_weight.safetensors",
+    "model.layers.75.self_attn.v_proj.bias": "model_layers_75_self_attn_v_proj_bias.safetensors",
+    "model.layers.75.self_attn.v_proj.weight": "model_layers_75_self_attn_v_proj_weight.safetensors",
+    "model.layers.76.input_layernorm.weight": "model_layers_76_input_layernorm_weight.safetensors",
+    "model.layers.76.mlp.down_proj.weight": "model_layers_76_mlp_down_proj_weight.safetensors",
+    "model.layers.76.mlp.gate_proj.weight": "model_layers_76_mlp_gate_proj_weight.safetensors",
+    "model.layers.76.mlp.up_proj.weight": "model_layers_76_mlp_up_proj_weight.safetensors",
+    "model.layers.76.post_attention_layernorm.weight": "model_layers_76_post_attention_layernorm_weight.safetensors",
+    "model.layers.76.self_attn.k_proj.bias": "model_layers_76_self_attn_k_proj_bias.safetensors",
+    "model.layers.76.self_attn.k_proj.weight": "model_layers_76_self_attn_k_proj_weight.safetensors",
+    "model.layers.76.self_attn.o_proj.weight": "model_layers_76_self_attn_o_proj_weight.safetensors",
+    "model.layers.76.self_attn.q_proj.bias": "model_layers_76_self_attn_q_proj_bias.safetensors",
+    "model.layers.76.self_attn.q_proj.weight": "model_layers_76_self_attn_q_proj_weight.safetensors",
+    "model.layers.76.self_attn.v_proj.bias": "model_layers_76_self_attn_v_proj_bias.safetensors",
+    "model.layers.76.self_attn.v_proj.weight": "model_layers_76_self_attn_v_proj_weight.safetensors",
+    "model.layers.77.input_layernorm.weight": "model_layers_77_input_layernorm_weight.safetensors",
+    "model.layers.77.mlp.down_proj.weight": "model_layers_77_mlp_down_proj_weight.safetensors",
+    "model.layers.77.mlp.gate_proj.weight": "model_layers_77_mlp_gate_proj_weight.safetensors",
+    "model.layers.77.mlp.up_proj.weight": "model_layers_77_mlp_up_proj_weight.safetensors",
+    "model.layers.77.post_attention_layernorm.weight": "model_layers_77_post_attention_layernorm_weight.safetensors",
+    "model.layers.77.self_attn.k_proj.bias": "model_layers_77_self_attn_k_proj_bias.safetensors",
+    "model.layers.77.self_attn.k_proj.weight": "model_layers_77_self_attn_k_proj_weight.safetensors",
+    "model.layers.77.self_attn.o_proj.weight": "model_layers_77_self_attn_o_proj_weight.safetensors",
+    "model.layers.77.self_attn.q_proj.bias": "model_layers_77_self_attn_q_proj_bias.safetensors",
+    "model.layers.77.self_attn.q_proj.weight": "model_layers_77_self_attn_q_proj_weight.safetensors",
+    "model.layers.77.self_attn.v_proj.bias": "model_layers_77_self_attn_v_proj_bias.safetensors",
+    "model.layers.77.self_attn.v_proj.weight": "model_layers_77_self_attn_v_proj_weight.safetensors",
+    "model.layers.78.input_layernorm.weight": "model_layers_78_input_layernorm_weight.safetensors",
+    "model.layers.78.mlp.down_proj.weight": "model_layers_78_mlp_down_proj_weight.safetensors",
+    "model.layers.78.mlp.gate_proj.weight": "model_layers_78_mlp_gate_proj_weight.safetensors",
+    "model.layers.78.mlp.up_proj.weight": "model_layers_78_mlp_up_proj_weight.safetensors",
+    "model.layers.78.post_attention_layernorm.weight": "model_layers_78_post_attention_layernorm_weight.safetensors",
+    "model.layers.78.self_attn.k_proj.bias": "model_layers_78_self_attn_k_proj_bias.safetensors",
+    "model.layers.78.self_attn.k_proj.weight": "model_layers_78_self_attn_k_proj_weight.safetensors",
+    "model.layers.78.self_attn.o_proj.weight": "model_layers_78_self_attn_o_proj_weight.safetensors",
+    "model.layers.78.self_attn.q_proj.bias": "model_layers_78_self_attn_q_proj_bias.safetensors",
+    "model.layers.78.self_attn.q_proj.weight": "model_layers_78_self_attn_q_proj_weight.safetensors",
+    "model.layers.78.self_attn.v_proj.bias": "model_layers_78_self_attn_v_proj_bias.safetensors",
+    "model.layers.78.self_attn.v_proj.weight": "model_layers_78_self_attn_v_proj_weight.safetensors",
+    "model.layers.79.input_layernorm.weight": "model_layers_79_input_layernorm_weight.safetensors",
+    "model.layers.79.mlp.down_proj.weight": "model_layers_79_mlp_down_proj_weight.safetensors",
+    "model.layers.79.mlp.gate_proj.weight": "model_layers_79_mlp_gate_proj_weight.safetensors",
+    "model.layers.79.mlp.up_proj.weight": "model_layers_79_mlp_up_proj_weight.safetensors",
+    "model.layers.79.post_attention_layernorm.weight": "model_layers_79_post_attention_layernorm_weight.safetensors",
+    "model.layers.79.self_attn.k_proj.bias": "model_layers_79_self_attn_k_proj_bias.safetensors",
+    "model.layers.79.self_attn.k_proj.weight": "model_layers_79_self_attn_k_proj_weight.safetensors",
+    "model.layers.79.self_attn.o_proj.weight": "model_layers_79_self_attn_o_proj_weight.safetensors",
+    "model.layers.79.self_attn.q_proj.bias": "model_layers_79_self_attn_q_proj_bias.safetensors",
+    "model.layers.79.self_attn.q_proj.weight": "model_layers_79_self_attn_q_proj_weight.safetensors",
+    "model.layers.79.self_attn.v_proj.bias": "model_layers_79_self_attn_v_proj_bias.safetensors",
+    "model.layers.79.self_attn.v_proj.weight": "model_layers_79_self_attn_v_proj_weight.safetensors",
     "model.layers.7.input_layernorm.weight": "model_layers_7_input_layernorm_weight.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model_layers_7_mlp_down_proj_weight.safetensors",
     "model.layers.7.mlp.gate_proj.weight": "model_layers_7_mlp_gate_proj_weight.safetensors",
     "model.layers.9.self_attn.q_proj.bias": "model_layers_9_self_attn_q_proj_bias.safetensors",
     "model.layers.9.self_attn.q_proj.weight": "model_layers_9_self_attn_q_proj_weight.safetensors",
     "model.layers.9.self_attn.v_proj.bias": "model_layers_9_self_attn_v_proj_bias.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model_layers_9_self_attn_v_proj_weight.safetensors",
+    "model.norm.weight": "model_norm_weight.safetensors"
   }
 }

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": ["<|im_start|>", "<|im_end|>"],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff