Upload folder using huggingface_hub

Files changed (9) hide show

config.json CHANGED Viewed

@@ -6,6 +6,7 @@
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
   "decoder_sparse_step": 1,
   "eos_token_id": 151645,
   "head_dim": 128,
   "hidden_act": "silu",
@@ -27,6 +28,7 @@
   "quantization_config": {
     "config_groups": {
       "group_0": {
         "input_activations": null,
         "output_activations": null,
         "targets": [
@@ -36,9 +38,9 @@
           "actorder": null,
           "block_structure": null,
           "dynamic": false,
-          "group_size": 128,
           "num_bits": 4,
-          "observer": "minmax",
           "observer_kwargs": {},
           "strategy": "group",
           "symmetric": true,
@@ -101,7 +103,10 @@
     ],
     "kv_cache_scheme": null,
     "quant_method": "compressed-tensors",
-    "quantization_status": "compressed"
   },
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
@@ -109,8 +114,7 @@
   "router_aux_loss_coef": 0.001,
   "sliding_window": null,
   "tie_word_embeddings": false,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.54.1",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936

   "attention_dropout": 0.0,
   "bos_token_id": 151643,
   "decoder_sparse_step": 1,
+  "dtype": "bfloat16",
   "eos_token_id": 151645,
   "head_dim": 128,
   "hidden_act": "silu",
   "quantization_config": {
     "config_groups": {
       "group_0": {
+        "format": "pack-quantized",
         "input_activations": null,
         "output_activations": null,
         "targets": [
           "actorder": null,
           "block_structure": null,
           "dynamic": false,
+          "group_size": 32,
           "num_bits": 4,
+          "observer": "mse",
           "observer_kwargs": {},
           "strategy": "group",
           "symmetric": true,
     ],
     "kv_cache_scheme": null,
     "quant_method": "compressed-tensors",
+    "quantization_status": "compressed",
+    "sparsity_config": {},
+    "transform_config": {},
+    "version": "0.10.3.dev47+ge463fe6"
   },
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "router_aux_loss_coef": 0.001,
   "sliding_window": null,
   "tie_word_embeddings": false,
+  "transformers_version": "4.56.0.dev0",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936

generation_config.json CHANGED Viewed

@@ -9,5 +9,5 @@
   "temperature": 0.7,
   "top_k": 20,
   "top_p": 0.8,
-  "transformers_version": "4.54.1"
 }

   "temperature": 0.7,
   "top_k": 20,
   "top_p": 0.8,
+  "transformers_version": "4.56.0.dev0"
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:426c24404bc7dc9205ba3b6926164882c67690912402ebc2decd4d357e38ac21
-size 5001524144

 version https://git-lfs.github.com/spec/v1
+oid sha256:e60166d0bd6fa030bd248b01cdf89d1626d905ae4701a2f8b52279dbc18722c9
+size 5001707008

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e730b42ec8cdc491dba5764249dfe20e4ad87788c70a81132a42b50b68d6a980
-size 5001803304

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a8400a155c96c23041c560894a29477cd3ee20ba2a38fe5ec58f21250350ef4
+size 5001283696

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:778ef0a625188686aeea5e971f81af14aefd2f10cab171815ce904826727f77f
-size 5002084152

 version https://git-lfs.github.com/spec/v1
+oid sha256:d956b31607b9d9ed81182a6db56cc837068e2cfa566001a880f7f870f1d830ad
+size 5001283912

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1edce07fe26507970c93dd769d88e4f026655b3d0680641c9b5613f2a22e660e
-size 1687667728

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc7f890df5e46bce28631f3a9d428ec29419b7ee254f70be50279036a77e6fe8
+size 3090232736

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

recipe.yaml CHANGED Viewed

@@ -1,9 +1,26 @@
-default_stage:
-  default_modifiers:
     AWQModifier:
       targets: [Linear]
-      ignore: [lm_head, 're:.*mlp.gate$', 're:.*mlp.shared_expert_gate$']
-      scheme: W4A16
       mappings:
       - smooth_layer: re:.*input_layernorm$
         balance_layers: ['re:.*q_proj$', 're:.*k_proj$', 're:.*v_proj$']

+quant_stage:
+  quant_modifiers:
     AWQModifier:
+      config_groups:
+        group_0:
+          targets: [Linear]
+          weights:
+            num_bits: 4
+            type: int
+            symmetric: true
+            group_size: 32
+            strategy: group
+            block_structure: null
+            dynamic: false
+            actorder: null
+            observer: mse
+            observer_kwargs: {}
+          input_activations: null
+          output_activations: null
+          format: null
       targets: [Linear]
+      ignore: [lm_head, model.embed_tokens, 're:.*input_layernorm$', 're:.*post_attention_layernorm$',
+        model.norm, 're:.*mlp.gate$']
       mappings:
       - smooth_layer: re:.*input_layernorm$
         balance_layers: ['re:.*q_proj$', 're:.*k_proj$', 're:.*v_proj$']

tokenizer_config.json CHANGED Viewed

@@ -231,7 +231,7 @@
   "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
-  "model_max_length": 262144,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",

   "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
+  "model_max_length": 1010000,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",