Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

config.json +280 -0
model-00001-of-00008.safetensors +3 -0
model-00002-of-00008.safetensors +3 -0
model-00003-of-00008.safetensors +3 -0
model-00004-of-00008.safetensors +3 -0
model-00005-of-00008.safetensors +3 -0
model-00006-of-00008.safetensors +3 -0
model-00007-of-00008.safetensors +3 -0
model-00008-of-00008.safetensors +3 -0
model.safetensors.index.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,280 @@

+{
+  "architectures": [
+    "BailingMMNativeForConditionalGeneration"
+  ],
+  "audio_tokenizer_config": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": [
+      "AudioVAE"
+    ],
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "dec_kwargs": {
+      "backbone": {
+        "_attn_implementation": "flash_attention_2",
+        "attention_dropout": 0.0,
+        "attn_implementation": null,
+        "bos_token_id": 151643,
+        "eos_token_id": 151645,
+        "hidden_act": "silu",
+        "hidden_size": 896,
+        "initializer_range": 0.02,
+        "intermediate_size": 4864,
+        "is_causal": true,
+        "max_position_embeddings": 32768,
+        "max_window_layers": 0,
+        "model_type": "qwen2",
+        "num_attention_heads": 14,
+        "num_hidden_layers": 24,
+        "num_key_value_heads": 2,
+        "rms_norm_eps": 1e-06,
+        "rope_theta": 1000000.0,
+        "sliding_window": 32,
+        "tie_word_embeddings": true,
+        "torch_dtype": "bfloat16",
+        "transformers_version": "4.43.1",
+        "use_cache": false,
+        "use_sliding_window": true,
+        "vocab_size": 1
+      },
+      "latent_dim": 64,
+      "output_dim": 320
+    },
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "enc_kwargs": {
+      "backbone": {
+        "_attn_implementation": "flash_attention_2",
+        "attention_dropout": 0.0,
+        "attn_implementation": null,
+        "bos_token_id": 151643,
+        "eos_token_id": 151645,
+        "hidden_act": "silu",
+        "hidden_size": 896,
+        "initializer_range": 0.02,
+        "intermediate_size": 4864,
+        "is_causal": true,
+        "max_position_embeddings": 32768,
+        "max_window_layers": 0,
+        "model_type": "qwen2",
+        "num_attention_heads": 14,
+        "num_hidden_layers": 24,
+        "num_key_value_heads": 2,
+        "rms_norm_eps": 1e-06,
+        "rope_theta": 1000000.0,
+        "sliding_window": 32,
+        "tie_word_embeddings": true,
+        "torch_dtype": "bfloat16",
+        "transformers_version": "4.43.1",
+        "use_cache": false,
+        "use_sliding_window": true,
+        "vocab_size": 1
+      },
+      "hop_size": 320,
+      "input_dim": 320,
+      "latent_dim": 64
+    },
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hifi_gan_disc_kwargs": null,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "init_method": "kaiming",
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "lambda_adv": 1.0,
+    "lambda_disc": 1.0,
+    "lambda_feat_match_loss": 1.0,
+    "lambda_mel_loss": 15,
+    "lambda_semantic": 5.0,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": -1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "semantic_module_kwargs": {
+      "casual": true,
+      "whisper_encoder": {
+        "n_ctx": 1500,
+        "n_head": 20,
+        "n_layer": 32,
+        "n_mels": 128,
+        "n_state": 1280
+      }
+    },
+    "sep_token_id": null,
+    "spec_disc_kwargs": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_bfloat16": false
+  },
+  "auto_map": {
+    "AutoConfig": "configuration_bailingmm.BailingMMConfig"
+  },
+  "ditar_config": {
+    "attn_backend": "torch",
+    "attn_mask_enabled": false,
+    "depth": 8,
+    "dropout": 0.0,
+    "hidden_size": 1024,
+    "mlp_ratio": 4,
+    "num_heads": 16,
+    "pe_attn_head": null,
+    "qk_norm": null
+  },
+  "llm_config": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": [
+      "BailingMoeForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "auto_map": {
+      "AutoConfig": "configuration_bailing_moe.BailingMoeConfig",
+      "AutoModel": "modeling_bailing_moe.BailingMoeModel",
+      "AutoModelForCausalLM": "modeling_bailing_moe.BailingMoeForCausalLM",
+      "AutoModelForTokenClassification": "modeling_bailing_moe.BailingMoeForTokenClassification"
+    },
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "embedding_dropout": 0.0,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 126081,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "first_k_dense_replace": 0,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_patch_token": 126346,
+    "image_start_token": 126347,
+    "initializer_range": 0.006,
+    "intermediate_size": 5632,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 32768,
+    "max_window_layers": 28,
+    "min_length": 0,
+    "model_type": "bailing_moe",
+    "moe_intermediate_size": 1408,
+    "multi_gate": true,
+    "no_repeat_ngram_size": 0,
+    "norm_head": false,
+    "norm_softmax": false,
+    "norm_topk_prob": true,
+    "num_attention_heads": 16,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_experts": 64,
+    "num_experts_per_tok": 6,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 4,
+    "num_return_sequences": 1,
+    "num_shared_experts": 2,
+    "output_attentions": false,
+    "output_dropout": 0.0,
+    "output_hidden_states": false,
+    "output_router_logits": false,
+    "output_scores": false,
+    "pad_token_id": 126081,
+    "prefix": null,
+    "pretraining_tp": 1,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": {
+      "factor": null,
+      "type": "3D"
+    },
+    "rope_theta": 600000,
+    "sep_token_id": null,
+    "sliding_window": 4096,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": false,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": "bfloat16",
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_bias": false,
+    "use_cache": true,
+    "use_qkv_bias": false,
+    "use_sliding_window": false,
+    "video_start_token": 126349,
+    "vocab_size": 126464
+  },
+  "mlp_depth": 2,
+  "model_type": "bailingmm",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4"
+}

model-00001-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf0878c52036fb377f710fa7e55e820a05d9bbad2b1a6826b57e1927a7a95465
+size 4998949136

model-00002-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7731be15d86b3590925d1691a219ef02cfd2f7a378624f83c13cf4c302cde651
+size 4999501536

model-00003-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3d993b14ce3bae503361dca556dd35ec904dc8ccaa1b3e39ab6112e9d6882f6
+size 4995037352

model-00004-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8994018d97ac394b723288d715b8670131fffeab1808e97872ac57fa834f0e01
+size 4995037712

model-00005-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77c4caf48788eca7139db74a381aa4d38eac6854ecaab524e7ce4c5c8c4ffceb
+size 4999502432

model-00006-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:671032cd4061f11db8b453268a31cab0fe4176553a0e6067b79ea9dc279d121d
+size 4995037688

model-00007-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dbf0bb0f1655022eaf6c607ab6d64aba31997bf3e09f91d04c58d98acfe46d6
+size 4993293032

model-00008-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:314bf206abb346e3cf566335fa9d843e9564f292f3f5dfeb40afdb6cdc2c3063
+size 1575810528

model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff