MercedeSnape 's Collections

MoE


  • Note Token-Level MoE 1. 不是training free: 包含可训练的参数。具体来说,它包含一个“轻量级路由器(lightweight router)”和一个“可训练的互补生成器(trainable complementary generator)”。该框架通过训练这些组件来协调多个现有的 LLM(如 Llama-3 和 Gemma-2)进行工作 2. 文章的重点确实在于Token 级的路由(Token-Level Routing),即在生成的每一步动态选择最合适的专家模型。 但是,单纯的 Router 不是唯一核心。文章明确指出“纯粹的专家路由(pure expert-only routing)”在理论上存在局限性,无法实现最优解码策略。因此,该方法的核心创新是 Router + 互补生成器(Complementary Generator)。 3. 传统 MoE(如 Switch Transformer, Mixtral)中的“专家”通常是模型内部的前馈神经网络(FFN)层,粒度很细;而这篇论文中的“专家”指的是完整的 LLM(模型级MoE)