DeepSeek推出MoE架构新模型，推理成本再降50%

深度求索公司最近推出了基于混合专家（MoE）架构的新一代模型DeepSeek-MoE-16B。该模型的总参数量达到160亿，但每次推理时仅激活约20亿参数。在多项基准测试中，其性能超越了稠密模型DeepSeek-V2-67B，而推理成本仅为后者的一半。这一突破进一步巩固了DeepSeek在高性价比开源模型领域的领先地位。

MoE架构优化，激活参数更少效果更好

DeepSeek-MoE-16B采用了细粒度的专家分割和共享专家机制。相比传统MoE模型，它将每个专家网络做得更小、数量更多，并通过路由算法动态选择最适合当前输入的专家组合。在C-Eval中文测试中，新模型得分达到了85.7%，超过上一代67B稠密模型（84.2%），而推理时仅激活2B参数。这意味着开发者可以用更低成本的硬件（甚至CPU）运行高质量模型。

DeepSeek还开源了模型的训练代码和详细技术报告，社区可以基于此复现和进一步优化。一位AI框架工程师评价：“DeepSeek在模型压缩和推理加速方面的探索非常务实。MoE-16B可能是目前性价比最高的开源模型，尤其适合资源受限的创业团队。”在Hugging Face上，该模型上线首周即获得超过1万次下载。

对比GPT-4o mini与Claude Haiku，主打性价比战场

在轻量级模型赛道，DeepSeek-MoE-16B的主要竞争对手是ChatGPT GPT-4o mini和Claude Haiku。价格方面，DeepSeek API输入每百万token仅需0.3元，输出0.9元；GPT-4o mini为输入0.8元、输出2.4元；Claude Haiku约为DeepSeek的2倍。在MMLU基准上，三者得分接近（65-68%），但DeepSeek在中文任务上优势明显。Gemini 1.5 Flash尚未在国内普及，价格也不透明。

对于需要处理大量中文内容的开发者，DeepSeek的性价比优势非常突出。一家AI写作工具创业公司表示：“我们原本使用GPT-3.5，每月API成本约1.2万元。切换DeepSeek-MoE-16B后成本降至5000元，输出质量还略有提升。这对早期项目来说是巨大的成本释放。”DeepSeek官方称，未来还将推出更小参数的“nano”版本，目标是在手机端流畅运行。

DeepSeek-MoE-16B的推出再次表明，大型模型的性能与成本是可以兼得的。通过精妙的MoE架构设计，DeepSeek在维持高水平的同时将推理成本降低到行业最低。对于中小企业和个人开发者而言，这款模型无疑是当前最具吸引力的选择之一。