
深度求索公司最近推出了基于混合专家(MoE)架构的新一代模型DeepSeek-MoE-16B。该模型的总参数量达到160亿,但每次推理时仅激活约20亿参数。在多项基准测试中,其性能超越了稠密模型DeepSeek-V2-67B,而推理成本仅为后者的一半。这一突破进一步巩固了DeepSeek在高性价比开源模型领域的领先地位。
MoE架构优化,激活参数更少效果更好
DeepSeek-MoE-16B采用了细粒度的专家分割和共享专家机制。相比传统MoE模型,它将每个专家网络做得更小、数量更多,并通过路由算法动态选择最适合当前输入的专家组合。在C-Eval中文测试中,新模型得分达到了85.7%,超过上一代67B稠密模型(84.2%),而推理时仅激活2B参数。这意味着开发者可以用更低成本的硬件(甚至CPU)运行高质量模型。
DeepSeek还开源了模型的训练代码和详细技术报告,社区可以基于此复现和进一步优化。一位AI框架工程师评价:“DeepSeek在模型压缩和推理加速方面的探索非常务实。MoE-16B可能是目前性价比最高的开源模型,尤其适合资源受限的创业团队。”在Hugging Face上,该模型上线首周即获得超过1万次下载。
对比GPT-4o mini与Claude Haiku,主打性价比战场
在轻量级模型赛道,DeepSeek-MoE-16B的主要竞争对手是ChatGPT GPT-4o mini和Claude Haiku。价格方面,DeepSeek API输入每百万token仅需0.3元,输出0.9元;GPT-4o mini为输入0.8元、输出2.4元;Claude Haiku约为DeepSeek的2倍。在MMLU基准上,三者得分接近(65-68%),但DeepSeek在中文任务上优势明显。Gemini 1.5 Flash尚未在国内普及,价格也不透明。
对于需要处理大量中文内容的开发者,DeepSeek的性价比优势非常突出。一家AI写作工具创业公司表示:“我们原本使用GPT-3.5,每月API成本约1.2万元。切换DeepSeek-MoE-16B后成本降至5000元,输出质量还略有提升。这对早期项目来说是巨大的成本释放。”DeepSeek官方称,未来还将推出更小参数的“nano”版本,目标是在手机端流畅运行。
DeepSeek-MoE-16B的推出再次表明,大型模型的性能与成本是可以兼得的。通过精妙的MoE架构设计,DeepSeek在维持高水平的同时将推理成本降低到行业最低。对于中小企业和个人开发者而言,这款模型无疑是当前最具吸引力的选择之一。