AI圈子刚被美团狠狠投下了一颗炸弹。

今天,美团正式开源了自研的超大规模混合专家模型——LongCat-Flash(龙猫-闪电版)

参数规模直接拉到 5600亿,但它并不是传统意义上“堆料”的庞然大物,而是一个通过精巧架构设计,把算力花在刀刃上的“高效怪兽”。

简单说,它不仅跑得快、省得多,还带着一身强悍的 Agent能力,在和DeepSeek、Qwen这些顶级模型的对比中,几乎全面打平,甚至部分场景实现了反超。

一切从“零计算专家”开始

在常规MoE(混合专家模型)中,每个任务可能要调动大量参数,算力消耗巨大。美团的LongCat-Flash玩出了一个新花样:

👉 零计算专家(Zero-computation Experts)

这是一类特殊的“专家模块”,专门负责处理低价值计算。比如标点符号、常见短词这些没必要“算半天”的东西,直接由它接手返回输入,等于“不算也行”。

好处是什么?算力节省直接拉满。

最终效果是:虽然模型总参数有 5600亿,但每次推理只需激活 186亿 ~ 313亿(平均270亿),相当于用不到三分之一的资源,就能做到和全力输出一样的效果。

MoE最大的痛点被治好了

大规模MoE常见的瓶颈在于专家之间的通信,来回传递容易拖慢速度。

美团的解决方案叫做 ScMoE(Shortcut-connected MoE)

它像在高速公路上加了一个“加急通道”,让计算和通信可以大幅重叠,从而提升吞吐量。翻译过来就是:训练更顺滑,推理响应更快。

这也是为什么LongCat-Flash能做到 100+ tokens/s 的推理速度,体验非常丝滑。

真正为Agent量身定制的训练

美团这次的野心并不是只做一个聊天机器人。

LongCat-Flash的训练路线很“分段式”:

  • 第一阶段:大规模预训练,打好知识底子。

  • 第二阶段:专门强化代码和推理能力。

  • 第三阶段:后训练聚焦在对话和工具调用。

这样的好处是,模型不仅能聊天,还能真正具备 调用工具、与环境交互的“智能代理”能力。

这也是为什么它在指令遵循测试里,表现直接碾压同级别模型,在COLLIE评测中更是拿下了第一名

隐晦的硬件暗示

一个细节耐人寻味。

官方技术报告里提到,LongCat-Flash的训练是在一个包含数万个“加速器” 的集群上完成的,30天训完20万亿tokens

注意:这里他们用的是“Accelerators”,而不是“GPU”。

这意味着,背后的硬件可能并不完全依赖英伟达,也可能有TPU、昇腾等国产AI芯片的身影。虽然没有明说,但措辞极其严谨,耐人寻味。

成果直接体现在用户体验

说到底,模型再炫酷,落到用户层面就两个问题:快不快,贵不贵。

LongCat-Flash给的答案是:

  • 推理速度:超过100 tokens/s

  • 推理成本:每百万输出tokens仅需 0.7美元

  • 上下文窗口:支持128k,轻松处理超长文本

  • 能力对比:在MMLU、Arena、CEval等测试里全面对标DeepSeek、Qwen等顶级模型,有的项目还实现了领先

这意味着,它不仅能和国际一线模型正面对抗,还把推理成本拉到地板价,杀伤力极强。

开源:美团的豪气与野心

最让人兴奋的是,美团选择了MIT许可 开源,把LongCat-Flash直接放在了Hugging Face和GitHub上。

这等于说,全球开发者、研究者都可以免费用、随便玩。

对于整个AI开源生态来说,这无疑是一针强心剂。

  • 官网:longcat.ai

  • Hugging Face:LongCat-Flash

  • GitHub:美团LongCat

写在最后

美团开源龙猫大模型,看似是AI技术层面的竞争,但本质上,它带来的是更高效的算力利用、更低的推理成本,以及对Agent能力的深度探索。

一句话总结:

这是国产大模型追平乃至超越国际一线的又一次硬核突破。

未来不只是DeepSeek一家独大,龙猫的加入,意味着真正的“群雄并起”时代可能已经到来。

了解AI破局企培,加V:jianghu10002。

扫码加入技术琐话读者群,了解更多AI科技资讯

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐