突发!美团开源“龙猫大模型”,性能硬刚DeepSeek
比如标点符号、常见短词这些没必要“算半天”的东西,直接由它接手返回输入,等于“不算也行”。美团开源龙猫大模型,看似是AI技术层面的竞争,但本质上,它带来的是更高效的算力利用、更低的推理成本,以及对Agent能力的深度探索。,但它并不是传统意义上“堆料”的庞然大物,而是一个通过精巧架构设计,把算力花在刀刃上的“高效怪兽”。,在和DeepSeek、Qwen这些顶级模型的对比中,几乎全面打平,甚至部分场
AI圈子刚被美团狠狠投下了一颗炸弹。
今天,美团正式开源了自研的超大规模混合专家模型——LongCat-Flash(龙猫-闪电版)。
参数规模直接拉到 5600亿,但它并不是传统意义上“堆料”的庞然大物,而是一个通过精巧架构设计,把算力花在刀刃上的“高效怪兽”。
简单说,它不仅跑得快、省得多,还带着一身强悍的 Agent能力,在和DeepSeek、Qwen这些顶级模型的对比中,几乎全面打平,甚至部分场景实现了反超。
一切从“零计算专家”开始
在常规MoE(混合专家模型)中,每个任务可能要调动大量参数,算力消耗巨大。美团的LongCat-Flash玩出了一个新花样:
👉 零计算专家(Zero-computation Experts)
这是一类特殊的“专家模块”,专门负责处理低价值计算。比如标点符号、常见短词这些没必要“算半天”的东西,直接由它接手返回输入,等于“不算也行”。
好处是什么?算力节省直接拉满。
最终效果是:虽然模型总参数有 5600亿,但每次推理只需激活 186亿 ~ 313亿(平均270亿),相当于用不到三分之一的资源,就能做到和全力输出一样的效果。
MoE最大的痛点被治好了
大规模MoE常见的瓶颈在于专家之间的通信,来回传递容易拖慢速度。
美团的解决方案叫做 ScMoE(Shortcut-connected MoE)。
它像在高速公路上加了一个“加急通道”,让计算和通信可以大幅重叠,从而提升吞吐量。翻译过来就是:训练更顺滑,推理响应更快。
这也是为什么LongCat-Flash能做到 100+ tokens/s 的推理速度,体验非常丝滑。
真正为Agent量身定制的训练
美团这次的野心并不是只做一个聊天机器人。
LongCat-Flash的训练路线很“分段式”:
-
第一阶段:大规模预训练,打好知识底子。
-
第二阶段:专门强化代码和推理能力。
-
第三阶段:后训练聚焦在对话和工具调用。
这样的好处是,模型不仅能聊天,还能真正具备 调用工具、与环境交互的“智能代理”能力。
这也是为什么它在指令遵循测试里,表现直接碾压同级别模型,在COLLIE评测中更是拿下了第一名。
隐晦的硬件暗示
一个细节耐人寻味。
官方技术报告里提到,LongCat-Flash的训练是在一个包含数万个“加速器” 的集群上完成的,30天训完20万亿tokens。
注意:这里他们用的是“Accelerators”,而不是“GPU”。
这意味着,背后的硬件可能并不完全依赖英伟达,也可能有TPU、昇腾等国产AI芯片的身影。虽然没有明说,但措辞极其严谨,耐人寻味。
成果直接体现在用户体验
说到底,模型再炫酷,落到用户层面就两个问题:快不快,贵不贵。
LongCat-Flash给的答案是:
-
推理速度:超过100 tokens/s
-
推理成本:每百万输出tokens仅需 0.7美元
-
上下文窗口:支持128k,轻松处理超长文本
-
能力对比:在MMLU、Arena、CEval等测试里全面对标DeepSeek、Qwen等顶级模型,有的项目还实现了领先
这意味着,它不仅能和国际一线模型正面对抗,还把推理成本拉到地板价,杀伤力极强。
开源:美团的豪气与野心
最让人兴奋的是,美团选择了MIT许可 开源,把LongCat-Flash直接放在了Hugging Face和GitHub上。
这等于说,全球开发者、研究者都可以免费用、随便玩。
对于整个AI开源生态来说,这无疑是一针强心剂。
-
官网:longcat.ai
-
Hugging Face:LongCat-Flash
-
GitHub:美团LongCat
写在最后
美团开源龙猫大模型,看似是AI技术层面的竞争,但本质上,它带来的是更高效的算力利用、更低的推理成本,以及对Agent能力的深度探索。
一句话总结:
这是国产大模型追平乃至超越国际一线的又一次硬核突破。
未来不只是DeepSeek一家独大,龙猫的加入,意味着真正的“群雄并起”时代可能已经到来。
了解AI破局企培,加V:jianghu10002。
扫码加入技术琐话读者群,了解更多AI科技资讯
更多推荐
所有评论(0)