6月30号,美团发布了 LongCat-2.0。
1.6T MoE 模型,全程国产算力训练,MIT 协议开源。
而且这帮人玩了把骚操作——Preview 阶段他们把这个模型伪装成"Owl Alpha",匿名挂到 OpenRouter 上跑了一个多月,直接干到全球调用量前三,在 Hermes Agent 场景月调用量全球第一。等大家用上瘾了,才摘掉口罩说:没错,就是我,美团。
今天把 LongCat-2.0 和 DeepSeek V4 Pro、GLM-5.2、Kimi K2.7 Code、MiniMax M3、Qwen3.7-Max 放一起,看看这波到底谁更能打。
先看 LongCat-2.0 是个啥
几个硬数字:
- 架构:MoE,1.6T 总参数,每 Token 激活 ~48B(33B-56B 动态调整)
- 上下文:原生 1M tokens
- 训练数据:30T+ tokens,中英文混合
- 训练算力:5 万张国产 ASIC,没碰 NVIDIA GPU
- 协议:MIT 开源(权重即将上传,GitHub 和 HuggingFace 页面已建好)
架构上有三个亮点值得说:
1. LongCat Sparse Attention (LSA)
传统 attention 复杂度是 O(n²),1M 上下文直接爆炸。LSA 做了稀疏化,只关注关键信息,近似 linear 复杂度。不是简单的 sliding window 或者扩大窗口后靠硬件硬抗。
2. Zero-Computation Experts
继承自 LongCat-Flash 的机制。对简单 token 直接跳过专家计算,问难了才调更多参数。配合 MoE 的动态路由,实际推理效率应该不错。
3. MOPD 多专家融合
训练时拆成三组专家:
- Agent Expert:工具调用、API 解析、自纠错
- Reasoning Expert:多步推理、STEM 推理
- Interaction Expert:指令遵循、对齐、幻觉抑制
三组分别训到极致,inference 时靠 gating network 动态路由。不是简单合并参数那种"平均值"操作,而是任务驱动分配算力。
这意味着什么?一个请求过来,如果只是简单的代码补全,可能只激活少量参数;如果是"帮我重构这个多微服务 monorepo 的跨服务依赖",模型知道自己该多掏点算力。
六模型硬参数拉齐
| LongCat-2.0 | DeepSeek V4 Pro | GLM-5.2 | Kimi K2.7 Code | MiniMax M3 | Qwen3.7-Max | |
|---|---|---|---|---|---|---|
| 总参数 | 1.6T | 1.6T | 未公开 | ~1T | ~1T | 未公开 |
| 激活参数 | ~48B | 49B | 未公开 | 未公开 | 未公开 | 未公开 |
| 上下文 | 1M | 1M | 1M | 262K | 1M | 1M |
| 开源协议 | MIT | MIT | Apache 2.0 | MIT | MIT | Apache 2.0 |
| 多模态 | 纯文本 | 纯文本 | 纯文本 | 纯文本 | 图+文 | 纯文本 |
上下文窗口这块,Kimi K2.7 的 262K 在 2026 年这个时间点确实有点不够看了,其他五家都已经是 1M。不过 Kimi 在长程自主 agent run 上有独特的优势,后面细说。
SWE-bench Pro:谁更会写代码
SWE-bench Pro 是目前含金量最高的 coding benchmark。1865 个真实 GitHub issue,41 个代码仓库,Pass@1,比 SWE-bench Verified 难得多。同一个模型在 Verified 上 80% 可能在 Pro 上也就 59%。
下面数字是 llm-stats 聚合的各家自报成绩(不是同一套 scaffold 跑的,不能按数字大小精确排名,但大致能看出段位差异)。
| 模型 | SWE-bench Pro | 输出价格 ($/M tokens) |
|---|---|---|
| GLM-5.2 | 62.1% | $4.40 |
| Qwen3.7-Max | 60.6% | $7.50 |
| LongCat-2.0 | 59.5% | $2.95(促销 $1.20) |
| MiniMax M3 | 59.0% | $2.40(促销 $1.20) |
| Kimi K2.6 | 58.6% | $4.00 |
| DeepSeek V4 Pro | 55.4% | $0.87 |
GLM-5.2 在开源模型里跑分最强,LongCat-2.0 紧随其后。DeepSeek V4 Pro 在 SWE-bench Pro 上反而垫底,但别急着下结论——DeepSeek 在 LiveCodeBench 和竞赛级 coding(Codeforces)上很强,SWE-bench Pro 只是其中一个维度。
另外 LongCat-2.0 官方还报了几个其他的 coding 相关 benchmark:
| Benchmark | 分数 | 说明 |
|---|---|---|
| SWE-bench Multilingual | 77.3 | 多语言 coding,接近 Claude Opus 4.6 (77.8) |
| Terminal-Bench 2.1 | 70.8 | 真实终端命令交互 |
| RWSearch | 78.8 | 搜索 agent |
| FORTE | 73.2 | 生产力场景 |
| BrowseComp | 79.9 | 复杂浏览检索 |
价格对比
按国内 API 的限时折扣价算(单位:人民币/百万 tokens):
| 模型 | 输入 ¥/M | 输出 ¥/M |
|---|---|---|
| DeepSeek V4 Flash | ¥1 | ¥2 |
| DeepSeek V4 Pro | ¥3 | ¥6 |
| LongCat-2.0(折扣) | ¥2 | ¥8 |
| MiniMax M3(折扣) | ¥2 | ¥8 |
| Kimi K2.7 | ¥8 | ¥32 |
| GLM-5.2 | ¥10 | ¥30 |
| Qwen3.7-Max | ¥18 | ¥54 |
几个观察:
DeepSeek 是价格屠夫,V4 Pro 输出 ¥6/M,几乎只有别人的几分之一。V4 Flash 更是便宜到 ¥2/M 输出。如果你不追求 SWE-bench Pro 的最高分,DeepSeek 的综合性价比还是无敌的。不过,DeepSeek要引入峰谷计价了,高峰期价格翻倍。
LongCat-2.0 折扣价很有竞争力,¥2 输入 ¥8 输出,跟 MiniMax M3 折扣价完全一样。原价的话是 ¥5 输入 ¥20 输出,贵不少。这里说一个细节:LongCat-2.0 的缓存命中价格只有 ¥0.04/M,基本白给。如果你跑的 agent 任务代码库不变,上下文大部分能被缓存,实际成本会远低于标价。还有9.9的体验Token资源包,5000万Token,Cache命中免费,这样的话应该比较经用了哈。

GLM-5.2 和 Qwen3.7-Max 是真的贵。GLM 输出 ¥30/M,Qwen 输出 ¥54/M。能力确实强,但要是你要跑一个 SWE-bench Pro 多拿到 2 分就要多付 3-6 倍价钱,得算算值不值。
逐个说说差异
LongCat-2.0 vs DeepSeek V4 Pro
这两个是对标关系。参数规模一样(都是 1.6T MoE),上下文一样(1M),协议一样(MIT)。
- LongCat coding 能力略强(59.5 vs 55.4 SWE-bench Pro),但价格也更高
- DeepSeek 有完整的模型矩阵:V4 Pro + V4 Flash + V4 Flash-Lite(后来出的),还有 DeepSpec 推理模式,生态成熟度碾压
- LongCat-2.0 目前只有一个模型,没有轻量版也没有推理版
- DeepSeek 是开源老牌,社区、文档、部署方案都更完善
怎么选:如果你已经在用 DeepSeek V4 Pro 跑 agent,LongCat-2.0 值得切过去试试,能力确实强一档。但 DeepSeek 的生态和稳定性目前是 LongCat 没法比的。
LongCat-2.0 vs GLM-5.2
GLM-5.2 是目前开源模型在 SWE-bench Pro 上的第一(62.1%),而且综合推理能力也很强。长上下文场景下(1M)经过了充分优化,被称为"真正可用的 1M context"。
- GLM 跑分领先,但价格是 LongCat 的 3.5 倍
- GLM 在结构化任务、长程推理上更稳
- LongCat 在 Agentic Coding 这个细分方向上做了专门优化(MOPD 三组专家)
怎么选:如果你要拼 SWE-bench Pro 的极限分数,选 GLM-5.2。如果核心场景是 coding agent + 成本敏感,LongCat-2.0 更划算。
LongCat-2.0 vs MiniMax M3
这俩是直接竞品。SWE-bench Pro 几乎一样(59.5 vs 59.0),价格完全一样。差异化在哪儿?
- MiniMax M3 有原生多模态,能直接看图。这在很多 coding 场景(UI mockup 转代码、架构图理解)是刚需
- LongCat-2.0 是纯文本,但 Terminal-Bench 略高(70.8 vs 66),终端交互场景更强
- MiniMax M3 的 MSA 稀疏注意力在长上下文效率上口碑不错
- LongCat-2.0 的国产算力故事和 OpenRouter 验证数据是加分项
怎么选:看你要不要多模态。要就直接 MiniMax M3,不要就 LongCat-2.0,终端代理场景 LongCat 更顺手。
LongCat-2.0 vs Kimi K2.7 Code
Kimi 最大的短板是上下文只有 262K,在这群 1M 模型里很显眼。
- Kimi 的优势在长程自主 agent run,工具调用和 agent swarms 场景强
- 生成质量稳定,适合需要多轮迭代的 agent 场景
- 但 SWE-bench Pro 分数不如 LongCat,价格也更贵(¥32 vs ¥8 输出)
怎么选:如果你跑的是需要多 agent 协作、长时间自主运行的场景,Kimi 的稳定性可能更好。纯 coding 任务没必要。
LongCat-2.0 vs Qwen3.7-Max
Qwen 在 SWE-bench Pro 上略高(60.6 vs 59.5),但价格是 LongCat 的 6 倍以上(¥54 vs ¥8 输出)。
- Qwen 有阿里云生态,企业内部部署、权限管理、监控告警这些企业级能力都很成熟
- 综合能力更均衡,不止 coding 强
- 阿里云 Qwen 系列有一整个产品矩阵:VL、音频、代码补全专用……
怎么选:如果你是阿里云用户、需要企业级 SLA 和完整生态,Qwen 合适。如果你要极致性价比的 Agentic Coding,LongCat 更香。
说说我的看法
我不是在做"谁最好"的结论,这六家都有自己的生态位:
- DeepSeek:综合性价比之王,生态最成熟
- GLM-5.2:开源 coding 跑分最高,价格也最高
- LongCat-2.0:Agentic Coding 专门优化,国产算力训练,性价比不错
- MiniMax M3:跟 LongCat 贴身肉搏,多出来的多模态是差异点
- Kimi K2.7 Code:长程 agent run 稳定性好,上下文窗口是短板
- Qwen3.7-Max:综合强但在 coding 领域性价比不高
LongCat-2.0 最值得关注的点其实不是 benchmark 分数——这分数迟早被追赶——而是全程国产算力这件事。5 万张国产 ASIC 训出一个 1.6T 的开源模型,意味着国内 AI 芯片的自主替代已经从"能用"走到了"能打"的阶段。
另外,LongCat 团队在 Agentic Coding 这个方向上的专注度很高。从 2025 年 9 月的 LongCat-Flash-Chat 开始,到 Flash-Thinking、Flash-Prover,再到现在的 2.0,整个产品线都是围绕 agent 场景做深度优化。这种专注在现在这个大家都想做大而全的时代挺难得的。
后续怎么走,要看两件事:
- 权重什么时候真正上传到 HuggingFace(现在页面建好了但权重没传)
- 促销期过后,原价 ¥5/¥20 的定价在市场上有没有竞争力
就目前这个时间点来说,如果你在找 DeepSeek V4 Pro 的替代品,LongCat-2.0 是值得认真考虑的选择。
评论区