美团 LongCat-2.0 发布：国产六大模型横向对比，到底谁才是 Agentic Coding 之王？-过客

6月30号，美团发布了 LongCat-2.0。

1.6T MoE 模型，全程国产算力训练，MIT 协议开源。

而且这帮人玩了把骚操作——Preview 阶段他们把这个模型伪装成"Owl Alpha"，匿名挂到 OpenRouter 上跑了一个多月，直接干到全球调用量前三，在 Hermes Agent 场景月调用量全球第一。等大家用上瘾了，才摘掉口罩说：没错，就是我，美团。

今天把 LongCat-2.0 和 DeepSeek V4 Pro、GLM-5.2、Kimi K2.7 Code、MiniMax M3、Qwen3.7-Max 放一起，看看这波到底谁更能打。

先看 LongCat-2.0 是个啥

几个硬数字：

架构：MoE，1.6T 总参数，每 Token 激活 ~48B（33B-56B 动态调整）
上下文：原生 1M tokens
训练数据：30T+ tokens，中英文混合
训练算力：5 万张国产 ASIC，没碰 NVIDIA GPU
协议：MIT 开源（权重即将上传，GitHub 和 HuggingFace 页面已建好）

架构上有三个亮点值得说：

1. LongCat Sparse Attention (LSA)

传统 attention 复杂度是 O(n²)，1M 上下文直接爆炸。LSA 做了稀疏化，只关注关键信息，近似 linear 复杂度。不是简单的 sliding window 或者扩大窗口后靠硬件硬抗。

2. Zero-Computation Experts

继承自 LongCat-Flash 的机制。对简单 token 直接跳过专家计算，问难了才调更多参数。配合 MoE 的动态路由，实际推理效率应该不错。

3. MOPD 多专家融合

训练时拆成三组专家：

Agent Expert：工具调用、API 解析、自纠错
Reasoning Expert：多步推理、STEM 推理
Interaction Expert：指令遵循、对齐、幻觉抑制

三组分别训到极致，inference 时靠 gating network 动态路由。不是简单合并参数那种"平均值"操作，而是任务驱动分配算力。

这意味着什么？一个请求过来，如果只是简单的代码补全，可能只激活少量参数；如果是"帮我重构这个多微服务 monorepo 的跨服务依赖"，模型知道自己该多掏点算力。

六模型硬参数拉齐

	LongCat-2.0	DeepSeek V4 Pro	GLM-5.2	Kimi K2.7 Code	MiniMax M3	Qwen3.7-Max
总参数	1.6T	1.6T	未公开	~1T	~1T	未公开
激活参数	~48B	49B	未公开	未公开	未公开	未公开
上下文	1M	1M	1M	262K	1M	1M
开源协议	MIT	MIT	Apache 2.0	MIT	MIT	Apache 2.0
多模态	纯文本	纯文本	纯文本	纯文本	图+文	纯文本

上下文窗口这块，Kimi K2.7 的 262K 在 2026 年这个时间点确实有点不够看了，其他五家都已经是 1M。不过 Kimi 在长程自主 agent run 上有独特的优势，后面细说。

SWE-bench Pro：谁更会写代码

SWE-bench Pro 是目前含金量最高的 coding benchmark。1865 个真实 GitHub issue，41 个代码仓库，Pass@1，比 SWE-bench Verified 难得多。同一个模型在 Verified 上 80% 可能在 Pro 上也就 59%。

下面数字是 llm-stats 聚合的各家自报成绩（不是同一套 scaffold 跑的，不能按数字大小精确排名，但大致能看出段位差异）。

模型	SWE-bench Pro	输出价格 ($/M tokens)
GLM-5.2	62.1%	$4.40
Qwen3.7-Max	60.6%	$7.50
LongCat-2.0	59.5%	$2.95（促销 $1.20）
MiniMax M3	59.0%	$2.40（促销 $1.20）
Kimi K2.6	58.6%	$4.00
DeepSeek V4 Pro	55.4%	$0.87

GLM-5.2 在开源模型里跑分最强，LongCat-2.0 紧随其后。DeepSeek V4 Pro 在 SWE-bench Pro 上反而垫底，但别急着下结论——DeepSeek 在 LiveCodeBench 和竞赛级 coding（Codeforces）上很强，SWE-bench Pro 只是其中一个维度。

另外 LongCat-2.0 官方还报了几个其他的 coding 相关 benchmark：

Benchmark	分数	说明
SWE-bench Multilingual	77.3	多语言 coding，接近 Claude Opus 4.6 (77.8)
Terminal-Bench 2.1	70.8	真实终端命令交互
RWSearch	78.8	搜索 agent
FORTE	73.2	生产力场景
BrowseComp	79.9	复杂浏览检索

价格对比

按国内 API 的限时折扣价算（单位：人民币/百万 tokens）：

模型	输入 ¥/M	输出 ¥/M
DeepSeek V4 Flash	¥1	¥2
DeepSeek V4 Pro	¥3	¥6
LongCat-2.0（折扣）	¥2	¥8
MiniMax M3（折扣）	¥2	¥8
Kimi K2.7	¥8	¥32
GLM-5.2	¥10	¥30
Qwen3.7-Max	¥18	¥54

几个观察：

DeepSeek 是价格屠夫，V4 Pro 输出 ¥6/M，几乎只有别人的几分之一。V4 Flash 更是便宜到 ¥2/M 输出。如果你不追求 SWE-bench Pro 的最高分，DeepSeek 的综合性价比还是无敌的。不过，DeepSeek要引入峰谷计价了，高峰期价格翻倍。

LongCat-2.0 折扣价很有竞争力，¥2 输入 ¥8 输出，跟 MiniMax M3 折扣价完全一样。原价的话是 ¥5 输入 ¥20 输出，贵不少。这里说一个细节：LongCat-2.0 的缓存命中价格只有 ¥0.04/M，基本白给。如果你跑的 agent 任务代码库不变，上下文大部分能被缓存，实际成本会远低于标价。还有9.9的体验Token资源包，5000万Token，Cache命中免费，这样的话应该比较经用了哈。

GLM-5.2 和 Qwen3.7-Max 是真的贵。GLM 输出 ¥30/M，Qwen 输出 ¥54/M。能力确实强，但要是你要跑一个 SWE-bench Pro 多拿到 2 分就要多付 3-6 倍价钱，得算算值不值。

逐个说说差异

LongCat-2.0 vs DeepSeek V4 Pro

这两个是对标关系。参数规模一样（都是 1.6T MoE），上下文一样（1M），协议一样（MIT）。

LongCat coding 能力略强（59.5 vs 55.4 SWE-bench Pro），但价格也更高
DeepSeek 有完整的模型矩阵：V4 Pro + V4 Flash + V4 Flash-Lite（后来出的），还有 DeepSpec 推理模式，生态成熟度碾压
LongCat-2.0 目前只有一个模型，没有轻量版也没有推理版
DeepSeek 是开源老牌，社区、文档、部署方案都更完善

怎么选：如果你已经在用 DeepSeek V4 Pro 跑 agent，LongCat-2.0 值得切过去试试，能力确实强一档。但 DeepSeek 的生态和稳定性目前是 LongCat 没法比的。

LongCat-2.0 vs GLM-5.2

GLM-5.2 是目前开源模型在 SWE-bench Pro 上的第一（62.1%），而且综合推理能力也很强。长上下文场景下（1M）经过了充分优化，被称为"真正可用的 1M context"。

GLM 跑分领先，但价格是 LongCat 的 3.5 倍
GLM 在结构化任务、长程推理上更稳
LongCat 在 Agentic Coding 这个细分方向上做了专门优化（MOPD 三组专家）

怎么选：如果你要拼 SWE-bench Pro 的极限分数，选 GLM-5.2。如果核心场景是 coding agent + 成本敏感，LongCat-2.0 更划算。

LongCat-2.0 vs MiniMax M3

这俩是直接竞品。SWE-bench Pro 几乎一样（59.5 vs 59.0），价格完全一样。差异化在哪儿？

MiniMax M3 有原生多模态，能直接看图。这在很多 coding 场景（UI mockup 转代码、架构图理解）是刚需
LongCat-2.0 是纯文本，但 Terminal-Bench 略高（70.8 vs 66），终端交互场景更强
MiniMax M3 的 MSA 稀疏注意力在长上下文效率上口碑不错
LongCat-2.0 的国产算力故事和 OpenRouter 验证数据是加分项

怎么选：看你要不要多模态。要就直接 MiniMax M3，不要就 LongCat-2.0，终端代理场景 LongCat 更顺手。

LongCat-2.0 vs Kimi K2.7 Code

Kimi 最大的短板是上下文只有 262K，在这群 1M 模型里很显眼。

Kimi 的优势在长程自主 agent run，工具调用和 agent swarms 场景强
生成质量稳定，适合需要多轮迭代的 agent 场景
但 SWE-bench Pro 分数不如 LongCat，价格也更贵（¥32 vs ¥8 输出）

怎么选：如果你跑的是需要多 agent 协作、长时间自主运行的场景，Kimi 的稳定性可能更好。纯 coding 任务没必要。

LongCat-2.0 vs Qwen3.7-Max

Qwen 在 SWE-bench Pro 上略高（60.6 vs 59.5），但价格是 LongCat 的 6 倍以上（¥54 vs ¥8 输出）。

Qwen 有阿里云生态，企业内部部署、权限管理、监控告警这些企业级能力都很成熟
综合能力更均衡，不止 coding 强
阿里云 Qwen 系列有一整个产品矩阵：VL、音频、代码补全专用……

怎么选：如果你是阿里云用户、需要企业级 SLA 和完整生态，Qwen 合适。如果你要极致性价比的 Agentic Coding，LongCat 更香。

说说我的看法

我不是在做"谁最好"的结论，这六家都有自己的生态位：

DeepSeek：综合性价比之王，生态最成熟
GLM-5.2：开源 coding 跑分最高，价格也最高
LongCat-2.0：Agentic Coding 专门优化，国产算力训练，性价比不错
MiniMax M3：跟 LongCat 贴身肉搏，多出来的多模态是差异点
Kimi K2.7 Code：长程 agent run 稳定性好，上下文窗口是短板
Qwen3.7-Max：综合强但在 coding 领域性价比不高

LongCat-2.0 最值得关注的点其实不是 benchmark 分数——这分数迟早被追赶——而是全程国产算力这件事。5 万张国产 ASIC 训出一个 1.6T 的开源模型，意味着国内 AI 芯片的自主替代已经从"能用"走到了"能打"的阶段。

另外，LongCat 团队在 Agentic Coding 这个方向上的专注度很高。从 2025 年 9 月的 LongCat-Flash-Chat 开始，到 Flash-Thinking、Flash-Prover，再到现在的 2.0，整个产品线都是围绕 agent 场景做深度优化。这种专注在现在这个大家都想做大而全的时代挺难得的。

后续怎么走，要看两件事：

权重什么时候真正上传到 HuggingFace（现在页面建好了但权重没传）
促销期过后，原价 ¥5/¥20 的定价在市场上有没有竞争力

就目前这个时间点来说，如果你在找 DeepSeek V4 Pro 的替代品，LongCat-2.0 是值得认真考虑的选择。

目录CONTENT

美团 LongCat-2.0 发布：国产六大模型横向对比，到底谁才是 Agentic Coding 之王？