目 录CONTENT

文章目录

美团 LongCat-2.0 发布:国产六大模型横向对比,到底谁才是 Agentic Coding 之王?

过客
2026-07-01 / 0 评论 / 1 点赞 / 2 阅读 / 0 字

6月30号,美团发布了 LongCat-2.0。

1.6T MoE 模型,全程国产算力训练,MIT 协议开源。

而且这帮人玩了把骚操作——Preview 阶段他们把这个模型伪装成"Owl Alpha",匿名挂到 OpenRouter 上跑了一个多月,直接干到全球调用量前三,在 Hermes Agent 场景月调用量全球第一。等大家用上瘾了,才摘掉口罩说:没错,就是我,美团。

今天把 LongCat-2.0 和 DeepSeek V4 Pro、GLM-5.2、Kimi K2.7 Code、MiniMax M3、Qwen3.7-Max 放一起,看看这波到底谁更能打。

先看 LongCat-2.0 是个啥

几个硬数字:

  • 架构​:MoE,1.6T 总参数,每 Token 激活 ~48B(33B-56B 动态调整)
  • 上下文​:原生 1M tokens
  • 训练数据​:30T+ tokens,中英文混合
  • 训练算力​:5 万张国产 ASIC,没碰 NVIDIA GPU
  • 协议​:MIT 开源(权重即将上传,GitHub 和 HuggingFace 页面已建好)

架构上有三个亮点值得说:

1. LongCat Sparse Attention (LSA)

传统 attention 复杂度是 O(n²),1M 上下文直接爆炸。LSA 做了稀疏化,只关注关键信息,近似 linear 复杂度。不是简单的 sliding window 或者扩大窗口后靠硬件硬抗。

2. Zero-Computation Experts

继承自 LongCat-Flash 的机制。对简单 token 直接跳过专家计算,问难了才调更多参数。配合 MoE 的动态路由,实际推理效率应该不错。

3. MOPD 多专家融合

训练时拆成三组专家:

  • Agent Expert:工具调用、API 解析、自纠错
  • Reasoning Expert:多步推理、STEM 推理
  • Interaction Expert:指令遵循、对齐、幻觉抑制

三组分别训到极致,inference 时靠 gating network 动态路由。不是简单合并参数那种"平均值"操作,而是任务驱动分配算力。

这意味着什么?一个请求过来,如果只是简单的代码补全,可能只激活少量参数;如果是"帮我重构这个多微服务 monorepo 的跨服务依赖",模型知道自己该多掏点算力。

六模型硬参数拉齐

LongCat-2.0 DeepSeek V4 Pro GLM-5.2 Kimi K2.7 Code MiniMax M3 Qwen3.7-Max
总参数 1.6T 1.6T 未公开 ~1T ~1T 未公开
激活参数 ~48B 49B 未公开 未公开 未公开 未公开
上下文 1M 1M 1M 262K 1M 1M
开源协议 MIT MIT Apache 2.0 MIT MIT Apache 2.0
多模态 纯文本 纯文本 纯文本 纯文本 图+文 纯文本

上下文窗口这块,Kimi K2.7 的 262K 在 2026 年这个时间点确实有点不够看了,其他五家都已经是 1M。不过 Kimi 在长程自主 agent run 上有独特的优势,后面细说。

SWE-bench Pro:谁更会写代码

SWE-bench Pro 是目前含金量最高的 coding benchmark。1865 个真实 GitHub issue,41 个代码仓库,Pass@1,比 SWE-bench Verified 难得多。同一个模型在 Verified 上 80% 可能在 Pro 上也就 59%。

下面数字是 llm-stats 聚合的各家自报成绩(不是同一套 scaffold 跑的,不能按数字大小精确排名,但大致能看出段位差异)。

模型 SWE-bench Pro 输出价格 ($/M tokens)
GLM-5.2 62.1% $4.40
Qwen3.7-Max 60.6% $7.50
LongCat-2.0 59.5% $2.95(促销 $1.20)
MiniMax M3 59.0% $2.40(促销 $1.20)
Kimi K2.6 58.6% $4.00
DeepSeek V4 Pro 55.4% $0.87

GLM-5.2 在开源模型里跑分最强,LongCat-2.0 紧随其后。DeepSeek V4 Pro 在 SWE-bench Pro 上反而垫底,但别急着下结论——DeepSeek 在 LiveCodeBench 和竞赛级 coding(Codeforces)上很强,SWE-bench Pro 只是其中一个维度。

另外 LongCat-2.0 官方还报了几个其他的 coding 相关 benchmark:

Benchmark 分数 说明
SWE-bench Multilingual 77.3 多语言 coding,接近 Claude Opus 4.6 (77.8)
Terminal-Bench 2.1 70.8 真实终端命令交互
RWSearch 78.8 搜索 agent
FORTE 73.2 生产力场景
BrowseComp 79.9 复杂浏览检索

价格对比

按国内 API 的限时折扣价算(单位:人民币/百万 tokens):

模型 输入 ¥/M 输出 ¥/M
DeepSeek V4 Flash ¥1 ¥2
DeepSeek V4 Pro ¥3 ¥6
LongCat-2.0(折扣) ¥2 ¥8
MiniMax M3(折扣) ¥2 ¥8
Kimi K2.7 ¥8 ¥32
GLM-5.2 ¥10 ¥30
Qwen3.7-Max ¥18 ¥54

几个观察:

DeepSeek 是价格屠夫​,V4 Pro 输出 ¥6/M,几乎只有别人的几分之一。V4 Flash 更是便宜到 ¥2/M 输出。如果你不追求 SWE-bench Pro 的最高分,DeepSeek 的综合性价比还是无敌的。不过,DeepSeek要引入峰谷计价了,高峰期价格翻倍。

LongCat-2.0 折扣价很有竞争力​,¥2 输入 ¥8 输出,跟 MiniMax M3 折扣价完全一样。原价的话是 ¥5 输入 ¥20 输出,贵不少。这里说一个细节:LongCat-2.0 的​缓存命中价格只有 ¥0.04/M​,基本白给。如果你跑的 agent 任务代码库不变,上下文大部分能被缓存,实际成本会远低于标价。还有9.9的体验Token资源包,5000万Token,Cache命中免费,这样的话应该比较经用了哈。

GLM-5.2 和 Qwen3.7-Max 是真的贵​。GLM 输出 ¥30/M,Qwen 输出 ¥54/M。能力确实强,但要是你要跑一个 SWE-bench Pro 多拿到 2 分就要多付 3-6 倍价钱,得算算值不值。

逐个说说差异

LongCat-2.0 vs DeepSeek V4 Pro

这两个是对标关系。参数规模一样(都是 1.6T MoE),上下文一样(1M),协议一样(MIT)。

  • LongCat coding 能力略强(59.5 vs 55.4 SWE-bench Pro),但价格也更高
  • DeepSeek 有完整的模型矩阵:V4 Pro + V4 Flash + V4 Flash-Lite(后来出的),还有 DeepSpec 推理模式,生态成熟度碾压
  • LongCat-2.0 目前只有一个模型,没有轻量版也没有推理版
  • DeepSeek 是开源老牌,社区、文档、部署方案都更完善

怎么选​:如果你已经在用 DeepSeek V4 Pro 跑 agent,LongCat-2.0 值得切过去试试,能力确实强一档。但 DeepSeek 的生态和稳定性目前是 LongCat 没法比的。

LongCat-2.0 vs GLM-5.2

GLM-5.2 是目前开源模型在 SWE-bench Pro 上的第一(62.1%),而且综合推理能力也很强。长上下文场景下(1M)经过了充分优化,被称为"真正可用的 1M context"。

  • GLM 跑分领先,但价格是 LongCat 的 3.5 倍
  • GLM 在结构化任务、长程推理上更稳
  • LongCat 在 Agentic Coding 这个细分方向上做了专门优化(MOPD 三组专家)

怎么选​:如果你要拼 SWE-bench Pro 的极限分数,选 GLM-5.2。如果核心场景是 coding agent + 成本敏感,LongCat-2.0 更划算。

LongCat-2.0 vs MiniMax M3

这俩是直接竞品。SWE-bench Pro 几乎一样(59.5 vs 59.0),价格完全一样。差异化在哪儿?

  • MiniMax M3 有​原生多模态​,能直接看图。这在很多 coding 场景(UI mockup 转代码、架构图理解)是刚需
  • LongCat-2.0 是纯文本,但 Terminal-Bench 略高(70.8 vs 66),终端交互场景更强
  • MiniMax M3 的 MSA 稀疏注意力在长上下文效率上口碑不错
  • LongCat-2.0 的国产算力故事和 OpenRouter 验证数据是加分项

怎么选​:看你要不要多模态。要就直接 MiniMax M3,不要就 LongCat-2.0,终端代理场景 LongCat 更顺手。

LongCat-2.0 vs Kimi K2.7 Code

Kimi 最大的短板是上下文只有 262K,在这群 1M 模型里很显眼。

  • Kimi 的优势在​长程自主 agent run​,工具调用和 agent swarms 场景强
  • 生成质量稳定,适合需要多轮迭代的 agent 场景
  • 但 SWE-bench Pro 分数不如 LongCat,价格也更贵(¥32 vs ¥8 输出)

怎么选​:如果你跑的是需要多 agent 协作、长时间自主运行的场景,Kimi 的稳定性可能更好。纯 coding 任务没必要。

LongCat-2.0 vs Qwen3.7-Max

Qwen 在 SWE-bench Pro 上略高(60.6 vs 59.5),但价格是 LongCat 的 6 倍以上(¥54 vs ¥8 输出)。

  • Qwen 有阿里云生态,企业内部部署、权限管理、监控告警这些企业级能力都很成熟
  • 综合能力更均衡,不止 coding 强
  • 阿里云 Qwen 系列有一整个产品矩阵:VL、音频、代码补全专用……

怎么选​:如果你是阿里云用户、需要企业级 SLA 和完整生态,Qwen 合适。如果你要极致性价比的 Agentic Coding,LongCat 更香。

说说我的看法

我不是在做"谁最好"的结论,这六家都有自己的生态位:

  • DeepSeek​:综合性价比之王,生态最成熟
  • GLM-5.2​:开源 coding 跑分最高,价格也最高
  • LongCat-2.0​:Agentic Coding 专门优化,国产算力训练,性价比不错
  • MiniMax M3​:跟 LongCat 贴身肉搏,多出来的多模态是差异点
  • Kimi K2.7 Code​:长程 agent run 稳定性好,上下文窗口是短板
  • Qwen3.7-Max​:综合强但在 coding 领域性价比不高

LongCat-2.0 最值得关注的点其实不是 benchmark 分数——这分数迟早被追赶——而是全程国产算力这件事。5 万张国产 ASIC 训出一个 1.6T 的开源模型,意味着国内 AI 芯片的自主替代已经从"能用"走到了"能打"的阶段。

另外,LongCat 团队在 Agentic Coding 这个方向上的专注度很高。从 2025 年 9 月的 LongCat-Flash-Chat 开始,到 Flash-Thinking、Flash-Prover,再到现在的 2.0,整个产品线都是围绕 agent 场景做深度优化。这种专注在现在这个大家都想做大而全的时代挺难得的。

后续怎么走,要看两件事:

  1. 权重什么时候真正上传到 HuggingFace(现在页面建好了但权重没传)
  2. 促销期过后,原价 ¥5/¥20 的定价在市场上有没有竞争力

就目前这个时间点来说,如果你在找 DeepSeek V4 Pro 的替代品,LongCat-2.0 是值得认真考虑的选择。

1
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区