目 录CONTENT

文章目录

AI Agent 工具链横评:Codex、Claude Code、Kimi Code、OpenCode 工具对比

过客
2026-06-20 / 0 评论 / 1 点赞 / 11 阅读 / 0 字

最近看了一圈 Codex、Claude Code、Kimi Code、OpenCode、Hermes,我发现它们已经不太像同一类工具了。

有的偏写代码,有的偏跑流程,有的偏长任务,有的偏团队交付,还有的干脆想做一个 Agent Hub。

所以这篇不聊谁跑分高,也不聊谁的 benchmark 更吓人。对程序员来说,真正重要的是:

它能不能接手一段真实工作流?

也就是这条链路能不能跑顺:

理解任务 → 执行工具 → 处理权限 → 交付结果 → 复用流程

如果只看模型能力,很容易看花眼。现在这些工具已经开始分岔了。

1. AI 编程工具,已经不只是“帮我写代码”

以前我们说 Coding Agent,基本就是:

  • 帮我写代码
  • 帮我改 bug
  • 帮我补测试
  • 帮我解释报错

现在不一样了。

最近这些工具都在往更完整的工作流走:

  • Codex 开始支持 Record & Replay,把重复流程录成 Skill
  • Claude Code 上了 Artifacts,把终端工作变成可分享的页面
  • Kimi Code 强化了 Goal、AgentSwarm、后台问题、Sub-Skill
  • OpenCode 强化 LSP、AST、MCP、插件生态
  • Hermes 做后台 subagent、多平台渠道、Dashboard、Profile Builder

这说明一件事:

AI 编程工具正在从“终端里的助手”,变成“能接手一段工作流的 Agent”。

这也是我觉得横评不能只问“谁代码能力强”的原因。

写代码只是第一步。真正麻烦的是后面的事:

  • 谁来跑测试?
  • 谁来处理审批?
  • 谁把结果整理给团队?
  • 谁能把流程沉淀下来?
  • 谁能后台跑长任务?
  • 谁能接入本地文件、MCP、LSP、浏览器、消息渠道?

这些才是现在工具链开始卷的地方。

2. Codex:把重复流程录成 Skill

Codex 最近比较有代表性的更新,是 ​Record & Replay​。

翻译成人话就是:

你不用写一长串 prompt,只要示范一次流程,Codex 把它整理成可复用的 Skill。

这个方向很有意思。

它不是单纯写代码,而是在把 GUI 操作、浏览器操作、插件调用,变成可复用的自动化流程。

适合场景大概是这些:

  • 填写报销单
  • 提交 issue
  • 发布内容
  • 下载报表
  • 填写表单
  • 定期整理数据
  • 把某个网页流程重复跑一遍

这类任务有个共同点:流程明确,但操作繁琐。

以前你可能要写一堆 prompt:

先打开这个页面,然后点这里,再输入这个字段,再下载这个报表,最后把结果整理成表格。

现在 Codex 的思路是:

你先演示一次,我记录,然后下次你来告诉我新的输入。

这其实更接近 RPA,但它又比普通 RPA 多了一层理解能力。

不过 Codex 这条路也不是万能的。

它更适合:

  • 流程固定的重复任务
  • 有明确输入输出的流程
  • 需要浏览器 / GUI / 插件配合的任务
  • 办公自动化、运营流程、轻量业务操作

不太适合:

  • 开放式研发任务
  • 架构设计
  • 复杂代码迁移
  • 需要大量上下文判断的工程问题

所以我对 Codex 的判断是:

它不是最强的 Coding Agent,但它正在把“重复工作流自动化”这个坑填上。

3. Claude Code:终端 Coding + Artifacts 交付

Claude Code 最近的亮点是 ​Artifacts​。

它不是简单把代码输出到终端,而是可以把 Claude Code 的工作成果发布成一个可分享的私有页面。

这个功能很实用。

比如你可以让它:

  • 把 PR 改动整理成一个带标注的 review 页面
  • 把一次排查过程做成时间线
  • 把部署失败数据做成 dashboard
  • 把几个方案并排展示
  • 把迁移计划做成 checklist
  • 生成一个团队能直接打开看的 HTML 页面

这解决了一个很真实的痛点:

终端输出适合人看,但不一定适合团队同步。

以前 Claude Code 跑完一堆东西,你可能要把结果复制到 Slack、飞书、Notion 里。

现在可以直接给一个 artifact 链接。

这对团队协作很友好。

尤其是这些场景:

  • PR review
  • 技术方案对比
  • 故障复盘
  • 数据看板
  • 迁移计划
  • 给产品 / 测试 / 非技术同事看的交付物

但 Artifacts 也不是完整应用。

官方文档里也讲得很清楚,它更像:

一个自包含的单页交付物。

它不适合:

  • 多页面应用
  • 需要后端的应用
  • 需要实时 API 调用的页面
  • 复杂业务系统

所以我对 Claude Code 的判断是:

它很适合“编码 + 交付物”。尤其适合需要把终端工作变成团队可理解内容的场景。

简单说:

Claude Code 不只是把代码写出来,它还在帮你把结果讲清楚。

4. Kimi Code / Kimi Work:国产 Agent 的长任务打法

Kimi 这边要分两块看:Kimi Code 和 ​Kimi Work​。

它们相关,但定位不一样。

先说清楚一个前提:​Kimi Work 目前还偏 internal testing / Beta 状态​,公开可用性、稳定性、插件覆盖范围,都不一定像官方介绍得那么成熟。把它写进横评,更适合当成“方向观察”,不要当成已经完全稳定可用的生产工具。

Kimi Code:更像开发者的长任务 Agent

Kimi Code 最近的更新很密。

几个值得关注的点:

  • Kimi K2.7 Code 发布
  • Goal 模式
  • 后台结构化提问
  • Sub-Skill
  • AgentSwarm
  • /goal next 任务队列
  • 从 Claude Code / Codex 导入指令、Skills、MCP 设置
  • ACP 接入 IDE
  • Web 模式
  • 会话可视化 kimi vis

这里最值得关注的是 Goal 模式 和 ​AgentSwarm​。

Goal 模式的思路是:

你给一个目标,它跨多个轮次持续推进,直到完成,或者遇到需要你决策的阻塞。

这对程序员很实用。

比如你给它一个任务:

把这个项目的配置整理一下,补 README,生成部署脚本,跑一遍测试,最后给我迁移清单。

这种任务不是一句 prompt 能说完的。

它中间可能需要:

  • 读代码
  • 改配置
  • 跑命令
  • 遇到测试失败再修
  • 问你几个选择
  • 最后整理结果

Kimi Code 现在明显在补这类能力。

还有 后台结构化提问 也挺关键。

以前 Agent 遇到一个问题卡住,整个流程就停了。

现在它可以把需要人确认的问题挂到后台,然后继续处理其他步骤。

这对长任务很重要。

长任务最怕的不是慢,而是动不动就停下来等你。

另外,Kimi Code 支持从 Claude Code 和 Codex 导入部分指令、Skills、MCP 设置,这个对迁移用户挺友好。

不用一上来全部重配。

Kimi Work:更像桌面级数字员工,但要等成熟度

Kimi Work 更偏知识工作者,不只是程序员。

它主打的是:

  • 本地文件
  • 浏览器自动化 WebBridge
  • 定时任务
  • Agent Swarm
  • 生成 PPT / Excel
  • 金融数据源
  • 目标模式
  • 插件中心

如果说 Kimi Code 更像“开发终端里的 Agent”,那 Kimi Work 更像:

一个坐在你电脑上的数字员工。

它适合:

  • 自动抓网页数据
  • 整理行业资料
  • 生成 PPT
  • 做 Excel
  • 跑定时任务
  • 处理本地文件
  • 跨网页执行多步骤任务

但这里要特别保守一点。

Kimi Work 目前不要当成熟生产工具写。

至少到 2026 年 6 月,它更像是 internal testing / Beta 方向,公开可用性、权限边界、插件稳定性、长任务可靠性,都需要再观察。

所以我对 Kimi Work 的判断是:

方向很诱人,但现阶段更适合试用和观察,不适合直接写进公司生产流程。

如果说 Kimi Code 是“国产长任务 Agent”的实打实入口,Kimi Work 更像是月之暗面在桌面级 Agent 上的一次提前占位。

5. OpenCode:本地可控的 Agent Runtime

OpenCode 的定位不太一样。

它不像 Claude Code 那样主打终端体验和团队交付,也不像 Kimi Work 那样偏桌面数字员工。

OpenCode 更像:

一个可以本地配置、组合 LSP / AST / MCP / 插件的 Agent Runtime。

这点很重要。

它适合喜欢自己搭工作流的人。

比如:

  • 自己配置 LSP
  • 自己接 MCP
  • 自己选模型
  • 自己写 instruction
  • 自己控制 Agent 行为
  • 自己决定哪些工具能跑

OpenCode 最近比较值得写的是 ​LSP Servers​。

它支持很多语言服务器,比如:

  • Go:gopls
  • Java:jdtls
  • C#:csharp / razor
  • TypeScript:typescript
  • Python:pyright
  • Rust:rust-analyzer
  • Kotlin:kotlin-ls
  • PHP:php intelephense
  • Vue / Svelte / Astro 等前端项目也有对应支持

LSP 的作用是把语言服务器 diagnostics 反馈给 Agent。

也就是说,Agent 不只是靠聊天上下文理解代码,还能拿到:

  • 语法错误
  • 类型错误
  • lint 问题
  • 项目诊断信息

这对写代码有帮助。

但这里要泼一盆冷水:

LSP 不是越强越好。

OpenCode 文档里也说得很实在。

LSP 可能:

  • 占内存
  • 和工程状态不同步
  • 拖慢 Agent workflow
  • 不同项目体验差异很大
  • 有些项目不如直接跑 lint / typecheck

所以我的建议是:

不要无脑开 LSP。

更稳的做法是:

  • 小项目可以先开
  • 大型项目谨慎开
  • Java / C# / Go 这类强类型项目可以试
  • 前端项目可以先用 eslint / typecheck
  • 如果 LSP 拖慢明显,关掉,让 Agent 直接跑 CLI 诊断

我对 OpenCode 的判断是:

它适合本地可控的工作流,不适合只想开箱即用的人。

如果你喜欢自己调配置、接工具、控制边界,OpenCode 很有意思。

如果你只想打开就用,Claude Code / Kimi Code 可能更省心。

6. Hermes:从 Agent 客户端,变成 Agent Hub

Hermes 最近的版本,已经不是单纯一个 Agent 客户端了。

它更像是在做:

Agent Hub。

这版 Hermes 有几个变化值得注意:

  • 后台 subagent
  • Desktop App 大幅增强
  • Dashboard Profile Builder
  • Skills Hub 重做
  • Memory atomic batch
  • Telegram rich messages
  • iMessage / Raft / WhatsApp 新渠道
  • image edit
  • Grok Composer 模型接入
  • Curator 默认省成本

这里面最值得程序员关注的是 ​后台 subagent​。

以前你让 Agent 跑一个长任务,很多时候只能等着。

现在 Hermes 的后台 subagent 可以:

  • 立即返回 handle
  • 后台继续跑
  • 跑完再把结果送回对话

这对多任务场景很实用。

比如你可以让它后台做:

  • 长调研
  • 多步骤 build
  • 文档整理
  • 日志分析
  • 代码迁移检查

然后你自己继续干别的。

另外,Hermes 的 Dashboard Profile Builder 也很关键。

它让你可以在浏览器里配置:

  • model
  • skills
  • MCP servers
  • profile
  • session
  • tool backend

这对团队管理 Agent 很有用。

因为 Agent 一旦变成日常工具,问题就不只是“怎么问 prompt”了。

你还要管:

  • 谁用什么模型
  • 哪些 profile 给谁用
  • 哪些 skills 可以装
  • 哪些 MCP 能连
  • 哪些渠道能发消息
  • 哪些任务可以后台跑

所以我对 Hermes 的判断是:

它适合做 Agent Hub,不适合只拿它当一个代码补全工具。

7. 这几个工具,到底怎么选?

我不建议按“谁最强”选。

这个选法太虚。

更实际的选法是按任务选。

如果你想改代码

优先看:

  • Claude Code
  • Kimi Code
  • OpenCode

如果你想要省心和交付物,Claude Code 更顺。

如果你想要国产长任务,Kimi Code 值得试。

如果你想要本地可控,OpenCode 更适合。

如果你想做团队交付

优先看:

  • Claude Code Artifacts
  • Kimi Work,前提是你能拿到测试资格,并且接受 Beta 状态
  • Hermes Desktop

尤其是 Claude Code Artifacts,很适合把 PR review、排查过程、方案对比做成页面。

这点比单纯终端输出更接近团队协作。

如果你想跑长任务

优先看:

  • Kimi Code Goal
  • Hermes background subagent
  • OpenCode background agents

长任务的核心不是“会不会写代码”,而是:

  • 能不能持续推进
  • 能不能后台跑
  • 遇到阻塞怎么办
  • 能不能接下一个目标
  • 能不能恢复上下文

Kimi Code 的 Goal / AgentSwarm 是这条路线。

Hermes 的后台 subagent 也是这条路线。

如果你想自动化重复流程

优先看:

  • Codex Record & Replay
  • Kimi Work WebBridge,但现阶段更偏 Beta 试用
  • Hermes Automation Blueprints

这类任务的关键不是模型多聪明,而是:

  • 能不能记录流程
  • 能不能复用
  • 能不能处理变量输入
  • 能不能分享
  • 能不能稳定重跑

Codex Record & Replay 的思路很直接:

示范一次,变成 Skill,下次复用。

这对重复办公流程很有吸引力。

如果你想搭本地 Agent 工作流

优先看:

  • OpenCode
  • Hermes

OpenCode 更偏本地 runtime。

Hermes 更偏 hub 和管理面。

如果你想自己控制模型、工具、MCP、LSP、权限边界,这两个都值得看。

8. 一张表看定位

工具 更适合做什么 不太适合什么 一句话判断
Codex 重复流程自动化、GUI / 浏览器操作、Skill 复用 开放式研发、复杂架构任务 把流程录下来,下次接着跑
Claude Code 编码、PR review、团队交付物、Artifacts 多平台消息接入、本地 Agent Hub 写代码,也负责把结果讲清楚
Kimi Code 国产长任务、多 Agent 并行、开发者工作流 团队级 Agent 管理面 给一个目标,让它持续推进
Kimi Work 知识工作、浏览器自动化、PPT / Excel、定时任务 成熟生产工具 方向诱人,但目前更适合试用观察
OpenCode 本地可控 Agent Runtime、LSP / MCP / 插件组合 开箱即用、非技术用户 喜欢自己搭工作流的人会更喜欢
Hermes 多平台渠道、后台 subagent、Agent Hub、Profile 管理 单一编码场景 更像 Agent 中枢,不像单个工具

这张表别当排行榜看。

它更像是选型图。

9. 我的真实建议

如果我是个人开发者,我不会一上来就追最贵的旗舰。

我会先按自己的真实工作流选。

经常写代码、改 bug、跑测试

先用 Claude Code / Kimi Code / OpenCode 试。

  • 想要交付物:Claude Code
  • 想要国产长任务:Kimi Code
  • 想要本地可控:OpenCode

经常做团队同步

重点看 ​Claude Code Artifacts​。

它解决的不是代码问题,而是协作问题。

很多技术工作最后不是死在“不会写”,而是死在“写完了没人看得懂”。

经常有重复流程

重点看 ​Codex Record & Replay​。

如果你经常做“打开网页、下载报表、填表、通知别人”这种事,录一次流程比写 20 行 prompt 靠谱。

经常跑长任务

重点看 Kimi Code Goal 和 ​Hermes background subagent​。

长任务最重要的不是快,而是稳。

能后台跑、能恢复、能排队、能处理阻塞,比单次回答漂亮更重要。

想把 Agent 当系统级工具用

重点看 ​Hermes​。

它更像 Agent Hub,不只是 coding 工具。

多 profile、多平台、多渠道、后台任务、Dashboard 管理,这些才是 hub 的价值。

10. 最后说说我的用法

现在这批 AI Agent 工具,已经不是“谁替代谁”的关系了。

更像是一套组合:

  • OpenCode​:本地工作流,自己可控
  • Kimi Code​:国产长任务,持续推进
  • Claude Code​:编码和团队交付
  • Codex​:重复流程自动化
  • Kimi Work​:知识工作和浏览器自动化,但当前更适合试用观察
  • Hermes​:Agent Hub 和多平台调度

真正好用的方式,不是只装一个。

而是把你的工作拆开:

  • 写代码,用什么
  • 跑长任务,用什么
  • 做交付物,用什么
  • 自动化重复流程,用什么
  • 管理多个 Agent,用什么

这才是现在 AI Agent 工具链横评最有用的地方。

别再只问“哪个模型强”。

先问你的工作流卡在哪。

卡点不同,答案完全不同。

1

评论区