AI Agent 工具链横评：Codex、Claude Code、Kimi Code、OpenCode 工具对比-过客

最近看了一圈 Codex、Claude Code、Kimi Code、OpenCode、Hermes，我发现它们已经不太像同一类工具了。

有的偏写代码，有的偏跑流程，有的偏长任务，有的偏团队交付，还有的干脆想做一个 Agent Hub。

所以这篇不聊谁跑分高，也不聊谁的 benchmark 更吓人。对程序员来说，真正重要的是：

它能不能接手一段真实工作流？

也就是这条链路能不能跑顺：

理解任务 → 执行工具 → 处理权限 → 交付结果 → 复用流程

如果只看模型能力，很容易看花眼。现在这些工具已经开始分岔了。

1. AI 编程工具，已经不只是“帮我写代码”

以前我们说 Coding Agent，基本就是：

帮我写代码
帮我改 bug
帮我补测试
帮我解释报错

现在不一样了。

最近这些工具都在往更完整的工作流走：

Codex 开始支持 Record & Replay，把重复流程录成 Skill
Claude Code 上了 Artifacts，把终端工作变成可分享的页面
Kimi Code 强化了 Goal、AgentSwarm、后台问题、Sub-Skill
OpenCode 强化 LSP、AST、MCP、插件生态
Hermes 做后台 subagent、多平台渠道、Dashboard、Profile Builder

这说明一件事：

AI 编程工具正在从“终端里的助手”，变成“能接手一段工作流的 Agent”。

这也是我觉得横评不能只问“谁代码能力强”的原因。

写代码只是第一步。真正麻烦的是后面的事：

谁来跑测试？
谁来处理审批？
谁把结果整理给团队？
谁能把流程沉淀下来？
谁能后台跑长任务？
谁能接入本地文件、MCP、LSP、浏览器、消息渠道？

这些才是现在工具链开始卷的地方。

2. Codex：把重复流程录成 Skill

Codex 最近比较有代表性的更新，是 Record & Replay。

翻译成人话就是：

你不用写一长串 prompt，只要示范一次流程，Codex 把它整理成可复用的 Skill。

这个方向很有意思。

它不是单纯写代码，而是在把 GUI 操作、浏览器操作、插件调用，变成可复用的自动化流程。

适合场景大概是这些：

填写报销单
提交 issue
发布内容
下载报表
填写表单
定期整理数据
把某个网页流程重复跑一遍

这类任务有个共同点：流程明确，但操作繁琐。

以前你可能要写一堆 prompt：

先打开这个页面，然后点这里，再输入这个字段，再下载这个报表，最后把结果整理成表格。

现在 Codex 的思路是：

你先演示一次，我记录，然后下次你来告诉我新的输入。

这其实更接近 RPA，但它又比普通 RPA 多了一层理解能力。

不过 Codex 这条路也不是万能的。

它更适合：

流程固定的重复任务
有明确输入输出的流程
需要浏览器 / GUI / 插件配合的任务
办公自动化、运营流程、轻量业务操作

不太适合：

开放式研发任务
架构设计
复杂代码迁移
需要大量上下文判断的工程问题

所以我对 Codex 的判断是：

它不是最强的 Coding Agent，但它正在把“重复工作流自动化”这个坑填上。

3. Claude Code：终端 Coding + Artifacts 交付

Claude Code 最近的亮点是 Artifacts。

它不是简单把代码输出到终端，而是可以把 Claude Code 的工作成果发布成一个可分享的私有页面。

这个功能很实用。

比如你可以让它：

把 PR 改动整理成一个带标注的 review 页面
把一次排查过程做成时间线
把部署失败数据做成 dashboard
把几个方案并排展示
把迁移计划做成 checklist
生成一个团队能直接打开看的 HTML 页面

这解决了一个很真实的痛点：

终端输出适合人看，但不一定适合团队同步。

以前 Claude Code 跑完一堆东西，你可能要把结果复制到 Slack、飞书、Notion 里。

现在可以直接给一个 artifact 链接。

这对团队协作很友好。

尤其是这些场景：

PR review
技术方案对比
故障复盘
数据看板
迁移计划
给产品 / 测试 / 非技术同事看的交付物

但 Artifacts 也不是完整应用。

官方文档里也讲得很清楚，它更像：

一个自包含的单页交付物。

它不适合：

多页面应用
需要后端的应用
需要实时 API 调用的页面
复杂业务系统

所以我对 Claude Code 的判断是：

它很适合“编码 + 交付物”。尤其适合需要把终端工作变成团队可理解内容的场景。

简单说：

Claude Code 不只是把代码写出来，它还在帮你把结果讲清楚。

4. Kimi Code / Kimi Work：国产 Agent 的长任务打法

Kimi 这边要分两块看：Kimi Code 和 Kimi Work。

它们相关，但定位不一样。

先说清楚一个前提：Kimi Work 目前还偏 internal testing / Beta 状态，公开可用性、稳定性、插件覆盖范围，都不一定像官方介绍得那么成熟。把它写进横评，更适合当成“方向观察”，不要当成已经完全稳定可用的生产工具。

Kimi Code：更像开发者的长任务 Agent

Kimi Code 最近的更新很密。

几个值得关注的点：

Kimi K2.7 Code 发布
Goal 模式
后台结构化提问
Sub-Skill
AgentSwarm
/goal next 任务队列
从 Claude Code / Codex 导入指令、Skills、MCP 设置
ACP 接入 IDE
Web 模式
会话可视化 kimi vis

这里最值得关注的是 Goal 模式 和 AgentSwarm。

Goal 模式的思路是：

你给一个目标，它跨多个轮次持续推进，直到完成，或者遇到需要你决策的阻塞。

这对程序员很实用。

比如你给它一个任务：

把这个项目的配置整理一下，补 README，生成部署脚本，跑一遍测试，最后给我迁移清单。

这种任务不是一句 prompt 能说完的。

它中间可能需要：

读代码
改配置
跑命令
遇到测试失败再修
问你几个选择
最后整理结果

Kimi Code 现在明显在补这类能力。

还有 后台结构化提问 也挺关键。

以前 Agent 遇到一个问题卡住，整个流程就停了。

现在它可以把需要人确认的问题挂到后台，然后继续处理其他步骤。

这对长任务很重要。

长任务最怕的不是慢，而是动不动就停下来等你。

另外，Kimi Code 支持从 Claude Code 和 Codex 导入部分指令、Skills、MCP 设置，这个对迁移用户挺友好。

不用一上来全部重配。

Kimi Work：更像桌面级数字员工，但要等成熟度

Kimi Work 更偏知识工作者，不只是程序员。

它主打的是：

本地文件
浏览器自动化 WebBridge
定时任务
Agent Swarm
生成 PPT / Excel
金融数据源
目标模式
插件中心

如果说 Kimi Code 更像“开发终端里的 Agent”，那 Kimi Work 更像：

一个坐在你电脑上的数字员工。

它适合：

自动抓网页数据
整理行业资料
生成 PPT
做 Excel
跑定时任务
处理本地文件
跨网页执行多步骤任务

但这里要特别保守一点。

Kimi Work 目前不要当成熟生产工具写。

至少到 2026 年 6 月，它更像是 internal testing / Beta 方向，公开可用性、权限边界、插件稳定性、长任务可靠性，都需要再观察。

所以我对 Kimi Work 的判断是：

方向很诱人，但现阶段更适合试用和观察，不适合直接写进公司生产流程。

如果说 Kimi Code 是“国产长任务 Agent”的实打实入口，Kimi Work 更像是月之暗面在桌面级 Agent 上的一次提前占位。

5. OpenCode：本地可控的 Agent Runtime

OpenCode 的定位不太一样。

它不像 Claude Code 那样主打终端体验和团队交付，也不像 Kimi Work 那样偏桌面数字员工。

OpenCode 更像：

一个可以本地配置、组合 LSP / AST / MCP / 插件的 Agent Runtime。

这点很重要。

它适合喜欢自己搭工作流的人。

比如：

自己配置 LSP
自己接 MCP
自己选模型
自己写 instruction
自己控制 Agent 行为
自己决定哪些工具能跑

OpenCode 最近比较值得写的是 LSP Servers。

它支持很多语言服务器，比如：

Go：gopls
Java：jdtls
C#：csharp / razor
TypeScript：typescript
Python：pyright
Rust：rust-analyzer
Kotlin：kotlin-ls
PHP：php intelephense
Vue / Svelte / Astro 等前端项目也有对应支持

LSP 的作用是把语言服务器 diagnostics 反馈给 Agent。

也就是说，Agent 不只是靠聊天上下文理解代码，还能拿到：

语法错误
类型错误
lint 问题
项目诊断信息

这对写代码有帮助。

但这里要泼一盆冷水：

LSP 不是越强越好。

OpenCode 文档里也说得很实在。

LSP 可能：

占内存
和工程状态不同步
拖慢 Agent workflow
不同项目体验差异很大
有些项目不如直接跑 lint / typecheck

所以我的建议是：

不要无脑开 LSP。

更稳的做法是：

小项目可以先开
大型项目谨慎开
Java / C# / Go 这类强类型项目可以试
前端项目可以先用 eslint / typecheck
如果 LSP 拖慢明显，关掉，让 Agent 直接跑 CLI 诊断

我对 OpenCode 的判断是：

它适合本地可控的工作流，不适合只想开箱即用的人。

如果你喜欢自己调配置、接工具、控制边界，OpenCode 很有意思。

如果你只想打开就用，Claude Code / Kimi Code 可能更省心。

6. Hermes：从 Agent 客户端，变成 Agent Hub

Hermes 最近的版本，已经不是单纯一个 Agent 客户端了。

它更像是在做：

Agent Hub。

这版 Hermes 有几个变化值得注意：

后台 subagent
Desktop App 大幅增强
Dashboard Profile Builder
Skills Hub 重做
Memory atomic batch
Telegram rich messages
iMessage / Raft / WhatsApp 新渠道
image edit
Grok Composer 模型接入
Curator 默认省成本

这里面最值得程序员关注的是 后台 subagent。

以前你让 Agent 跑一个长任务，很多时候只能等着。

现在 Hermes 的后台 subagent 可以：

立即返回 handle
后台继续跑
跑完再把结果送回对话

这对多任务场景很实用。

比如你可以让它后台做：

长调研
多步骤 build
文档整理
日志分析
代码迁移检查

然后你自己继续干别的。

另外，Hermes 的 Dashboard Profile Builder 也很关键。

它让你可以在浏览器里配置：

model
skills
MCP servers
profile
session
tool backend

这对团队管理 Agent 很有用。

因为 Agent 一旦变成日常工具，问题就不只是“怎么问 prompt”了。

你还要管：

谁用什么模型
哪些 profile 给谁用
哪些 skills 可以装
哪些 MCP 能连
哪些渠道能发消息
哪些任务可以后台跑

所以我对 Hermes 的判断是：

它适合做 Agent Hub，不适合只拿它当一个代码补全工具。

7. 这几个工具，到底怎么选？

我不建议按“谁最强”选。

这个选法太虚。

更实际的选法是按任务选。

如果你想改代码

优先看：

Claude Code
Kimi Code
OpenCode

如果你想要省心和交付物，Claude Code 更顺。

如果你想要国产长任务，Kimi Code 值得试。

如果你想要本地可控，OpenCode 更适合。

如果你想做团队交付

优先看：

Claude Code Artifacts
Kimi Work，前提是你能拿到测试资格，并且接受 Beta 状态
Hermes Desktop

尤其是 Claude Code Artifacts，很适合把 PR review、排查过程、方案对比做成页面。

这点比单纯终端输出更接近团队协作。

如果你想跑长任务

优先看：

Kimi Code Goal
Hermes background subagent
OpenCode background agents

长任务的核心不是“会不会写代码”，而是：

能不能持续推进
能不能后台跑
遇到阻塞怎么办
能不能接下一个目标
能不能恢复上下文

Kimi Code 的 Goal / AgentSwarm 是这条路线。

Hermes 的后台 subagent 也是这条路线。

如果你想自动化重复流程

优先看：

Codex Record & Replay
Kimi Work WebBridge，但现阶段更偏 Beta 试用
Hermes Automation Blueprints

这类任务的关键不是模型多聪明，而是：

能不能记录流程
能不能复用
能不能处理变量输入
能不能分享
能不能稳定重跑

Codex Record & Replay 的思路很直接：

示范一次，变成 Skill，下次复用。

这对重复办公流程很有吸引力。

如果你想搭本地 Agent 工作流

优先看：

OpenCode
Hermes

OpenCode 更偏本地 runtime。

Hermes 更偏 hub 和管理面。

如果你想自己控制模型、工具、MCP、LSP、权限边界，这两个都值得看。

8. 一张表看定位

工具	更适合做什么	不太适合什么	一句话判断
Codex	重复流程自动化、GUI / 浏览器操作、Skill 复用	开放式研发、复杂架构任务	把流程录下来，下次接着跑
Claude Code	编码、PR review、团队交付物、Artifacts	多平台消息接入、本地 Agent Hub	写代码，也负责把结果讲清楚
Kimi Code	国产长任务、多 Agent 并行、开发者工作流	团队级 Agent 管理面	给一个目标，让它持续推进
Kimi Work	知识工作、浏览器自动化、PPT / Excel、定时任务	成熟生产工具	方向诱人，但目前更适合试用观察
OpenCode	本地可控 Agent Runtime、LSP / MCP / 插件组合	开箱即用、非技术用户	喜欢自己搭工作流的人会更喜欢
Hermes	多平台渠道、后台 subagent、Agent Hub、Profile 管理	单一编码场景	更像 Agent 中枢，不像单个工具

这张表别当排行榜看。

它更像是选型图。

9. 我的真实建议

如果我是个人开发者，我不会一上来就追最贵的旗舰。

我会先按自己的真实工作流选。

经常写代码、改 bug、跑测试

先用 Claude Code / Kimi Code / OpenCode 试。

想要交付物：Claude Code
想要国产长任务：Kimi Code
想要本地可控：OpenCode

经常做团队同步

重点看 Claude Code Artifacts。

它解决的不是代码问题，而是协作问题。

很多技术工作最后不是死在“不会写”，而是死在“写完了没人看得懂”。

经常有重复流程

重点看 Codex Record & Replay。

如果你经常做“打开网页、下载报表、填表、通知别人”这种事，录一次流程比写 20 行 prompt 靠谱。

经常跑长任务

重点看 Kimi Code Goal 和 Hermes background subagent。

长任务最重要的不是快，而是稳。

能后台跑、能恢复、能排队、能处理阻塞，比单次回答漂亮更重要。

想把 Agent 当系统级工具用

重点看 Hermes。

它更像 Agent Hub，不只是 coding 工具。

多 profile、多平台、多渠道、后台任务、Dashboard 管理，这些才是 hub 的价值。

10. 最后说说我的用法

现在这批 AI Agent 工具，已经不是“谁替代谁”的关系了。

更像是一套组合：

OpenCode：本地工作流，自己可控
Kimi Code：国产长任务，持续推进
Claude Code：编码和团队交付
Codex：重复流程自动化
Kimi Work：知识工作和浏览器自动化，但当前更适合试用观察
Hermes：Agent Hub 和多平台调度

真正好用的方式，不是只装一个。

而是把你的工作拆开：

写代码，用什么
跑长任务，用什么
做交付物，用什么
自动化重复流程，用什么
管理多个 Agent，用什么

这才是现在 AI Agent 工具链横评最有用的地方。

别再只问“哪个模型强”。

先问你的工作流卡在哪。

卡点不同，答案完全不同。

目录CONTENT

AI Agent 工具链横评：Codex、Claude Code、Kimi Code、OpenCode 工具对比

1. AI 编程工具，已经不只是“帮我写代码”

2. Codex：把重复流程录成 Skill

3. Claude Code：终端 Coding + Artifacts 交付

4. Kimi Code / Kimi Work：国产 Agent 的长任务打法

Kimi Code：更像开发者的长任务 Agent

Kimi Work：更像桌面级数字员工，但要等成熟度

5. OpenCode：本地可控的 Agent Runtime

6. Hermes：从 Agent 客户端，变成 Agent Hub

7. 这几个工具，到底怎么选？

如果你想改代码

如果你想做团队交付

如果你想跑长任务

如果你想自动化重复流程

如果你想搭本地 Agent 工作流

8. 一张表看定位

9. 我的真实建议

经常写代码、改 bug、跑测试

经常做团队同步

经常有重复流程

经常跑长任务

想把 Agent 当系统级工具用

10. 最后说说我的用法

评论区