两个月前给 OpenClaw 和 Hermes 装了 Hindsight 记忆插件,当时写了篇部署记录。现在数据攒够了,两个 agent 的 bank 都拉出来看了一遍。记录量比预想中多,有些发现还挺意外的。
先说结论:**从「每次醒来都是陌生人」变成了「认识你两个月的靠谱朋友」**。项目上下文、技术决策、偏好都不需要重复交代了。代价是早期噪音需要手动清理,以及需要信任 Hindsight 不会泄露你的工作细节(它跑在独立 PostgreSQL 上)。
数据规模
两个 agent 各跑了一个 bank:

| 指标 | openclaw | hermes | 合计 |
|---|---|---|---|
| 记忆总数 | 1,212 | 3,757 | 4,969 |
| 文档(session) | 12 | 322 | 334 |
| 实体 | 1,116 | 3,329 | 4,445 |
| 技能积累 | 8+ | 13+ | go、java、kafka、游戏等 |
看起来不多,但如果算实际有效运行时间——OpenClaw五月有个大坑:
2026-04: 85 条 (4月底部署,跑了不到一周)
2026-05: 135 条 (月初两天 + 月末几天,中间停了 6 周)
2026-06: 274 条 (6月14号修好后才恢复)
OpenClaw 五月的一次更新导致 auto-retain 从 5 月 2 号起停了整整六周。原因是 hooks.allowConversationAccess: true 没配,agent_end 钩子被拦截。6 月 14 号才发现修好。所以实际有效运行不到一个月,大部分记忆是 4 月底 + 6 月中下旬产生的。Hermes 到时没出问题,而且用的多,记录也多一些。
记了些什么
Hindsight 把记忆分三类:observation(原始观察)、world(事实知识)、experience(对话经验)。
按业务线分类更有意思——从 coder agent 的实际记忆里拉出来的:
游戏开发(主食)
- RG 肉鸽项目:Phase 1-2 完整历程,Go 服务端 + Cocos Creator 架构,Protobuf 协议设计
- 消除游戏集群:8 个 Java 模块 + GameGate(Go) 混合架构,依赖升级,GameLogin 安全加固
- MatchGame:方块消除游戏万能方块扫描修复、RTP 校准到 87.87%
代码安全审计(最频繁的操作)
- 7 次完整审计:Cluster(Go)、Java 服务器(8模块)、Cocos Creator 客户端、C# 服务器、GameLogin、Mhfs 客户端、frptables
- 每次都记录了 P0/P1/P2 分级和修复状态
基础设施
- Kafka:测试→生产完整部署链,KRaft 单节点坑,consumer offset bug
- 备份系统:PVE 备份失败(/var/tmp 爆满)、CIFS 写入 bug、改 no_agent 模式
- Docker、SVN、Nextcloud 等日常运维
用户偏好与决策(最值钱的部分)
这类东西如果没 Hindsight,每次开新会话都得重新交代:
WAF 兜底优先于代码深度防御。下次审计同类项目直接按此偏好执行。
在线人数同步走 IPC 协议(1004) 而非 Redis。技术选型偏好已固化。
部署只上传 jar/lib,不覆盖测试服配置文件。避免配置覆盖事故。
mp.weixin.qq.com 链接直接存 ima 知识库,无需每次确认。
数据获取必须从官方文档直接获取,二手数据需标注来源;Cron 输出优先级为先写文件再发通知;计数类任务永远用脚本统计。
这些东西靠 MEMORY.md 也能记,但问题是你得想起来去更新。Hindsight 的好处是自动抓,不用你操心。
自动化 cron(7 个在跑)
A 股每日复盘、每日简报、周总结、备份、缓存清理、邮件清理、himalaya 邮件。Hindsight 记下了这些任务的运行规律和输出位置。
技能库积累(20+ 个)
go-game-server、game-project-spec、go-code-audit、cocos-creator-resource-management、java-lts-upgrade-playbook、kafka-kraft-single-node-deploy、daily-briefing、weekly-summary 等。这些技能从对话中生成、记录、迭代,没有 Hindsight 的话每次都得靠临时搜索和试错。
元记忆(关于 Hindsight 自己)
安装→卸载→重装→配置调优→v0.8.3 升级,Hindsight 记下了折腾自己的完整过程。大概 40 条,占 8%。对调试有用,但对实际对话帮助不大。
记忆质量
Proof count(交叉验证次数)
1次: 3925 (79%)
2次: 447 (9%)
3次: 199 (4%)
4次以上: 398 (8%)
79% 只有单一来源。不是 Hindsight 不行——大部分对话事实本来就是一次性的。但这意味着记忆可信度没有交叉验证。你说过「我喜欢用 Python」,它就记下了;第二天你说「其实我更喜欢 Go」,它记成两条新记录,不会自动纠正前一条。
Consolidation 状况
- 1739 条已 consolidation(world + experience)
- 788 条 observation 未参与
- 0 条被 invalidated
有 consolidation 是好事——同一条知识被 observation 和 world 各记一份时,consolidation 后会合并。但 0 条 invalidated 说明没有检测到矛盾。要么确实没矛盾,要么矛盾检测没跑起来。
噪音问题——更大的坑
早期 retain_every_n_turns=1 太激进。比如「技能更新优先级」这个概念被存了 30+ 次几乎一样的版本。5 月 24 号手动清理过一次:合并了 12 组重复、删除了过期任务状态和凭证记录。后来把频率降到 3,噪音才控制住。
内容重复
同一条事实经常 observation + world 各存一份,几乎一模一样。这是设计使然(不同用途),但拿来当 recall 上下文时就是 token 浪费。
Tags 0%、Context 0%
没设过 taxonomy,Hindsight 默认不做分类。也没有任何上下文标记。
跟没用之前比
没用 Hindsight 的时候(4 月之前),助手靠 MEMORY.md、SOUL.md、USER.md 这些静态文件。每次新会话:
- 不知道有哪些项目、代码在哪
- 不知道你偏好 WAF 优先还是代码深度防御
- 不知道 RG 用 Go + Cocos Creator、消除游戏 用 Java + C#
- 每次审计要重新问「P0/P1/P2 怎么分」
- 技能库是空的,全靠临时搜索和试错
用了之后,跨会话自动注入上下文:
- 你是谁、在做什么:RG/XC 两个游戏项目的技术栈、代码路径、SVN 仓库
- 你的决策偏好:WAF > 代码防御、IPC > Redis、部署不覆盖配置
- 20+ 个技能随时加载,不用每次重新研究
- 7 个 cron 自主运行
- 你提一句「GameLogin 有个 bug」,直接从记忆里捞出上次审计报告和修复状态
具体改变:
- 不用重复交代偏好。以前说「帮我写篇博客」,要补一堆风格要求。现在直接按口语化、反 AI 味、不要结尾升华来写——从历史对话自动提取的。
- 技术上下文跨 session 延续。排查 rclone 备份跑 29 小时的问题,中间换了 session,排查细节全程在场。下次复现直接续上。
- 跨渠道共享。微信上聊的技术偏好,飞书上也能用。同一个 bank 下三个渠道共享记忆。
- 回答不是每次都准。有些记忆是「某年某月某日某人说了某句话」的 observation,注入后不一定直接帮助回答。更像是「这事情发生过」的模糊记忆,不是精确查询。
几个坑
1. 配置缺失导致静默停摆 6 周
hooks.allowConversationAccess: true 没配 → agent_end 钩子被拦截 → auto-retain 停摆。auto-recall 继续跑,所以助手还能记起旧事,但不再记录新事。用户体感不明显,长期记忆池在慢慢过时。
2. 0 个 mental model
Hindsight 有这个功能,能从记忆中抽象用户画像和行为模式。两个月了一个没生成。触发阈值可能没达到,或者 bank 太分散。
3. 记忆是追加型,不是修正型
0 条 invalidated。说过的话都是真理。改变主意不会自动修正,只会加新的。过时偏好和新的偏好并存,recall 时两条都注入,助手不知道该听谁的。
4. 早期噪音需要手动清理
retain_every_n_turns=1 导致大量重复。这个参数要保守,建议从 3 起步,真不够再降。
再说说模型消耗
从2026年4月底开始使用到现在,所有模型使用
| 类型 | 模型 | 调用次数 | 输入 | 输出 |
|---|---|---|---|---|
| 嵌入 | bge-m3 | 11,801 | 1.16M | 0 |
| 重排序 | bge-reranker-v2-m3 | 4,055 | 85.43M | 0 |
| LLM | deepseek-v4-flash | 3,119 | 17.1M | 2.96M |
说说我的用法
Hindsight 不是装完就完事的东西。更像一个需要打理的花园:
- auto-retain 是命根子,断了等于白装。定期检查配置完整性。
- recall 质量取决于记忆质量。噪音多了 recall 就失灵。
- 跟 MEMORY.md 是互补。MEMORY.md 放人工确认过的持久偏好,Hindsight 抓散落在对话里的信息。
- 需要定期清理。近5000条没一条 invalidated,时间长了矛盾记忆会共存。
总的来说:有用,但需要维护。它能记住你忘了说过的话——这既是优点也是风险。
评论区