用了两个月 Hindsight，AI 助手到底记住了什么？-过客

两个月前给 OpenClaw 和 Hermes 装了 Hindsight 记忆插件，当时写了篇部署记录。现在数据攒够了，两个 agent 的 bank 都拉出来看了一遍。记录量比预想中多，有些发现还挺意外的。

先说结论：**从「每次醒来都是陌生人」变成了「认识你两个月的靠谱朋友」**。项目上下文、技术决策、偏好都不需要重复交代了。代价是早期噪音需要手动清理，以及需要信任 Hindsight 不会泄露你的工作细节（它跑在独立 PostgreSQL 上）。

数据规模

两个 agent 各跑了一个 bank：

指标	openclaw	hermes	合计
记忆总数	1,212	3,757	4,969
文档（session）	12	322	334
实体	1,116	3,329	4,445
技能积累	8+	13+	go、java、kafka、游戏等

看起来不多，但如果算实际有效运行时间——OpenClaw五月有个大坑：

2026-04:  85 条  （4月底部署，跑了不到一周）
2026-05: 135 条  （月初两天 + 月末几天，中间停了 6 周）
2026-06: 274 条  （6月14号修好后才恢复）

OpenClaw 五月的一次更新导致 auto-retain 从 5 月 2 号起停了整整六周。原因是 hooks.allowConversationAccess: true 没配，agent_end 钩子被拦截。6 月 14 号才发现修好。所以实际有效运行不到一个月，大部分记忆是 4 月底 + 6 月中下旬产生的。Hermes 到时没出问题，而且用的多，记录也多一些。

记了些什么

Hindsight 把记忆分三类：observation（原始观察）、world（事实知识）、experience（对话经验）。

按业务线分类更有意思——从 coder agent 的实际记忆里拉出来的：

游戏开发（主食）

RG 肉鸽项目：Phase 1-2 完整历程，Go 服务端 + Cocos Creator 架构，Protobuf 协议设计
消除游戏集群：8 个 Java 模块 + GameGate(Go) 混合架构，依赖升级，GameLogin 安全加固
MatchGame：方块消除游戏万能方块扫描修复、RTP 校准到 87.87%

代码安全审计（最频繁的操作）

7 次完整审计：Cluster(Go)、Java 服务器(8模块)、Cocos Creator 客户端、C# 服务器、GameLogin、Mhfs 客户端、frptables
每次都记录了 P0/P1/P2 分级和修复状态

基础设施

Kafka：测试→生产完整部署链，KRaft 单节点坑，consumer offset bug
备份系统：PVE 备份失败（/var/tmp 爆满）、CIFS 写入 bug、改 no_agent 模式
Docker、SVN、Nextcloud 等日常运维

用户偏好与决策（最值钱的部分）

这类东西如果没 Hindsight，每次开新会话都得重新交代：

WAF 兜底优先于代码深度防御。下次审计同类项目直接按此偏好执行。
在线人数同步走 IPC 协议(1004) 而非 Redis。技术选型偏好已固化。
部署只上传 jar/lib，不覆盖测试服配置文件。避免配置覆盖事故。
mp.weixin.qq.com 链接直接存 ima 知识库，无需每次确认。
数据获取必须从官方文档直接获取，二手数据需标注来源；Cron 输出优先级为先写文件再发通知；计数类任务永远用脚本统计。

这些东西靠 MEMORY.md 也能记，但问题是你得想起来去更新。Hindsight 的好处是自动抓，不用你操心。

自动化 cron（7 个在跑）

A 股每日复盘、每日简报、周总结、备份、缓存清理、邮件清理、himalaya 邮件。Hindsight 记下了这些任务的运行规律和输出位置。

技能库积累（20+ 个）

go-game-server、game-project-spec、go-code-audit、cocos-creator-resource-management、java-lts-upgrade-playbook、kafka-kraft-single-node-deploy、daily-briefing、weekly-summary 等。这些技能从对话中生成、记录、迭代，没有 Hindsight 的话每次都得靠临时搜索和试错。

元记忆（关于 Hindsight 自己）

安装→卸载→重装→配置调优→v0.8.3 升级，Hindsight 记下了折腾自己的完整过程。大概 40 条，占 8%。对调试有用，但对实际对话帮助不大。

记忆质量

Proof count（交叉验证次数）

1次:  3925 (79%)
2次:   447 (9%)
3次:   199 (4%)
4次以上: 398 (8%)

79% 只有单一来源。不是 Hindsight 不行——大部分对话事实本来就是一次性的。但这意味着记忆可信度没有交叉验证。你说过「我喜欢用 Python」，它就记下了；第二天你说「其实我更喜欢 Go」，它记成两条新记录，不会自动纠正前一条。

Consolidation 状况

1739 条已 consolidation（world + experience）
788 条 observation 未参与
0 条被 invalidated

有 consolidation 是好事——同一条知识被 observation 和 world 各记一份时，consolidation 后会合并。但 0 条 invalidated 说明没有检测到矛盾。要么确实没矛盾，要么矛盾检测没跑起来。

噪音问题——更大的坑

早期 retain_every_n_turns=1 太激进。比如「技能更新优先级」这个概念被存了 30+ 次几乎一样的版本。5 月 24 号手动清理过一次：合并了 12 组重复、删除了过期任务状态和凭证记录。后来把频率降到 3，噪音才控制住。

内容重复

同一条事实经常 observation + world 各存一份，几乎一模一样。这是设计使然（不同用途），但拿来当 recall 上下文时就是 token 浪费。

Tags 0%、Context 0%

没设过 taxonomy，Hindsight 默认不做分类。也没有任何上下文标记。

跟没用之前比

没用 Hindsight 的时候（4 月之前），助手靠 MEMORY.md、SOUL.md、USER.md 这些静态文件。每次新会话：

不知道有哪些项目、代码在哪
不知道你偏好 WAF 优先还是代码深度防御
不知道 RG 用 Go + Cocos Creator、消除游戏用 Java + C#
每次审计要重新问「P0/P1/P2 怎么分」
技能库是空的，全靠临时搜索和试错

用了之后，跨会话自动注入上下文：

你是谁、在做什么：RG/XC 两个游戏项目的技术栈、代码路径、SVN 仓库
你的决策偏好：WAF > 代码防御、IPC > Redis、部署不覆盖配置
20+ 个技能随时加载，不用每次重新研究
7 个 cron 自主运行
你提一句「GameLogin 有个 bug」，直接从记忆里捞出上次审计报告和修复状态

具体改变：

不用重复交代偏好。以前说「帮我写篇博客」，要补一堆风格要求。现在直接按口语化、反 AI 味、不要结尾升华来写——从历史对话自动提取的。
技术上下文跨 session 延续。排查 rclone 备份跑 29 小时的问题，中间换了 session，排查细节全程在场。下次复现直接续上。
跨渠道共享。微信上聊的技术偏好，飞书上也能用。同一个 bank 下三个渠道共享记忆。
回答不是每次都准。有些记忆是「某年某月某日某人说了某句话」的 observation，注入后不一定直接帮助回答。更像是「这事情发生过」的模糊记忆，不是精确查询。

几个坑

1. 配置缺失导致静默停摆 6 周

hooks.allowConversationAccess: true 没配 → agent_end 钩子被拦截 → auto-retain 停摆。auto-recall 继续跑，所以助手还能记起旧事，但不再记录新事。用户体感不明显，长期记忆池在慢慢过时。

2. 0 个 mental model

Hindsight 有这个功能，能从记忆中抽象用户画像和行为模式。两个月了一个没生成。触发阈值可能没达到，或者 bank 太分散。

3. 记忆是追加型，不是修正型

0 条 invalidated。说过的话都是真理。改变主意不会自动修正，只会加新的。过时偏好和新的偏好并存，recall 时两条都注入，助手不知道该听谁的。

4. 早期噪音需要手动清理

retain_every_n_turns=1 导致大量重复。这个参数要保守，建议从 3 起步，真不够再降。

再说说模型消耗

从2026年4月底开始使用到现在，所有模型使用

类型	模型	调用次数	输入	输出
嵌入	bge-m3	11,801	1.16M	0
重排序	bge-reranker-v2-m3	4,055	85.43M	0
LLM	deepseek-v4-flash	3,119	17.1M	2.96M

说说我的用法

Hindsight 不是装完就完事的东西。更像一个需要打理的花园：

auto-retain 是命根子，断了等于白装。定期检查配置完整性。
recall 质量取决于记忆质量。噪音多了 recall 就失灵。
跟 MEMORY.md 是互补。MEMORY.md 放人工确认过的持久偏好，Hindsight 抓散落在对话里的信息。
需要定期清理。近5000条没一条 invalidated，时间长了矛盾记忆会共存。

总的来说：有用，但需要维护。它能记住你忘了说过的话——这既是优点也是风险。

目录CONTENT

用了两个月 Hindsight，AI 助手到底记住了什么？