目 录CONTENT

文章目录

用了两个月 Hindsight,AI 助手到底记住了什么?

过客
2026-06-28 / 0 评论 / 1 点赞 / 2 阅读 / 0 字

两个月前给 OpenClaw 和 Hermes 装了 Hindsight 记忆插件,当时写了篇部署记录。现在数据攒够了,两个 agent 的 bank 都拉出来看了一遍。记录量比预想中多,有些发现还挺意外的。

先说结论:​**从「每次醒来都是陌生人」变成了「认识你两个月的靠谱朋友」**​。项目上下文、技术决策、偏好都不需要重复交代了。代价是早期噪音需要手动清理,以及需要信任 Hindsight 不会泄露你的工作细节(它跑在独立 PostgreSQL 上)。

数据规模

两个 agent 各跑了一个 bank:

指标 openclaw hermes 合计
记忆总数 1,212 3,757 4,969
文档(session) 12 322 334
实体 1,116 3,329 4,445
技能积累 8+ 13+ go、java、kafka、游戏等

看起来不多,但如果算实际有效运行时间——OpenClaw五月有个大坑:

2026-04:  85 条  (4月底部署,跑了不到一周)
2026-05: 135 条  (月初两天 + 月末几天,中间停了 6 周)
2026-06: 274 条  (6月14号修好后才恢复)

OpenClaw 五月的一次更新导致 auto-retain 从 5 月 2 号起停了整整六周。原因是 hooks.allowConversationAccess: true 没配,agent_end 钩子被拦截。6 月 14 号才发现修好。所以​实际有效运行不到一个月​,大部分记忆是 4 月底 + 6 月中下旬产生的。Hermes 到时没出问题,而且用的多,记录也多一些。

记了些什么

Hindsight 把记忆分三类:observation(原始观察)、world(事实知识)、experience(对话经验)。

按业务线分类更有意思——从 coder agent 的实际记忆里拉出来的:

游戏开发(主食)

  • RG 肉鸽项目:Phase 1-2 完整历程,Go 服务端 + Cocos Creator 架构,Protobuf 协议设计
  • 消除游戏集群:8 个 Java 模块 + GameGate(Go) 混合架构,依赖升级,GameLogin 安全加固
  • MatchGame:方块消除游戏万能方块扫描修复、RTP 校准到 87.87%

代码安全审计(最频繁的操作)

  • 7 次完整审计:Cluster(Go)、Java 服务器(8模块)、Cocos Creator 客户端、C# 服务器、GameLogin、Mhfs 客户端、frptables
  • 每次都记录了 P0/P1/P2 分级和修复状态

基础设施

  • Kafka:测试→生产完整部署链,KRaft 单节点坑,consumer offset bug
  • 备份系统:PVE 备份失败(/var/tmp 爆满)、CIFS 写入 bug、改 no_agent 模式
  • Docker、SVN、Nextcloud 等日常运维

用户偏好与决策(最值钱的部分)

这类东西如果没 Hindsight,每次开新会话都得重新交代:

WAF 兜底优先于代码深度防御。下次审计同类项目直接按此偏好执行。
在线人数同步走 IPC 协议(1004) 而非 Redis。技术选型偏好已固化。
部署只上传 jar/lib,不覆盖测试服配置文件。避免配置覆盖事故。
mp.weixin.qq.com 链接直接存 ima 知识库,无需每次确认。
数据获取必须从官方文档直接获取,二手数据需标注来源;Cron 输出优先级为先写文件再发通知;计数类任务永远用脚本统计。

这些东西靠 MEMORY.md 也能记,但问题是你得想起来去更新。Hindsight 的好处是自动抓,不用你操心。

自动化 cron(7 个在跑)

A 股每日复盘、每日简报、周总结、备份、缓存清理、邮件清理、himalaya 邮件。Hindsight 记下了这些任务的运行规律和输出位置。

技能库积累(20+ 个)

go-game-servergame-project-specgo-code-auditcocos-creator-resource-managementjava-lts-upgrade-playbookkafka-kraft-single-node-deploydaily-briefingweekly-summary 等。这些技能从对话中生成、记录、迭代,没有 Hindsight 的话每次都得靠临时搜索和试错。

元记忆(关于 Hindsight 自己)

安装→卸载→重装→配置调优→v0.8.3 升级,Hindsight 记下了折腾自己的完整过程。大概 40 条,占 8%。对调试有用,但对实际对话帮助不大。

记忆质量

Proof count(交叉验证次数)

1次:  3925 (79%)
2次:   447 (9%)
3次:   199 (4%)
4次以上: 398 (8%)

79% 只有单一来源。不是 Hindsight 不行——大部分对话事实本来就是一次性的。但这意味着记忆可信度没有交叉验证。你说过「我喜欢用 Python」,它就记下了;第二天你说「其实我更喜欢 Go」,它记成两条新记录,不会自动纠正前一条。

Consolidation 状况

  • 1739 条已 consolidation(world + experience)
  • 788 条 observation 未参与
  • 0 条被 invalidated

有 consolidation 是好事——同一条知识被 observation 和 world 各记一份时,consolidation 后会合并。但 0 条 invalidated 说明没有检测到矛盾。要么确实没矛盾,要么矛盾检测没跑起来。

噪音问题——更大的坑

早期 retain_every_n_turns=1 太激进。比如「技能更新优先级」这个概念被存了 30+ 次几乎一样的版本。5 月 24 号手动清理过一次:合并了 12 组重复、删除了过期任务状态和凭证记录。后来把频率降到 3,噪音才控制住。

内容重复

同一条事实经常 observation + world 各存一份,几乎一模一样。这是设计使然(不同用途),但拿来当 recall 上下文时就是 token 浪费。

Tags 0%、Context 0%

没设过 taxonomy,Hindsight 默认不做分类。也没有任何上下文标记。

跟没用之前比

没用 Hindsight 的时候(4 月之前),助手靠 MEMORY.md、SOUL.md、USER.md 这些静态文件。每次新会话:

  • 不知道有哪些项目、代码在哪
  • 不知道你偏好 WAF 优先还是代码深度防御
  • 不知道 RG 用 Go + Cocos Creator、消除游戏 用 Java + C#
  • 每次审计要重新问「P0/P1/P2 怎么分」
  • 技能库是空的,全靠临时搜索和试错

用了之后,跨会话自动注入上下文:

  • 你是谁、在做什么​:RG/XC 两个游戏项目的技术栈、代码路径、SVN 仓库
  • 你的决策偏好​:WAF > 代码防御、IPC > Redis、部署不覆盖配置
  • 20+ 个技能随时加载,不用每次重新研究
  • 7 个 cron 自主运行
  • 你提一句「GameLogin 有个 bug」,直接从记忆里捞出上次审计报告和修复状态

具体改变:

  1. 不用重复交代偏好​。以前说「帮我写篇博客」,要补一堆风格要求。现在直接按口语化、反 AI 味、不要结尾升华来写——从历史对话自动提取的。
  2. 技术上下文跨 session 延续​。排查 rclone 备份跑 29 小时的问题,中间换了 session,排查细节全程在场。下次复现直接续上。
  3. 跨渠道共享​。微信上聊的技术偏好,飞书上也能用。同一个 bank 下三个渠道共享记忆。
  4. 回答不是每次都准​。有些记忆是「某年某月某日某人说了某句话」的 observation,注入后不一定直接帮助回答。更像是「这事情发生过」的模糊记忆,不是精确查询。

几个坑

1. 配置缺失导致静默停摆 6 周

hooks.allowConversationAccess: true 没配 → agent_end 钩子被拦截 → auto-retain 停摆。auto-recall 继续跑,所以助手还能记起旧事,但不再记录新事。用户体感不明显,长期记忆池在慢慢过时。

2. 0 个 mental model

Hindsight 有这个功能,能从记忆中抽象用户画像和行为模式。两个月了一个没生成。触发阈值可能没达到,或者 bank 太分散。

3. 记忆是追加型,不是修正型

0 条 invalidated。说过的话都是真理。改变主意不会自动修正,只会加新的。过时偏好和新的偏好并存,recall 时两条都注入,助手不知道该听谁的。

4. 早期噪音需要手动清理

retain_every_n_turns=1 导致大量重复。这个参数要保守,建议从 3 起步,真不够再降。

再说说模型消耗

从2026年4月底开始使用到现在,所有模型使用

类型 模型 调用次数 输入 输出
嵌入 bge-m3 11,801 1.16M 0
重排序 bge-reranker-v2-m3 4,055 85.43M 0
LLM deepseek-v4-flash 3,119 17.1M 2.96M

说说我的用法

Hindsight 不是装完就完事的东西。更像一个需要打理的花园:

  • auto-retain 是命根子​,断了等于白装。定期检查配置完整性。
  • recall 质量取决于记忆质量​。噪音多了 recall 就失灵。
  • 跟 MEMORY.md 是互补​。MEMORY.md 放人工确认过的持久偏好,Hindsight 抓散落在对话里的信息。
  • 需要定期清理​。近5000条没一条 invalidated,时间长了矛盾记忆会共存。

总的来说:有用,但需要维护。它能记住你忘了说过的话——这既是优点也是风险。

1
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区