本文档整理了 immortal-skill 项目的理论依据和调研来源。
2026 年初,「被蒸馏成 Token」已从段子变成现实。离职员工的文档、代码注释、评审意见被切片向量化后,以隐匿的方式继续在组织里被调用。
核心问题:
- 无法区分事实依据和主观印象
- 冲突未处理——同一人不同时期的矛盾说法共存
- 伦理边界模糊——辅助对齐 vs 冒充真人
来源:搜狐报道
从执行轨迹中蒸馏可迁移技能。核心思路:
- 多条轨迹并行分析优于逐条追踪
- 层次化合并消解冲突
- 声明式技能输出
本项目借鉴其「并行分析 + 层次合并」思路。
迭代式行为分析和人格精炼循环:
- 聚焦可观测行为而非性格标签
- 每轮精炼保留上一轮状态便于比较
本项目的纠正处理器和版本快照机制受此启发。
结构化提取隐性知识:
- 成功案例 → 做得好的模式
- 失败案例 → 纠正过的错误
- 决策依据 → 判断信号
- Escalation 条件 → 边界意识
- 新人易踩的坑 → Gotchas
本项目的程序性知识提取器直接基于此框架。
本地问卷(990+ 题)→ 汇总导出 JSONL 供模型训练。
启发:主动采集结构化自我知识弥补聊天记录的稀疏与噪声。
来源:github.com/Gogolian/preserver
为 LLM 提供持久记忆与身份,多层记忆(情景/语义/程序性)。
启发:记忆分层比「只放一个长上下文」更可扩展。
社区共识流水线:
- 导出聊天记录 → 清洗、脱敏、合并连续消息
- 转为指令格式(user/assistant 对话轮次)
- QLoRA/LoRA 微调或 RAG
本项目选择 RAG + 结构化提取路线(而非微调),因为:
- 数据量通常不足以支撑高质量微调
- 结构化提取的可解释性和可编辑性更好
- Agent Skill 格式天然支持按需加载
企业场景的孪生数字员工概念:
- 将员工的经验和技能建模为 AI 资产
- 提示词和 AI 配置也是公司财产,需要资产治理
| 平台 | 采集方式 | 关键限制 |
|---|---|---|
| 飞书 | 开放 API(tenant_access_token) | 需企业自建应用 |
| 钉钉 | 开放 API(企业内部应用) | 调用频次限制 |
| 微信 | 本地 SQLite / 第三方导出工具 | 无官方 API |
| 平台 | 采集方式 | 关键限制 |
|---|---|---|
| iMessage | macOS chat.db(SQLite) | 需 Full Disk Access |
| Telegram | Telethon(MTProto) | FloodWait 限流 |
| 内置导出 / 备份解密 | 端到端加密 | |
| Slack | Web API(Bot/User Token) | Plan 限制历史消息 |
| Discord | Bot API | ToS 限制自动化 |
| mbox / Gmail API | OAuth 范围控制 | |
| Twitter/X | 官方数据归档 | 生成耗时 24h+ |
Google Takeout、Facebook 数据下载等提供标准 ZIP/JSON 归档。
agentskills.io 定义了 Agent Skill 的标准格式:
SKILL.md为入口,YAML frontmatter + Markdown bodyname字段约束(小写、字母数字连字符)- 渐进式披露:核心信息在 SKILL.md,详情按需加载
- OpenClaw 的
metadata须为单行 JSON
OpenClaw 博文描述了记忆蒸馏 → Skill 固化 → 模型降级的路径:
- 情景记忆 → 结构化 SOP → 可执行 Skill
- Skill 支持「降级」到更小的模型运行
来源:E 路领航博客
- 蒸馏他人需要考虑对方是否知情/同意
- 聊天记录中包含第三方发言,需脱敏处理
- 已故亲人的蒸馏需要家庭成员知情
- 辅助理解与培训 ≠ 冒充真人
- 数字分身不应被用于欺骗他人
- 公众人物蒸馏限于公开资料与可追溯出处,侧重方法论与表达框架
- 提示词和 AI 配置也是组织资产
- 需要版本管理、审计记录、访问控制
- 产物应存放在组织可管理的目录
基于以上调研,immortal-skill 确立了 8 条设计原则:
- 分路蒸馏:按维度(procedure/interaction/memory/personality)独立提取
- 证据分级:三级证据标注,impression 隔离存放
- 渐进式披露:SKILL.md 极短,长内容按需读取
- 角色适配:7 种角色模板,不同维度组合与伦理要求
- 多源融合:12+ 平台统一采集接口
- 资产可溯:manifest.json 记录来源和指纹
- 版本可回退:快照机制支持纠正后回滚
- 伦理先行:每个角色有对应的伦理声明
| # | 主题 | 来源 |
|---|---|---|
| 1 | 被蒸馏成 Token 的现象 | 搜狐 |
| 2 | Trace2Skill | arXiv |
| 3 | OpenClaw 记忆蒸馏 | E 路领航 |
| 4 | 工程师 Skill 撰写实战 | 掘金 |
| 5 | 数字员工 & 知识永生 | CSDN |
| 6 | AI 知识管理 | 53AI |
| 7 | AI 资产治理 | 掘金 |
| 8 | Agent Skills 规范 | agentskills.io |
| 9 | Preserver 问卷式永生 | GitHub |
| 10 | Hexis 持久记忆 | GitHub |
| 11 | WeClone 聊天克隆 | GitHub |
| 12 | WeChatMsg 微信导出 | GitHub |
| 13 | DiscordChatExporter | GitHub |
| 14 | Telethon Telegram 客户端 | docs.telethon.dev |