PhD-Zero 是一个可复用 research skills 仓库。它的目标不是让 agent 在单轮对话里“显得聪明”,而是给它一套真的能执行的研究工作流:怎么规划任务、怎么找证据、怎么跑实验、怎么保留上下文、什么时候该找人确认,以及最后怎么把结果写成别人能检查的研究产物。
同一套 skills 会暴露给不同 runtime。Codex 风格 agent 主要通过 AGENTS.md 读取工作区规则,Claude Code 通过 .claude/skills/ 发现镜像层,真正的 source of truth 统一放在 .agents/skills/。
快来一睹 PhD-Zero 的实际威力!我们提供了端到端的演示,展示了这个以研究为导向的操作系统是如何赋能 AI 智能体,让其自主进行复杂的研究任务的。
观看 PhD-Zero 利用 Claude 端到端自主推进研究,探究不同的提示词技巧(Prompting Tricks)如何影响模型的推理能力。智能体能够独立处理从文献调研、实验设计到代码执行与最终报告生成的全部流程!
以下统计结果和全流程均为 PhD-Zero 独立自主完成:通过
deep-researchskill 发散和调研 ideas,在后台独立执并跑通了多个控制变量实验,自主分析实验结果量化数据,并最终基于这些数据结论撰写了完整的探究报告。
📄 阅读 AI 生成的完整研究报告: phd_zero_report_e2e_prompting_tricks_v0_0316.pdf
见证 PhD-Zero 如何在极具挑战的 AIME25 数学基准集上自主完成模型优化闭环!智能体系统性地尝试了多种数据集(numina-math、open-r1),对比了不同的训练算法(SFT、RL),并探索了学习率调整、数据过滤等进阶调参技巧。最终,成功将 Qwen3-1.7B-base 模型的准确率 从 0% 大幅跃升至 20%!
如果你只是想先确认这个仓库的 skill 层是通的,直接跑下面几条命令:
git clone https://github.com/TenureAI/PhD-Zero.git
cd PhD-Zero
find .agents/skills -mindepth 1 -maxdepth 1 -type d
find .claude/skills -mindepth 1 -maxdepth 1 -type l如果两条命令列出的 skill 名称一致,说明共享 skill 层已经接通。
接下来通常这样看:
- 先读
AGENTS.md,了解 Codex 风格 agent 的工作区规则。 - 再看
.agents/skills/,这里是技能的真实实现。 - 如果你关心 Claude Code 的发现方式,再看
.claude/skills/。
如果你更喜欢首页式入口而不是直接翻仓库,也可以打开 docs/index.html。
这个仓库故意保持得比较克制。它不是 benchmark、framework、demo app 的混合体,主体就是 skill 库本身,加上一点规则和校验。
.
├── AGENTS.md
├── REPO_CONVENTIONS.md
├── .agents/skills/ # skill 的真实定义
├── .claude/skills/ # Claude Code 的镜像发现层
├── .github/workflows/ # 仓库校验
├── assets/ # 共用视觉资源
└── docs/ # 静态 landing page
这个仓库的 CI 主要检查两件事:.agents/skills 和 .claude/skills 的技能目录是否同步,以及每个已跟踪 skill 是否都有可解析的 SKILL.md。
现在这批 skills 覆盖的是一个研究型 agent 的基本闭环:
| Skill | 用途 |
|---|---|
run-governor |
管阶段、执行纪律和 run 策略 |
research-workflow |
非平凡研究任务的默认执行循环 |
research-plan |
把开放目标收敛成具体计划 |
deep-research |
做外部搜索、文献比较和综合判断 |
experiment-execution |
跑代码、调试和执行实验 |
memory-manager |
管工作态和可复用记忆 |
project-context |
保留项目级运行上下文和约定 |
human-checkpoint |
在高风险或高成本节点找人确认 |
paper-writing |
起草和修改研究产物 |
这个列表以后还会扩,但基本思路不会变:把研究拆成可以复用的模块,而不是指望一个超长 prompt 包打天下。
如果你已经在研究或工程工作里使用 coding agents,并且开始在意流程纪律、实验可复现性、长任务中的上下文保持,或者想减少 agent 一路即兴发挥带来的风险,这个仓库大概率对你有用。如果你只是想看一个炫一点的 demo,它可能不是最合适的项目。
欢迎贡献,尤其是下面三类:
- 新的 skill,但前提是它真的符合仓库范围
- 对现有 workflows 的收紧和改进
- 来自真实使用场景的验证和反馈
开 PR 之前建议先看一遍 REPO_CONVENTIONS.md。这个仓库只跟踪可复用 skill 内容,不把一次性的 run 日志或任务产物混进来。
PhD-Zero 的形成受到了 coding agents、research tooling 和写作辅助生态的影响。尤其是那些把 workflow 当成一等对象,而不是把 prompt 当一次性脚本来用的项目,对这个仓库的方向影响很大。
另外也感谢:
它们不是这里的运行时依赖,但在思考写作质量和可复用编辑规范时提供了很有价值的参考。
如果 PhD-Zero 对你的工作流或研究有帮助,可以这样引用:
@misc{phd_zero_github,
author = {TenureAI Contributors},
title = {PhD-Zero: An Operating System for Research-Oriented Coding Agents},
year = {2026},
howpublished = {\url{https://github.com/TenureAI/PhD-Zero}},
note = {GitHub repository}
}


