Skip to content

训练稳定性与信用分配:针对长检索序列实现“跳过检索内容”的 GAE 机制 #175

@hyntdlemon1900

Description

@hyntdlemon1900

我注意到在 SEARCH-R1 中,推理与检索交替的轨迹会导致序列变得非常长(例如 检索块可达 500 tokens )。在当前的 GAE(广义优势估计) 实现中,这些非模型生成的 token 被视为普通的时间步处理。

存在的问题:
信号消失(Credit Dilution): 由于衰减因子 $(\gamma \lambda)^t$ 的指数级影响,最终答案产生的优势信号(Advantage)在穿过漫长的检索内容块后,到达初始 查询时已被极度稀释。
训练不稳定性: 标准 GAE 强制价值网络(Value Function)去预测外部噪声检索状态的 $V$ 值,这可能是导致 GRPO/PPO 训练后期出现奖励崩溃(Reward Collapse)的诱因之一 。

建议优化(Skip-Info GAE):
我建议对 GAE 递归逻辑进行改进,使其“跳过”被 $I(y_t)=0$ 掩码的检索 token 。机制: 将整个 infomation块视为一次单一的环境状态转移,而不是离散的多个时间步。

预期效果:
确保正确答案的信用能直接反馈给发起搜索的动作,从而提升多跳推理(Multi-hop)的成功率并增强训练稳定性。

请问维护者是否考虑过这种“跳过检索内容”的逻辑,以优化长上下文下的信用分配?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions