训练稳定性与信用分配：针对长检索序列实现“跳过检索内容”的 GAE 机制


我注意到在 SEARCH-R1 中，推理与检索交替的轨迹会导致序列变得非常长（例如 <information> 检索块可达 500 tokens ）。在当前的 GAE（广义优势估计） 实现中，这些非模型生成的 token 被视为普通的时间步处理。

存在的问题：
信号消失（Credit Dilution）： 由于衰减因子 $(\gamma \lambda)^t$ 的指数级影响，最终答案产生的优势信号（Advantage）在穿过漫长的检索内容块后，到达初始 <search> 查询时已被极度稀释。
训练不稳定性： 标准 GAE 强制价值网络（Value Function）去预测外部噪声检索状态的 $V$ 值，这可能是导致 GRPO/PPO 训练后期出现奖励崩溃（Reward Collapse）的诱因之一 。

建议优化（Skip-Info GAE）：
我建议对 GAE 递归逻辑进行改进，使其“跳过”被 $I(y_t)=0$ 掩码的检索 token 。机制： 将整个 infomation块视为一次单一的环境状态转移，而不是离散的多个时间步。

预期效果：
 确保正确答案的信用能直接反馈给发起搜索的动作，从而提升多跳推理（Multi-hop）的成功率并增强训练稳定性。

请问维护者是否考虑过这种“跳过检索内容”的逻辑，以优化长上下文下的信用分配？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练稳定性与信用分配：针对长检索序列实现“跳过检索内容”的 GAE 机制 #175

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

训练稳定性与信用分配：针对长检索序列实现“跳过检索内容”的 GAE 机制 #175

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions