-
Notifications
You must be signed in to change notification settings - Fork 357
Open
Description
我注意到在 SEARCH-R1 中,推理与检索交替的轨迹会导致序列变得非常长(例如 检索块可达 500 tokens )。在当前的 GAE(广义优势估计) 实现中,这些非模型生成的 token 被视为普通的时间步处理。
存在的问题:
信号消失(Credit Dilution): 由于衰减因子
训练不稳定性: 标准 GAE 强制价值网络(Value Function)去预测外部噪声检索状态的
建议优化(Skip-Info GAE):
我建议对 GAE 递归逻辑进行改进,使其“跳过”被
预期效果:
确保正确答案的信用能直接反馈给发起搜索的动作,从而提升多跳推理(Multi-hop)的成功率并增强训练稳定性。
请问维护者是否考虑过这种“跳过检索内容”的逻辑,以优化长上下文下的信用分配?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels