你好, 我在使用helpsteer2 数据微调(Lora)单标签奖励模型的时候(0.6*helpfulness + 0.4*correctness), lora_rank = 64, alpha = 128, learning_rate = 1e-5, 训练后的模型能力很差, r2一直在0.37左右, 请教一下. 这个reward model应该怎么训练?
你好, 我在使用helpsteer2 数据微调(Lora)单标签奖励模型的时候(0.6helpfulness + 0.4correctness), lora_rank = 64, alpha = 128, learning_rate = 1e-5, 训练后的模型能力很差, r2一直在0.37左右, 请教一下. 这个reward model应该怎么训练?