关于训练超参

你好, 我在使用helpsteer2 数据微调(Lora)单标签奖励模型的时候(0.6*helpfulness + 0.4*correctness),  lora_rank = 64, alpha = 128, learning_rate = 1e-5, 训练后的模型能力很差, r2一直在0.37左右, 请教一下. 这个reward model应该怎么训练?