你好,我尝试在训练cartpole游戏的时候,将DQN的输入改为84x84的图像,action始终都会趋向只有一个方向的问题,请教下有这方面的建议吗? 网络设计:conv2d + conv2d + conv2d + fc reward:使用默认的1结束时为0 和 theta / (1 - thetaThreshold)两种计算方式都尝试过 Q值:dqn和ddqn都试过