请问下有关cartpole使用图像输入的问题

你好，我尝试在训练cartpole游戏的时候，将DQN的输入改为84x84的图像，action始终都会趋向只有一个方向的问题，请教下有这方面的建议吗？
网络设计：conv2d + conv2d + conv2d + fc 
reward：使用默认的1结束时为0 和 theta / (1 - thetaThreshold)两种计算方式都尝试过
Q值：dqn和ddqn都试过