GRPO训练后 评测准确率为Accuracy: 24. 01%,还有一次23.47% 重新直接使用Qwen2.5VL-3B-instruct的评测准确率为13.53% 但是仓库中 # Qwen2.5VL-3B-Instruct: 35.41% # Qwen2.5VL-3B-Instruct-GRPO-1epochs: 47.48%
GRPO训练后
评测准确率为Accuracy: 24. 01%,还有一次23.47%
重新直接使用Qwen2.5VL-3B-instruct的评测准确率为13.53%
但是仓库中
Qwen2.5VL-3B-Instruct: 35.41%
Qwen2.5VL-3B-Instruct-GRPO-1epochs: 47.48%