试试 cutlass 配置 xmake f --toolchain=cuda --cuda=$CUDA_ROOT -c -v 根据实际硬件修改 arch。 add_cuflags("-arch=sm_xx") 编译 xmake 运行 xmake run gemm 8192 8192 8192