Distributed data parallel: divide by model.BATCHES in allreduce?

Hi, this might be a minor thing, but I'm wondering in distributed data parallel, when we aggregate `grad_weights` from all machines using `model.allgather`, since `allgather` performs `sum` operation, shouldn't we further divide `grad_weights` by `model.BATCHES`?

Thank you!