Correct kernel launch bounds for CUDA sm_60
authorSzilárd Páll <pall.szilard@gmail.com>
Mon, 26 Sep 2016 22:10:48 +0000 (00:10 +0200)
committerSzilárd Páll <pall.szilard@gmail.com>
Thu, 17 Nov 2016 15:25:34 +0000 (16:25 +0100)
commit9e6144061f4f540dd04a0baa53ce35c99a7eb82d
tree64282f3fe6fc4daed816e4aed4967afedb824329
parent7252de1ae8500f428a1a7b3c2808c95259519c43
Correct kernel launch bounds for CUDA sm_60

The GP100 architecture has half the SM size (64 ALUs) compared to 5.x
hence 64 threads/block already achieves maximum occupancy and the
incorrectly tweaked launch configuration is not optimal. This change
reverts the incorrectly increased block size in cc4214a.

NOTE: cherry-pick of b04a53c, skip when merging.

Change-Id: I5f269e609a5a095b93a44f43a6e67a0de40a38c7
src/gromacs/mdlib/nbnxn_cuda/nbnxn_cuda.cu
src/gromacs/mdlib/nbnxn_cuda/nbnxn_cuda_kernel.cuh