fix minor CUDA NB kernel performance regression
authorSzilard Pall <pall.szilard@gmail.com>
Wed, 17 Jun 2015 22:59:57 +0000 (00:59 +0200)
committerSzilard Pall <pall.szilard@gmail.com>
Wed, 17 Jun 2015 23:11:04 +0000 (01:11 +0200)
commit290e36927123f3e22992778e9960371d380984a2
tree70dbfca7392cb6ac78cbdebd73a150b6ab3c3e5e
parent660a03acebaf0d18f9b92defffd6b19c7e818d93
fix minor CUDA NB kernel performance regression

Commit f2b9db26 introduced the thread index z component as a stride in
the middle j4 loop. As this index is not a constant but a value
loaded from a special register, this change caused up to a few %
performance loss in the force kernels. This went unnoticed because
some architectures (cc 3.5/5.2) and some compilers (CUDA 7.0) were
barely affected.

Change-Id: I423790e8fb01a35f7234d26ff064dcc555e73c48
src/gromacs/mdlib/nbnxn_cuda/nbnxn_cuda_kernel.cuh