src/gromacs/gmxlib/nonbonded/nb_kernel_sse2_single/nb_kernel_ElecCoul_VdwNone_GeomW4W4_sse2_single.c

   1 /*
   2  * This file is part of the GROMACS molecular simulation package.
   3  *
   4  * Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
   5  * Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
   6  * and including many others, as listed in the AUTHORS file in the
   7  * top-level source directory and at http://www.gromacs.org.
   8  *
   9  * GROMACS is free software; you can redistribute it and/or
  10  * modify it under the terms of the GNU Lesser General Public License
  11  * as published by the Free Software Foundation; either version 2.1
  12  * of the License, or (at your option) any later version.
  13  *
  14  * GROMACS is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17  * Lesser General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU Lesser General Public
  20  * License along with GROMACS; if not, see
  21  * http://www.gnu.org/licenses, or write to the Free Software Foundation,
  22  * Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA.
  23  *
  24  * If you want to redistribute modifications to GROMACS, please
  25  * consider that scientific software is very special. Version
  26  * control is crucial - bugs must be traceable. We will be happy to
  27  * consider code for inclusion in the official distribution, but
  28  * derived work must not be called official GROMACS. Details are found
  29  * in the README & COPYING files - if they are missing, get the
  30  * official version at http://www.gromacs.org.
  31  *
  32  * To help us fund GROMACS development, we humbly ask that you cite
  33  * the research papers on the package. Check out http://www.gromacs.org.
  34  */
  35 /*
  36  * Note: this file was generated by the GROMACS sse2_single kernel generator.
  37  */
  38 #include "config.h"
  39
  40 #include <math.h>
  41
  42 #include "../nb_kernel.h"
  43 #include "gromacs/legacyheaders/types/simple.h"
  44 #include "gromacs/math/vec.h"
  45 #include "gromacs/legacyheaders/nrnb.h"
  46
  47 #include "gromacs/simd/math_x86_sse2_single.h"
  48 #include "kernelutil_x86_sse2_single.h"
  49
  50 /*
  51  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwNone_GeomW4W4_VF_sse2_single
  52  * Electrostatics interaction: Coulomb
  53  * VdW interaction:            None
  54  * Geometry:                   Water4-Water4
  55  * Calculate force/pot:        PotentialAndForce
  56  */
  57 void
  58 nb_kernel_ElecCoul_VdwNone_GeomW4W4_VF_sse2_single
  59                     (t_nblist                    * gmx_restrict       nlist,
  60                      rvec                        * gmx_restrict          xx,
  61                      rvec                        * gmx_restrict          ff,
  62                      t_forcerec                  * gmx_restrict          fr,
  63                      t_mdatoms                   * gmx_restrict     mdatoms,
  64                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
  65                      t_nrnb                      * gmx_restrict        nrnb)
  66 {
  67     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  68      * just 0 for non-waters.
  69      * Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
  70      * jnr indices corresponding to data put in the four positions in the SIMD register.
  71      */
  72     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  73     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  74     int              jnrA,jnrB,jnrC,jnrD;
  75     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
  76     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
  77     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  78     real             rcutoff_scalar;
  79     real             *shiftvec,*fshift,*x,*f;
  80     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
  81     real             scratch[4*DIM];
  82     __m128           tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  83     int              vdwioffset1;
  84     __m128           ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  85     int              vdwioffset2;
  86     __m128           ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  87     int              vdwioffset3;
  88     __m128           ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
  89     int              vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
  90     __m128           jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
  91     int              vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
  92     __m128           jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
  93     int              vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
  94     __m128           jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
  95     __m128           dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
  96     __m128           dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
  97     __m128           dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
  98     __m128           dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
  99     __m128           dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 100     __m128           dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
 101     __m128           dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
 102     __m128           dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
 103     __m128           dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
 104     __m128           velec,felec,velecsum,facel,crf,krf,krf2;
 105     real             *charge;
 106     __m128           dummy_mask,cutoff_mask;
 107     __m128           signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
 108     __m128           one     = _mm_set1_ps(1.0);
 109     __m128           two     = _mm_set1_ps(2.0);
 110     x                = xx[0];
 111     f                = ff[0];
 112
 113     nri              = nlist->nri;
 114     iinr             = nlist->iinr;
 115     jindex           = nlist->jindex;
 116     jjnr             = nlist->jjnr;
 117     shiftidx         = nlist->shift;
 118     gid              = nlist->gid;
 119     shiftvec         = fr->shift_vec[0];
 120     fshift           = fr->fshift[0];
 121     facel            = _mm_set1_ps(fr->epsfac);
 122     charge           = mdatoms->chargeA;
 123
 124     /* Setup water-specific parameters */
 125     inr              = nlist->iinr[0];
 126     iq1              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
 127     iq2              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
 128     iq3              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
 129
 130     jq1              = _mm_set1_ps(charge[inr+1]);
 131     jq2              = _mm_set1_ps(charge[inr+2]);
 132     jq3              = _mm_set1_ps(charge[inr+3]);
 133     qq11             = _mm_mul_ps(iq1,jq1);
 134     qq12             = _mm_mul_ps(iq1,jq2);
 135     qq13             = _mm_mul_ps(iq1,jq3);
 136     qq21             = _mm_mul_ps(iq2,jq1);
 137     qq22             = _mm_mul_ps(iq2,jq2);
 138     qq23             = _mm_mul_ps(iq2,jq3);
 139     qq31             = _mm_mul_ps(iq3,jq1);
 140     qq32             = _mm_mul_ps(iq3,jq2);
 141     qq33             = _mm_mul_ps(iq3,jq3);
 142
 143     /* Avoid stupid compiler warnings */
 144     jnrA = jnrB = jnrC = jnrD = 0;
 145     j_coord_offsetA = 0;
 146     j_coord_offsetB = 0;
 147     j_coord_offsetC = 0;
 148     j_coord_offsetD = 0;
 149
 150     outeriter        = 0;
 151     inneriter        = 0;
 152
 153     for(iidx=0;iidx<4*DIM;iidx++)
 154     {
 155         scratch[iidx] = 0.0;
 156     }
 157
 158     /* Start outer loop over neighborlists */
 159     for(iidx=0; iidx<nri; iidx++)
 160     {
 161         /* Load shift vector for this list */
 162         i_shift_offset   = DIM*shiftidx[iidx];
 163
 164         /* Load limits for loop over neighbors */
 165         j_index_start    = jindex[iidx];
 166         j_index_end      = jindex[iidx+1];
 167
 168         /* Get outer coordinate index */
 169         inr              = iinr[iidx];
 170         i_coord_offset   = DIM*inr;
 171
 172         /* Load i particle coords and add shift vector */
 173         gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset+DIM,
 174                                                  &ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
 175
 176         fix1             = _mm_setzero_ps();
 177         fiy1             = _mm_setzero_ps();
 178         fiz1             = _mm_setzero_ps();
 179         fix2             = _mm_setzero_ps();
 180         fiy2             = _mm_setzero_ps();
 181         fiz2             = _mm_setzero_ps();
 182         fix3             = _mm_setzero_ps();
 183         fiy3             = _mm_setzero_ps();
 184         fiz3             = _mm_setzero_ps();
 185
 186         /* Reset potential sums */
 187         velecsum         = _mm_setzero_ps();
 188
 189         /* Start inner kernel loop */
 190         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
 191         {
 192
 193             /* Get j neighbor index, and coordinate index */
 194             jnrA             = jjnr[jidx];
 195             jnrB             = jjnr[jidx+1];
 196             jnrC             = jjnr[jidx+2];
 197             jnrD             = jjnr[jidx+3];
 198             j_coord_offsetA  = DIM*jnrA;
 199             j_coord_offsetB  = DIM*jnrB;
 200             j_coord_offsetC  = DIM*jnrC;
 201             j_coord_offsetD  = DIM*jnrD;
 202
 203             /* load j atom coordinates */
 204             gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA+DIM,x+j_coord_offsetB+DIM,
 205                                               x+j_coord_offsetC+DIM,x+j_coord_offsetD+DIM,
 206                                               &jx1,&jy1,&jz1,&jx2,&jy2,&jz2,&jx3,&jy3,&jz3);
 207
 208             /* Calculate displacement vector */
 209             dx11             = _mm_sub_ps(ix1,jx1);
 210             dy11             = _mm_sub_ps(iy1,jy1);
 211             dz11             = _mm_sub_ps(iz1,jz1);
 212             dx12             = _mm_sub_ps(ix1,jx2);
 213             dy12             = _mm_sub_ps(iy1,jy2);
 214             dz12             = _mm_sub_ps(iz1,jz2);
 215             dx13             = _mm_sub_ps(ix1,jx3);
 216             dy13             = _mm_sub_ps(iy1,jy3);
 217             dz13             = _mm_sub_ps(iz1,jz3);
 218             dx21             = _mm_sub_ps(ix2,jx1);
 219             dy21             = _mm_sub_ps(iy2,jy1);
 220             dz21             = _mm_sub_ps(iz2,jz1);
 221             dx22             = _mm_sub_ps(ix2,jx2);
 222             dy22             = _mm_sub_ps(iy2,jy2);
 223             dz22             = _mm_sub_ps(iz2,jz2);
 224             dx23             = _mm_sub_ps(ix2,jx3);
 225             dy23             = _mm_sub_ps(iy2,jy3);
 226             dz23             = _mm_sub_ps(iz2,jz3);
 227             dx31             = _mm_sub_ps(ix3,jx1);
 228             dy31             = _mm_sub_ps(iy3,jy1);
 229             dz31             = _mm_sub_ps(iz3,jz1);
 230             dx32             = _mm_sub_ps(ix3,jx2);
 231             dy32             = _mm_sub_ps(iy3,jy2);
 232             dz32             = _mm_sub_ps(iz3,jz2);
 233             dx33             = _mm_sub_ps(ix3,jx3);
 234             dy33             = _mm_sub_ps(iy3,jy3);
 235             dz33             = _mm_sub_ps(iz3,jz3);
 236
 237             /* Calculate squared distance and things based on it */
 238             rsq11            = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
 239             rsq12            = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
 240             rsq13            = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
 241             rsq21            = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
 242             rsq22            = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
 243             rsq23            = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
 244             rsq31            = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
 245             rsq32            = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
 246             rsq33            = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
 247
 248             rinv11           = gmx_mm_invsqrt_ps(rsq11);
 249             rinv12           = gmx_mm_invsqrt_ps(rsq12);
 250             rinv13           = gmx_mm_invsqrt_ps(rsq13);
 251             rinv21           = gmx_mm_invsqrt_ps(rsq21);
 252             rinv22           = gmx_mm_invsqrt_ps(rsq22);
 253             rinv23           = gmx_mm_invsqrt_ps(rsq23);
 254             rinv31           = gmx_mm_invsqrt_ps(rsq31);
 255             rinv32           = gmx_mm_invsqrt_ps(rsq32);
 256             rinv33           = gmx_mm_invsqrt_ps(rsq33);
 257
 258             rinvsq11         = _mm_mul_ps(rinv11,rinv11);
 259             rinvsq12         = _mm_mul_ps(rinv12,rinv12);
 260             rinvsq13         = _mm_mul_ps(rinv13,rinv13);
 261             rinvsq21         = _mm_mul_ps(rinv21,rinv21);
 262             rinvsq22         = _mm_mul_ps(rinv22,rinv22);
 263             rinvsq23         = _mm_mul_ps(rinv23,rinv23);
 264             rinvsq31         = _mm_mul_ps(rinv31,rinv31);
 265             rinvsq32         = _mm_mul_ps(rinv32,rinv32);
 266             rinvsq33         = _mm_mul_ps(rinv33,rinv33);
 267
 268             fjx1             = _mm_setzero_ps();
 269             fjy1             = _mm_setzero_ps();
 270             fjz1             = _mm_setzero_ps();
 271             fjx2             = _mm_setzero_ps();
 272             fjy2             = _mm_setzero_ps();
 273             fjz2             = _mm_setzero_ps();
 274             fjx3             = _mm_setzero_ps();
 275             fjy3             = _mm_setzero_ps();
 276             fjz3             = _mm_setzero_ps();
 277
 278             /**************************
 279              * CALCULATE INTERACTIONS *
 280              **************************/
 281
 282             /* COULOMB ELECTROSTATICS */
 283             velec            = _mm_mul_ps(qq11,rinv11);
 284             felec            = _mm_mul_ps(velec,rinvsq11);
 285
 286             /* Update potential sum for this i atom from the interaction with this j atom. */
 287             velecsum         = _mm_add_ps(velecsum,velec);
 288
 289             fscal            = felec;
 290
 291             /* Calculate temporary vectorial force */
 292             tx               = _mm_mul_ps(fscal,dx11);
 293             ty               = _mm_mul_ps(fscal,dy11);
 294             tz               = _mm_mul_ps(fscal,dz11);
 295
 296             /* Update vectorial force */
 297             fix1             = _mm_add_ps(fix1,tx);
 298             fiy1             = _mm_add_ps(fiy1,ty);
 299             fiz1             = _mm_add_ps(fiz1,tz);
 300
 301             fjx1             = _mm_add_ps(fjx1,tx);
 302             fjy1             = _mm_add_ps(fjy1,ty);
 303             fjz1             = _mm_add_ps(fjz1,tz);
 304
 305             /**************************
 306              * CALCULATE INTERACTIONS *
 307              **************************/
 308
 309             /* COULOMB ELECTROSTATICS */
 310             velec            = _mm_mul_ps(qq12,rinv12);
 311             felec            = _mm_mul_ps(velec,rinvsq12);
 312
 313             /* Update potential sum for this i atom from the interaction with this j atom. */
 314             velecsum         = _mm_add_ps(velecsum,velec);
 315
 316             fscal            = felec;
 317
 318             /* Calculate temporary vectorial force */
 319             tx               = _mm_mul_ps(fscal,dx12);
 320             ty               = _mm_mul_ps(fscal,dy12);
 321             tz               = _mm_mul_ps(fscal,dz12);
 322
 323             /* Update vectorial force */
 324             fix1             = _mm_add_ps(fix1,tx);
 325             fiy1             = _mm_add_ps(fiy1,ty);
 326             fiz1             = _mm_add_ps(fiz1,tz);
 327
 328             fjx2             = _mm_add_ps(fjx2,tx);
 329             fjy2             = _mm_add_ps(fjy2,ty);
 330             fjz2             = _mm_add_ps(fjz2,tz);
 331
 332             /**************************
 333              * CALCULATE INTERACTIONS *
 334              **************************/
 335
 336             /* COULOMB ELECTROSTATICS */
 337             velec            = _mm_mul_ps(qq13,rinv13);
 338             felec            = _mm_mul_ps(velec,rinvsq13);
 339
 340             /* Update potential sum for this i atom from the interaction with this j atom. */
 341             velecsum         = _mm_add_ps(velecsum,velec);
 342
 343             fscal            = felec;
 344
 345             /* Calculate temporary vectorial force */
 346             tx               = _mm_mul_ps(fscal,dx13);
 347             ty               = _mm_mul_ps(fscal,dy13);
 348             tz               = _mm_mul_ps(fscal,dz13);
 349
 350             /* Update vectorial force */
 351             fix1             = _mm_add_ps(fix1,tx);
 352             fiy1             = _mm_add_ps(fiy1,ty);
 353             fiz1             = _mm_add_ps(fiz1,tz);
 354
 355             fjx3             = _mm_add_ps(fjx3,tx);
 356             fjy3             = _mm_add_ps(fjy3,ty);
 357             fjz3             = _mm_add_ps(fjz3,tz);
 358
 359             /**************************
 360              * CALCULATE INTERACTIONS *
 361              **************************/
 362
 363             /* COULOMB ELECTROSTATICS */
 364             velec            = _mm_mul_ps(qq21,rinv21);
 365             felec            = _mm_mul_ps(velec,rinvsq21);
 366
 367             /* Update potential sum for this i atom from the interaction with this j atom. */
 368             velecsum         = _mm_add_ps(velecsum,velec);
 369
 370             fscal            = felec;
 371
 372             /* Calculate temporary vectorial force */
 373             tx               = _mm_mul_ps(fscal,dx21);
 374             ty               = _mm_mul_ps(fscal,dy21);
 375             tz               = _mm_mul_ps(fscal,dz21);
 376
 377             /* Update vectorial force */
 378             fix2             = _mm_add_ps(fix2,tx);
 379             fiy2             = _mm_add_ps(fiy2,ty);
 380             fiz2             = _mm_add_ps(fiz2,tz);
 381
 382             fjx1             = _mm_add_ps(fjx1,tx);
 383             fjy1             = _mm_add_ps(fjy1,ty);
 384             fjz1             = _mm_add_ps(fjz1,tz);
 385
 386             /**************************
 387              * CALCULATE INTERACTIONS *
 388              **************************/
 389
 390             /* COULOMB ELECTROSTATICS */
 391             velec            = _mm_mul_ps(qq22,rinv22);
 392             felec            = _mm_mul_ps(velec,rinvsq22);
 393
 394             /* Update potential sum for this i atom from the interaction with this j atom. */
 395             velecsum         = _mm_add_ps(velecsum,velec);
 396
 397             fscal            = felec;
 398
 399             /* Calculate temporary vectorial force */
 400             tx               = _mm_mul_ps(fscal,dx22);
 401             ty               = _mm_mul_ps(fscal,dy22);
 402             tz               = _mm_mul_ps(fscal,dz22);
 403
 404             /* Update vectorial force */
 405             fix2             = _mm_add_ps(fix2,tx);
 406             fiy2             = _mm_add_ps(fiy2,ty);
 407             fiz2             = _mm_add_ps(fiz2,tz);
 408
 409             fjx2             = _mm_add_ps(fjx2,tx);
 410             fjy2             = _mm_add_ps(fjy2,ty);
 411             fjz2             = _mm_add_ps(fjz2,tz);
 412
 413             /**************************
 414              * CALCULATE INTERACTIONS *
 415              **************************/
 416
 417             /* COULOMB ELECTROSTATICS */
 418             velec            = _mm_mul_ps(qq23,rinv23);
 419             felec            = _mm_mul_ps(velec,rinvsq23);
 420
 421             /* Update potential sum for this i atom from the interaction with this j atom. */
 422             velecsum         = _mm_add_ps(velecsum,velec);
 423
 424             fscal            = felec;
 425
 426             /* Calculate temporary vectorial force */
 427             tx               = _mm_mul_ps(fscal,dx23);
 428             ty               = _mm_mul_ps(fscal,dy23);
 429             tz               = _mm_mul_ps(fscal,dz23);
 430
 431             /* Update vectorial force */
 432             fix2             = _mm_add_ps(fix2,tx);
 433             fiy2             = _mm_add_ps(fiy2,ty);
 434             fiz2             = _mm_add_ps(fiz2,tz);
 435
 436             fjx3             = _mm_add_ps(fjx3,tx);
 437             fjy3             = _mm_add_ps(fjy3,ty);
 438             fjz3             = _mm_add_ps(fjz3,tz);
 439
 440             /**************************
 441              * CALCULATE INTERACTIONS *
 442              **************************/
 443
 444             /* COULOMB ELECTROSTATICS */
 445             velec            = _mm_mul_ps(qq31,rinv31);
 446             felec            = _mm_mul_ps(velec,rinvsq31);
 447
 448             /* Update potential sum for this i atom from the interaction with this j atom. */
 449             velecsum         = _mm_add_ps(velecsum,velec);
 450
 451             fscal            = felec;
 452
 453             /* Calculate temporary vectorial force */
 454             tx               = _mm_mul_ps(fscal,dx31);
 455             ty               = _mm_mul_ps(fscal,dy31);
 456             tz               = _mm_mul_ps(fscal,dz31);
 457
 458             /* Update vectorial force */
 459             fix3             = _mm_add_ps(fix3,tx);
 460             fiy3             = _mm_add_ps(fiy3,ty);
 461             fiz3             = _mm_add_ps(fiz3,tz);
 462
 463             fjx1             = _mm_add_ps(fjx1,tx);
 464             fjy1             = _mm_add_ps(fjy1,ty);
 465             fjz1             = _mm_add_ps(fjz1,tz);
 466
 467             /**************************
 468              * CALCULATE INTERACTIONS *
 469              **************************/
 470
 471             /* COULOMB ELECTROSTATICS */
 472             velec            = _mm_mul_ps(qq32,rinv32);
 473             felec            = _mm_mul_ps(velec,rinvsq32);
 474
 475             /* Update potential sum for this i atom from the interaction with this j atom. */
 476             velecsum         = _mm_add_ps(velecsum,velec);
 477
 478             fscal            = felec;
 479
 480             /* Calculate temporary vectorial force */
 481             tx               = _mm_mul_ps(fscal,dx32);
 482             ty               = _mm_mul_ps(fscal,dy32);
 483             tz               = _mm_mul_ps(fscal,dz32);
 484
 485             /* Update vectorial force */
 486             fix3             = _mm_add_ps(fix3,tx);
 487             fiy3             = _mm_add_ps(fiy3,ty);
 488             fiz3             = _mm_add_ps(fiz3,tz);
 489
 490             fjx2             = _mm_add_ps(fjx2,tx);
 491             fjy2             = _mm_add_ps(fjy2,ty);
 492             fjz2             = _mm_add_ps(fjz2,tz);
 493
 494             /**************************
 495              * CALCULATE INTERACTIONS *
 496              **************************/
 497
 498             /* COULOMB ELECTROSTATICS */
 499             velec            = _mm_mul_ps(qq33,rinv33);
 500             felec            = _mm_mul_ps(velec,rinvsq33);
 501
 502             /* Update potential sum for this i atom from the interaction with this j atom. */
 503             velecsum         = _mm_add_ps(velecsum,velec);
 504
 505             fscal            = felec;
 506
 507             /* Calculate temporary vectorial force */
 508             tx               = _mm_mul_ps(fscal,dx33);
 509             ty               = _mm_mul_ps(fscal,dy33);
 510             tz               = _mm_mul_ps(fscal,dz33);
 511
 512             /* Update vectorial force */
 513             fix3             = _mm_add_ps(fix3,tx);
 514             fiy3             = _mm_add_ps(fiy3,ty);
 515             fiz3             = _mm_add_ps(fiz3,tz);
 516
 517             fjx3             = _mm_add_ps(fjx3,tx);
 518             fjy3             = _mm_add_ps(fjy3,ty);
 519             fjz3             = _mm_add_ps(fjz3,tz);
 520
 521             fjptrA             = f+j_coord_offsetA;
 522             fjptrB             = f+j_coord_offsetB;
 523             fjptrC             = f+j_coord_offsetC;
 524             fjptrD             = f+j_coord_offsetD;
 525
 526             gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA+DIM,fjptrB+DIM,fjptrC+DIM,fjptrD+DIM,
 527                                                    fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
 528
 529             /* Inner loop uses 252 flops */
 530         }
 531
 532         if(jidx<j_index_end)
 533         {
 534
 535             /* Get j neighbor index, and coordinate index */
 536             jnrlistA         = jjnr[jidx];
 537             jnrlistB         = jjnr[jidx+1];
 538             jnrlistC         = jjnr[jidx+2];
 539             jnrlistD         = jjnr[jidx+3];
 540             /* Sign of each element will be negative for non-real atoms.
 541              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
 542              * so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
 543              */
 544             dummy_mask = gmx_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
 545             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
 546             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
 547             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
 548             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
 549             j_coord_offsetA  = DIM*jnrA;
 550             j_coord_offsetB  = DIM*jnrB;
 551             j_coord_offsetC  = DIM*jnrC;
 552             j_coord_offsetD  = DIM*jnrD;
 553
 554             /* load j atom coordinates */
 555             gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA+DIM,x+j_coord_offsetB+DIM,
 556                                               x+j_coord_offsetC+DIM,x+j_coord_offsetD+DIM,
 557                                               &jx1,&jy1,&jz1,&jx2,&jy2,&jz2,&jx3,&jy3,&jz3);
 558
 559             /* Calculate displacement vector */
 560             dx11             = _mm_sub_ps(ix1,jx1);
 561             dy11             = _mm_sub_ps(iy1,jy1);
 562             dz11             = _mm_sub_ps(iz1,jz1);
 563             dx12             = _mm_sub_ps(ix1,jx2);
 564             dy12             = _mm_sub_ps(iy1,jy2);
 565             dz12             = _mm_sub_ps(iz1,jz2);
 566             dx13             = _mm_sub_ps(ix1,jx3);
 567             dy13             = _mm_sub_ps(iy1,jy3);
 568             dz13             = _mm_sub_ps(iz1,jz3);
 569             dx21             = _mm_sub_ps(ix2,jx1);
 570             dy21             = _mm_sub_ps(iy2,jy1);
 571             dz21             = _mm_sub_ps(iz2,jz1);
 572             dx22             = _mm_sub_ps(ix2,jx2);
 573             dy22             = _mm_sub_ps(iy2,jy2);
 574             dz22             = _mm_sub_ps(iz2,jz2);
 575             dx23             = _mm_sub_ps(ix2,jx3);
 576             dy23             = _mm_sub_ps(iy2,jy3);
 577             dz23             = _mm_sub_ps(iz2,jz3);
 578             dx31             = _mm_sub_ps(ix3,jx1);
 579             dy31             = _mm_sub_ps(iy3,jy1);
 580             dz31             = _mm_sub_ps(iz3,jz1);
 581             dx32             = _mm_sub_ps(ix3,jx2);
 582             dy32             = _mm_sub_ps(iy3,jy2);
 583             dz32             = _mm_sub_ps(iz3,jz2);
 584             dx33             = _mm_sub_ps(ix3,jx3);
 585             dy33             = _mm_sub_ps(iy3,jy3);
 586             dz33             = _mm_sub_ps(iz3,jz3);
 587
 588             /* Calculate squared distance and things based on it */
 589             rsq11            = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
 590             rsq12            = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
 591             rsq13            = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
 592             rsq21            = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
 593             rsq22            = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
 594             rsq23            = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
 595             rsq31            = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
 596             rsq32            = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
 597             rsq33            = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
 598
 599             rinv11           = gmx_mm_invsqrt_ps(rsq11);
 600             rinv12           = gmx_mm_invsqrt_ps(rsq12);
 601             rinv13           = gmx_mm_invsqrt_ps(rsq13);
 602             rinv21           = gmx_mm_invsqrt_ps(rsq21);
 603             rinv22           = gmx_mm_invsqrt_ps(rsq22);
 604             rinv23           = gmx_mm_invsqrt_ps(rsq23);
 605             rinv31           = gmx_mm_invsqrt_ps(rsq31);
 606             rinv32           = gmx_mm_invsqrt_ps(rsq32);
 607             rinv33           = gmx_mm_invsqrt_ps(rsq33);
 608
 609             rinvsq11         = _mm_mul_ps(rinv11,rinv11);
 610             rinvsq12         = _mm_mul_ps(rinv12,rinv12);
 611             rinvsq13         = _mm_mul_ps(rinv13,rinv13);
 612             rinvsq21         = _mm_mul_ps(rinv21,rinv21);
 613             rinvsq22         = _mm_mul_ps(rinv22,rinv22);
 614             rinvsq23         = _mm_mul_ps(rinv23,rinv23);
 615             rinvsq31         = _mm_mul_ps(rinv31,rinv31);
 616             rinvsq32         = _mm_mul_ps(rinv32,rinv32);
 617             rinvsq33         = _mm_mul_ps(rinv33,rinv33);
 618
 619             fjx1             = _mm_setzero_ps();
 620             fjy1             = _mm_setzero_ps();
 621             fjz1             = _mm_setzero_ps();
 622             fjx2             = _mm_setzero_ps();
 623             fjy2             = _mm_setzero_ps();
 624             fjz2             = _mm_setzero_ps();
 625             fjx3             = _mm_setzero_ps();
 626             fjy3             = _mm_setzero_ps();
 627             fjz3             = _mm_setzero_ps();
 628
 629             /**************************
 630              * CALCULATE INTERACTIONS *
 631              **************************/
 632
 633             /* COULOMB ELECTROSTATICS */
 634             velec            = _mm_mul_ps(qq11,rinv11);
 635             felec            = _mm_mul_ps(velec,rinvsq11);
 636
 637             /* Update potential sum for this i atom from the interaction with this j atom. */
 638             velec            = _mm_andnot_ps(dummy_mask,velec);
 639             velecsum         = _mm_add_ps(velecsum,velec);
 640
 641             fscal            = felec;
 642
 643             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 644
 645             /* Calculate temporary vectorial force */
 646             tx               = _mm_mul_ps(fscal,dx11);
 647             ty               = _mm_mul_ps(fscal,dy11);
 648             tz               = _mm_mul_ps(fscal,dz11);
 649
 650             /* Update vectorial force */
 651             fix1             = _mm_add_ps(fix1,tx);
 652             fiy1             = _mm_add_ps(fiy1,ty);
 653             fiz1             = _mm_add_ps(fiz1,tz);
 654
 655             fjx1             = _mm_add_ps(fjx1,tx);
 656             fjy1             = _mm_add_ps(fjy1,ty);
 657             fjz1             = _mm_add_ps(fjz1,tz);
 658
 659             /**************************
 660              * CALCULATE INTERACTIONS *
 661              **************************/
 662
 663             /* COULOMB ELECTROSTATICS */
 664             velec            = _mm_mul_ps(qq12,rinv12);
 665             felec            = _mm_mul_ps(velec,rinvsq12);
 666
 667             /* Update potential sum for this i atom from the interaction with this j atom. */
 668             velec            = _mm_andnot_ps(dummy_mask,velec);
 669             velecsum         = _mm_add_ps(velecsum,velec);
 670
 671             fscal            = felec;
 672
 673             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 674
 675             /* Calculate temporary vectorial force */
 676             tx               = _mm_mul_ps(fscal,dx12);
 677             ty               = _mm_mul_ps(fscal,dy12);
 678             tz               = _mm_mul_ps(fscal,dz12);
 679
 680             /* Update vectorial force */
 681             fix1             = _mm_add_ps(fix1,tx);
 682             fiy1             = _mm_add_ps(fiy1,ty);
 683             fiz1             = _mm_add_ps(fiz1,tz);
 684
 685             fjx2             = _mm_add_ps(fjx2,tx);
 686             fjy2             = _mm_add_ps(fjy2,ty);
 687             fjz2             = _mm_add_ps(fjz2,tz);
 688
 689             /**************************
 690              * CALCULATE INTERACTIONS *
 691              **************************/
 692
 693             /* COULOMB ELECTROSTATICS */
 694             velec            = _mm_mul_ps(qq13,rinv13);
 695             felec            = _mm_mul_ps(velec,rinvsq13);
 696
 697             /* Update potential sum for this i atom from the interaction with this j atom. */
 698             velec            = _mm_andnot_ps(dummy_mask,velec);
 699             velecsum         = _mm_add_ps(velecsum,velec);
 700
 701             fscal            = felec;
 702
 703             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 704
 705             /* Calculate temporary vectorial force */
 706             tx               = _mm_mul_ps(fscal,dx13);
 707             ty               = _mm_mul_ps(fscal,dy13);
 708             tz               = _mm_mul_ps(fscal,dz13);
 709
 710             /* Update vectorial force */
 711             fix1             = _mm_add_ps(fix1,tx);
 712             fiy1             = _mm_add_ps(fiy1,ty);
 713             fiz1             = _mm_add_ps(fiz1,tz);
 714
 715             fjx3             = _mm_add_ps(fjx3,tx);
 716             fjy3             = _mm_add_ps(fjy3,ty);
 717             fjz3             = _mm_add_ps(fjz3,tz);
 718
 719             /**************************
 720              * CALCULATE INTERACTIONS *
 721              **************************/
 722
 723             /* COULOMB ELECTROSTATICS */
 724             velec            = _mm_mul_ps(qq21,rinv21);
 725             felec            = _mm_mul_ps(velec,rinvsq21);
 726
 727             /* Update potential sum for this i atom from the interaction with this j atom. */
 728             velec            = _mm_andnot_ps(dummy_mask,velec);
 729             velecsum         = _mm_add_ps(velecsum,velec);
 730
 731             fscal            = felec;
 732
 733             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 734
 735             /* Calculate temporary vectorial force */
 736             tx               = _mm_mul_ps(fscal,dx21);
 737             ty               = _mm_mul_ps(fscal,dy21);
 738             tz               = _mm_mul_ps(fscal,dz21);
 739
 740             /* Update vectorial force */
 741             fix2             = _mm_add_ps(fix2,tx);
 742             fiy2             = _mm_add_ps(fiy2,ty);
 743             fiz2             = _mm_add_ps(fiz2,tz);
 744
 745             fjx1             = _mm_add_ps(fjx1,tx);
 746             fjy1             = _mm_add_ps(fjy1,ty);
 747             fjz1             = _mm_add_ps(fjz1,tz);
 748
 749             /**************************
 750              * CALCULATE INTERACTIONS *
 751              **************************/
 752
 753             /* COULOMB ELECTROSTATICS */
 754             velec            = _mm_mul_ps(qq22,rinv22);
 755             felec            = _mm_mul_ps(velec,rinvsq22);
 756
 757             /* Update potential sum for this i atom from the interaction with this j atom. */
 758             velec            = _mm_andnot_ps(dummy_mask,velec);
 759             velecsum         = _mm_add_ps(velecsum,velec);
 760
 761             fscal            = felec;
 762
 763             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 764
 765             /* Calculate temporary vectorial force */
 766             tx               = _mm_mul_ps(fscal,dx22);
 767             ty               = _mm_mul_ps(fscal,dy22);
 768             tz               = _mm_mul_ps(fscal,dz22);
 769
 770             /* Update vectorial force */
 771             fix2             = _mm_add_ps(fix2,tx);
 772             fiy2             = _mm_add_ps(fiy2,ty);
 773             fiz2             = _mm_add_ps(fiz2,tz);
 774
 775             fjx2             = _mm_add_ps(fjx2,tx);
 776             fjy2             = _mm_add_ps(fjy2,ty);
 777             fjz2             = _mm_add_ps(fjz2,tz);
 778
 779             /**************************
 780              * CALCULATE INTERACTIONS *
 781              **************************/
 782
 783             /* COULOMB ELECTROSTATICS */
 784             velec            = _mm_mul_ps(qq23,rinv23);
 785             felec            = _mm_mul_ps(velec,rinvsq23);
 786
 787             /* Update potential sum for this i atom from the interaction with this j atom. */
 788             velec            = _mm_andnot_ps(dummy_mask,velec);
 789             velecsum         = _mm_add_ps(velecsum,velec);
 790
 791             fscal            = felec;
 792
 793             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 794
 795             /* Calculate temporary vectorial force */
 796             tx               = _mm_mul_ps(fscal,dx23);
 797             ty               = _mm_mul_ps(fscal,dy23);
 798             tz               = _mm_mul_ps(fscal,dz23);
 799
 800             /* Update vectorial force */
 801             fix2             = _mm_add_ps(fix2,tx);
 802             fiy2             = _mm_add_ps(fiy2,ty);
 803             fiz2             = _mm_add_ps(fiz2,tz);
 804
 805             fjx3             = _mm_add_ps(fjx3,tx);
 806             fjy3             = _mm_add_ps(fjy3,ty);
 807             fjz3             = _mm_add_ps(fjz3,tz);
 808
 809             /**************************
 810              * CALCULATE INTERACTIONS *
 811              **************************/
 812
 813             /* COULOMB ELECTROSTATICS */
 814             velec            = _mm_mul_ps(qq31,rinv31);
 815             felec            = _mm_mul_ps(velec,rinvsq31);
 816
 817             /* Update potential sum for this i atom from the interaction with this j atom. */
 818             velec            = _mm_andnot_ps(dummy_mask,velec);
 819             velecsum         = _mm_add_ps(velecsum,velec);
 820
 821             fscal            = felec;
 822
 823             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 824
 825             /* Calculate temporary vectorial force */
 826             tx               = _mm_mul_ps(fscal,dx31);
 827             ty               = _mm_mul_ps(fscal,dy31);
 828             tz               = _mm_mul_ps(fscal,dz31);
 829
 830             /* Update vectorial force */
 831             fix3             = _mm_add_ps(fix3,tx);
 832             fiy3             = _mm_add_ps(fiy3,ty);
 833             fiz3             = _mm_add_ps(fiz3,tz);
 834
 835             fjx1             = _mm_add_ps(fjx1,tx);
 836             fjy1             = _mm_add_ps(fjy1,ty);
 837             fjz1             = _mm_add_ps(fjz1,tz);
 838
 839             /**************************
 840              * CALCULATE INTERACTIONS *
 841              **************************/
 842
 843             /* COULOMB ELECTROSTATICS */
 844             velec            = _mm_mul_ps(qq32,rinv32);
 845             felec            = _mm_mul_ps(velec,rinvsq32);
 846
 847             /* Update potential sum for this i atom from the interaction with this j atom. */
 848             velec            = _mm_andnot_ps(dummy_mask,velec);
 849             velecsum         = _mm_add_ps(velecsum,velec);
 850
 851             fscal            = felec;
 852
 853             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 854
 855             /* Calculate temporary vectorial force */
 856             tx               = _mm_mul_ps(fscal,dx32);
 857             ty               = _mm_mul_ps(fscal,dy32);
 858             tz               = _mm_mul_ps(fscal,dz32);
 859
 860             /* Update vectorial force */
 861             fix3             = _mm_add_ps(fix3,tx);
 862             fiy3             = _mm_add_ps(fiy3,ty);
 863             fiz3             = _mm_add_ps(fiz3,tz);
 864
 865             fjx2             = _mm_add_ps(fjx2,tx);
 866             fjy2             = _mm_add_ps(fjy2,ty);
 867             fjz2             = _mm_add_ps(fjz2,tz);
 868
 869             /**************************
 870              * CALCULATE INTERACTIONS *
 871              **************************/
 872
 873             /* COULOMB ELECTROSTATICS */
 874             velec            = _mm_mul_ps(qq33,rinv33);
 875             felec            = _mm_mul_ps(velec,rinvsq33);
 876
 877             /* Update potential sum for this i atom from the interaction with this j atom. */
 878             velec            = _mm_andnot_ps(dummy_mask,velec);
 879             velecsum         = _mm_add_ps(velecsum,velec);
 880
 881             fscal            = felec;
 882
 883             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 884
 885             /* Calculate temporary vectorial force */
 886             tx               = _mm_mul_ps(fscal,dx33);
 887             ty               = _mm_mul_ps(fscal,dy33);
 888             tz               = _mm_mul_ps(fscal,dz33);
 889
 890             /* Update vectorial force */
 891             fix3             = _mm_add_ps(fix3,tx);
 892             fiy3             = _mm_add_ps(fiy3,ty);
 893             fiz3             = _mm_add_ps(fiz3,tz);
 894
 895             fjx3             = _mm_add_ps(fjx3,tx);
 896             fjy3             = _mm_add_ps(fjy3,ty);
 897             fjz3             = _mm_add_ps(fjz3,tz);
 898
 899             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
 900             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
 901             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
 902             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
 903
 904             gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA+DIM,fjptrB+DIM,fjptrC+DIM,fjptrD+DIM,
 905                                                    fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
 906
 907             /* Inner loop uses 252 flops */
 908         }
 909
 910         /* End of innermost loop */
 911
 912         gmx_mm_update_iforce_3atom_swizzle_ps(fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
 913                                               f+i_coord_offset+DIM,fshift+i_shift_offset);
 914
 915         ggid                        = gid[iidx];
 916         /* Update potential energies */
 917         gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
 918
 919         /* Increment number of inner iterations */
 920         inneriter                  += j_index_end - j_index_start;
 921
 922         /* Outer loop uses 19 flops */
 923     }
 924
 925     /* Increment number of outer iterations */
 926     outeriter        += nri;
 927
 928     /* Update outer/inner flops */
 929
 930     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W4W4_VF,outeriter*19 + inneriter*252);
 931 }
 932 /*
 933  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwNone_GeomW4W4_F_sse2_single
 934  * Electrostatics interaction: Coulomb
 935  * VdW interaction:            None
 936  * Geometry:                   Water4-Water4
 937  * Calculate force/pot:        Force
 938  */
 939 void
 940 nb_kernel_ElecCoul_VdwNone_GeomW4W4_F_sse2_single
 941                     (t_nblist                    * gmx_restrict       nlist,
 942                      rvec                        * gmx_restrict          xx,
 943                      rvec                        * gmx_restrict          ff,
 944                      t_forcerec                  * gmx_restrict          fr,
 945                      t_mdatoms                   * gmx_restrict     mdatoms,
 946                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
 947                      t_nrnb                      * gmx_restrict        nrnb)
 948 {
 949     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 950      * just 0 for non-waters.
 951      * Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
 952      * jnr indices corresponding to data put in the four positions in the SIMD register.
 953      */
 954     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 955     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 956     int              jnrA,jnrB,jnrC,jnrD;
 957     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
 958     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
 959     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 960     real             rcutoff_scalar;
 961     real             *shiftvec,*fshift,*x,*f;
 962     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
 963     real             scratch[4*DIM];
 964     __m128           tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 965     int              vdwioffset1;
 966     __m128           ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 967     int              vdwioffset2;
 968     __m128           ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 969     int              vdwioffset3;
 970     __m128           ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
 971     int              vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
 972     __m128           jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
 973     int              vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
 974     __m128           jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
 975     int              vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
 976     __m128           jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
 977     __m128           dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
 978     __m128           dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
 979     __m128           dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
 980     __m128           dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 981     __m128           dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 982     __m128           dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
 983     __m128           dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
 984     __m128           dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
 985     __m128           dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
 986     __m128           velec,felec,velecsum,facel,crf,krf,krf2;
 987     real             *charge;
 988     __m128           dummy_mask,cutoff_mask;
 989     __m128           signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
 990     __m128           one     = _mm_set1_ps(1.0);
 991     __m128           two     = _mm_set1_ps(2.0);
 992     x                = xx[0];
 993     f                = ff[0];
 994
 995     nri              = nlist->nri;
 996     iinr             = nlist->iinr;
 997     jindex           = nlist->jindex;
 998     jjnr             = nlist->jjnr;
 999     shiftidx         = nlist->shift;
1000     gid              = nlist->gid;
1001     shiftvec         = fr->shift_vec[0];
1002     fshift           = fr->fshift[0];
1003     facel            = _mm_set1_ps(fr->epsfac);
1004     charge           = mdatoms->chargeA;
1005
1006     /* Setup water-specific parameters */
1007     inr              = nlist->iinr[0];
1008     iq1              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
1009     iq2              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
1010     iq3              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
1011
1012     jq1              = _mm_set1_ps(charge[inr+1]);
1013     jq2              = _mm_set1_ps(charge[inr+2]);
1014     jq3              = _mm_set1_ps(charge[inr+3]);
1015     qq11             = _mm_mul_ps(iq1,jq1);
1016     qq12             = _mm_mul_ps(iq1,jq2);
1017     qq13             = _mm_mul_ps(iq1,jq3);
1018     qq21             = _mm_mul_ps(iq2,jq1);
1019     qq22             = _mm_mul_ps(iq2,jq2);
1020     qq23             = _mm_mul_ps(iq2,jq3);
1021     qq31             = _mm_mul_ps(iq3,jq1);
1022     qq32             = _mm_mul_ps(iq3,jq2);
1023     qq33             = _mm_mul_ps(iq3,jq3);
1024
1025     /* Avoid stupid compiler warnings */
1026     jnrA = jnrB = jnrC = jnrD = 0;
1027     j_coord_offsetA = 0;
1028     j_coord_offsetB = 0;
1029     j_coord_offsetC = 0;
1030     j_coord_offsetD = 0;
1031
1032     outeriter        = 0;
1033     inneriter        = 0;
1034
1035     for(iidx=0;iidx<4*DIM;iidx++)
1036     {
1037         scratch[iidx] = 0.0;
1038     }
1039
1040     /* Start outer loop over neighborlists */
1041     for(iidx=0; iidx<nri; iidx++)
1042     {
1043         /* Load shift vector for this list */
1044         i_shift_offset   = DIM*shiftidx[iidx];
1045
1046         /* Load limits for loop over neighbors */
1047         j_index_start    = jindex[iidx];
1048         j_index_end      = jindex[iidx+1];
1049
1050         /* Get outer coordinate index */
1051         inr              = iinr[iidx];
1052         i_coord_offset   = DIM*inr;
1053
1054         /* Load i particle coords and add shift vector */
1055         gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset+DIM,
1056                                                  &ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
1057
1058         fix1             = _mm_setzero_ps();
1059         fiy1             = _mm_setzero_ps();
1060         fiz1             = _mm_setzero_ps();
1061         fix2             = _mm_setzero_ps();
1062         fiy2             = _mm_setzero_ps();
1063         fiz2             = _mm_setzero_ps();
1064         fix3             = _mm_setzero_ps();
1065         fiy3             = _mm_setzero_ps();
1066         fiz3             = _mm_setzero_ps();
1067
1068         /* Start inner kernel loop */
1069         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1070         {
1071
1072             /* Get j neighbor index, and coordinate index */
1073             jnrA             = jjnr[jidx];
1074             jnrB             = jjnr[jidx+1];
1075             jnrC             = jjnr[jidx+2];
1076             jnrD             = jjnr[jidx+3];
1077             j_coord_offsetA  = DIM*jnrA;
1078             j_coord_offsetB  = DIM*jnrB;
1079             j_coord_offsetC  = DIM*jnrC;
1080             j_coord_offsetD  = DIM*jnrD;
1081
1082             /* load j atom coordinates */
1083             gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA+DIM,x+j_coord_offsetB+DIM,
1084                                               x+j_coord_offsetC+DIM,x+j_coord_offsetD+DIM,
1085                                               &jx1,&jy1,&jz1,&jx2,&jy2,&jz2,&jx3,&jy3,&jz3);
1086
1087             /* Calculate displacement vector */
1088             dx11             = _mm_sub_ps(ix1,jx1);
1089             dy11             = _mm_sub_ps(iy1,jy1);
1090             dz11             = _mm_sub_ps(iz1,jz1);
1091             dx12             = _mm_sub_ps(ix1,jx2);
1092             dy12             = _mm_sub_ps(iy1,jy2);
1093             dz12             = _mm_sub_ps(iz1,jz2);
1094             dx13             = _mm_sub_ps(ix1,jx3);
1095             dy13             = _mm_sub_ps(iy1,jy3);
1096             dz13             = _mm_sub_ps(iz1,jz3);
1097             dx21             = _mm_sub_ps(ix2,jx1);
1098             dy21             = _mm_sub_ps(iy2,jy1);
1099             dz21             = _mm_sub_ps(iz2,jz1);
1100             dx22             = _mm_sub_ps(ix2,jx2);
1101             dy22             = _mm_sub_ps(iy2,jy2);
1102             dz22             = _mm_sub_ps(iz2,jz2);
1103             dx23             = _mm_sub_ps(ix2,jx3);
1104             dy23             = _mm_sub_ps(iy2,jy3);
1105             dz23             = _mm_sub_ps(iz2,jz3);
1106             dx31             = _mm_sub_ps(ix3,jx1);
1107             dy31             = _mm_sub_ps(iy3,jy1);
1108             dz31             = _mm_sub_ps(iz3,jz1);
1109             dx32             = _mm_sub_ps(ix3,jx2);
1110             dy32             = _mm_sub_ps(iy3,jy2);
1111             dz32             = _mm_sub_ps(iz3,jz2);
1112             dx33             = _mm_sub_ps(ix3,jx3);
1113             dy33             = _mm_sub_ps(iy3,jy3);
1114             dz33             = _mm_sub_ps(iz3,jz3);
1115
1116             /* Calculate squared distance and things based on it */
1117             rsq11            = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1118             rsq12            = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1119             rsq13            = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1120             rsq21            = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1121             rsq22            = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1122             rsq23            = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1123             rsq31            = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1124             rsq32            = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1125             rsq33            = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1126
1127             rinv11           = gmx_mm_invsqrt_ps(rsq11);
1128             rinv12           = gmx_mm_invsqrt_ps(rsq12);
1129             rinv13           = gmx_mm_invsqrt_ps(rsq13);
1130             rinv21           = gmx_mm_invsqrt_ps(rsq21);
1131             rinv22           = gmx_mm_invsqrt_ps(rsq22);
1132             rinv23           = gmx_mm_invsqrt_ps(rsq23);
1133             rinv31           = gmx_mm_invsqrt_ps(rsq31);
1134             rinv32           = gmx_mm_invsqrt_ps(rsq32);
1135             rinv33           = gmx_mm_invsqrt_ps(rsq33);
1136
1137             rinvsq11         = _mm_mul_ps(rinv11,rinv11);
1138             rinvsq12         = _mm_mul_ps(rinv12,rinv12);
1139             rinvsq13         = _mm_mul_ps(rinv13,rinv13);
1140             rinvsq21         = _mm_mul_ps(rinv21,rinv21);
1141             rinvsq22         = _mm_mul_ps(rinv22,rinv22);
1142             rinvsq23         = _mm_mul_ps(rinv23,rinv23);
1143             rinvsq31         = _mm_mul_ps(rinv31,rinv31);
1144             rinvsq32         = _mm_mul_ps(rinv32,rinv32);
1145             rinvsq33         = _mm_mul_ps(rinv33,rinv33);
1146
1147             fjx1             = _mm_setzero_ps();
1148             fjy1             = _mm_setzero_ps();
1149             fjz1             = _mm_setzero_ps();
1150             fjx2             = _mm_setzero_ps();
1151             fjy2             = _mm_setzero_ps();
1152             fjz2             = _mm_setzero_ps();
1153             fjx3             = _mm_setzero_ps();
1154             fjy3             = _mm_setzero_ps();
1155             fjz3             = _mm_setzero_ps();
1156
1157             /**************************
1158              * CALCULATE INTERACTIONS *
1159              **************************/
1160
1161             /* COULOMB ELECTROSTATICS */
1162             velec            = _mm_mul_ps(qq11,rinv11);
1163             felec            = _mm_mul_ps(velec,rinvsq11);
1164
1165             fscal            = felec;
1166
1167             /* Calculate temporary vectorial force */
1168             tx               = _mm_mul_ps(fscal,dx11);
1169             ty               = _mm_mul_ps(fscal,dy11);
1170             tz               = _mm_mul_ps(fscal,dz11);
1171
1172             /* Update vectorial force */
1173             fix1             = _mm_add_ps(fix1,tx);
1174             fiy1             = _mm_add_ps(fiy1,ty);
1175             fiz1             = _mm_add_ps(fiz1,tz);
1176
1177             fjx1             = _mm_add_ps(fjx1,tx);
1178             fjy1             = _mm_add_ps(fjy1,ty);
1179             fjz1             = _mm_add_ps(fjz1,tz);
1180
1181             /**************************
1182              * CALCULATE INTERACTIONS *
1183              **************************/
1184
1185             /* COULOMB ELECTROSTATICS */
1186             velec            = _mm_mul_ps(qq12,rinv12);
1187             felec            = _mm_mul_ps(velec,rinvsq12);
1188
1189             fscal            = felec;
1190
1191             /* Calculate temporary vectorial force */
1192             tx               = _mm_mul_ps(fscal,dx12);
1193             ty               = _mm_mul_ps(fscal,dy12);
1194             tz               = _mm_mul_ps(fscal,dz12);
1195
1196             /* Update vectorial force */
1197             fix1             = _mm_add_ps(fix1,tx);
1198             fiy1             = _mm_add_ps(fiy1,ty);
1199             fiz1             = _mm_add_ps(fiz1,tz);
1200
1201             fjx2             = _mm_add_ps(fjx2,tx);
1202             fjy2             = _mm_add_ps(fjy2,ty);
1203             fjz2             = _mm_add_ps(fjz2,tz);
1204
1205             /**************************
1206              * CALCULATE INTERACTIONS *
1207              **************************/
1208
1209             /* COULOMB ELECTROSTATICS */
1210             velec            = _mm_mul_ps(qq13,rinv13);
1211             felec            = _mm_mul_ps(velec,rinvsq13);
1212
1213             fscal            = felec;
1214
1215             /* Calculate temporary vectorial force */
1216             tx               = _mm_mul_ps(fscal,dx13);
1217             ty               = _mm_mul_ps(fscal,dy13);
1218             tz               = _mm_mul_ps(fscal,dz13);
1219
1220             /* Update vectorial force */
1221             fix1             = _mm_add_ps(fix1,tx);
1222             fiy1             = _mm_add_ps(fiy1,ty);
1223             fiz1             = _mm_add_ps(fiz1,tz);
1224
1225             fjx3             = _mm_add_ps(fjx3,tx);
1226             fjy3             = _mm_add_ps(fjy3,ty);
1227             fjz3             = _mm_add_ps(fjz3,tz);
1228
1229             /**************************
1230              * CALCULATE INTERACTIONS *
1231              **************************/
1232
1233             /* COULOMB ELECTROSTATICS */
1234             velec            = _mm_mul_ps(qq21,rinv21);
1235             felec            = _mm_mul_ps(velec,rinvsq21);
1236
1237             fscal            = felec;
1238
1239             /* Calculate temporary vectorial force */
1240             tx               = _mm_mul_ps(fscal,dx21);
1241             ty               = _mm_mul_ps(fscal,dy21);
1242             tz               = _mm_mul_ps(fscal,dz21);
1243
1244             /* Update vectorial force */
1245             fix2             = _mm_add_ps(fix2,tx);
1246             fiy2             = _mm_add_ps(fiy2,ty);
1247             fiz2             = _mm_add_ps(fiz2,tz);
1248
1249             fjx1             = _mm_add_ps(fjx1,tx);
1250             fjy1             = _mm_add_ps(fjy1,ty);
1251             fjz1             = _mm_add_ps(fjz1,tz);
1252
1253             /**************************
1254              * CALCULATE INTERACTIONS *
1255              **************************/
1256
1257             /* COULOMB ELECTROSTATICS */
1258             velec            = _mm_mul_ps(qq22,rinv22);
1259             felec            = _mm_mul_ps(velec,rinvsq22);
1260
1261             fscal            = felec;
1262
1263             /* Calculate temporary vectorial force */
1264             tx               = _mm_mul_ps(fscal,dx22);
1265             ty               = _mm_mul_ps(fscal,dy22);
1266             tz               = _mm_mul_ps(fscal,dz22);
1267
1268             /* Update vectorial force */
1269             fix2             = _mm_add_ps(fix2,tx);
1270             fiy2             = _mm_add_ps(fiy2,ty);
1271             fiz2             = _mm_add_ps(fiz2,tz);
1272
1273             fjx2             = _mm_add_ps(fjx2,tx);
1274             fjy2             = _mm_add_ps(fjy2,ty);
1275             fjz2             = _mm_add_ps(fjz2,tz);
1276
1277             /**************************
1278              * CALCULATE INTERACTIONS *
1279              **************************/
1280
1281             /* COULOMB ELECTROSTATICS */
1282             velec            = _mm_mul_ps(qq23,rinv23);
1283             felec            = _mm_mul_ps(velec,rinvsq23);
1284
1285             fscal            = felec;
1286
1287             /* Calculate temporary vectorial force */
1288             tx               = _mm_mul_ps(fscal,dx23);
1289             ty               = _mm_mul_ps(fscal,dy23);
1290             tz               = _mm_mul_ps(fscal,dz23);
1291
1292             /* Update vectorial force */
1293             fix2             = _mm_add_ps(fix2,tx);
1294             fiy2             = _mm_add_ps(fiy2,ty);
1295             fiz2             = _mm_add_ps(fiz2,tz);
1296
1297             fjx3             = _mm_add_ps(fjx3,tx);
1298             fjy3             = _mm_add_ps(fjy3,ty);
1299             fjz3             = _mm_add_ps(fjz3,tz);
1300
1301             /**************************
1302              * CALCULATE INTERACTIONS *
1303              **************************/
1304
1305             /* COULOMB ELECTROSTATICS */
1306             velec            = _mm_mul_ps(qq31,rinv31);
1307             felec            = _mm_mul_ps(velec,rinvsq31);
1308
1309             fscal            = felec;
1310
1311             /* Calculate temporary vectorial force */
1312             tx               = _mm_mul_ps(fscal,dx31);
1313             ty               = _mm_mul_ps(fscal,dy31);
1314             tz               = _mm_mul_ps(fscal,dz31);
1315
1316             /* Update vectorial force */
1317             fix3             = _mm_add_ps(fix3,tx);
1318             fiy3             = _mm_add_ps(fiy3,ty);
1319             fiz3             = _mm_add_ps(fiz3,tz);
1320
1321             fjx1             = _mm_add_ps(fjx1,tx);
1322             fjy1             = _mm_add_ps(fjy1,ty);
1323             fjz1             = _mm_add_ps(fjz1,tz);
1324
1325             /**************************
1326              * CALCULATE INTERACTIONS *
1327              **************************/
1328
1329             /* COULOMB ELECTROSTATICS */
1330             velec            = _mm_mul_ps(qq32,rinv32);
1331             felec            = _mm_mul_ps(velec,rinvsq32);
1332
1333             fscal            = felec;
1334
1335             /* Calculate temporary vectorial force */
1336             tx               = _mm_mul_ps(fscal,dx32);
1337             ty               = _mm_mul_ps(fscal,dy32);
1338             tz               = _mm_mul_ps(fscal,dz32);
1339
1340             /* Update vectorial force */
1341             fix3             = _mm_add_ps(fix3,tx);
1342             fiy3             = _mm_add_ps(fiy3,ty);
1343             fiz3             = _mm_add_ps(fiz3,tz);
1344
1345             fjx2             = _mm_add_ps(fjx2,tx);
1346             fjy2             = _mm_add_ps(fjy2,ty);
1347             fjz2             = _mm_add_ps(fjz2,tz);
1348
1349             /**************************
1350              * CALCULATE INTERACTIONS *
1351              **************************/
1352
1353             /* COULOMB ELECTROSTATICS */
1354             velec            = _mm_mul_ps(qq33,rinv33);
1355             felec            = _mm_mul_ps(velec,rinvsq33);
1356
1357             fscal            = felec;
1358
1359             /* Calculate temporary vectorial force */
1360             tx               = _mm_mul_ps(fscal,dx33);
1361             ty               = _mm_mul_ps(fscal,dy33);
1362             tz               = _mm_mul_ps(fscal,dz33);
1363
1364             /* Update vectorial force */
1365             fix3             = _mm_add_ps(fix3,tx);
1366             fiy3             = _mm_add_ps(fiy3,ty);
1367             fiz3             = _mm_add_ps(fiz3,tz);
1368
1369             fjx3             = _mm_add_ps(fjx3,tx);
1370             fjy3             = _mm_add_ps(fjy3,ty);
1371             fjz3             = _mm_add_ps(fjz3,tz);
1372
1373             fjptrA             = f+j_coord_offsetA;
1374             fjptrB             = f+j_coord_offsetB;
1375             fjptrC             = f+j_coord_offsetC;
1376             fjptrD             = f+j_coord_offsetD;
1377
1378             gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA+DIM,fjptrB+DIM,fjptrC+DIM,fjptrD+DIM,
1379                                                    fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1380
1381             /* Inner loop uses 243 flops */
1382         }
1383
1384         if(jidx<j_index_end)
1385         {
1386
1387             /* Get j neighbor index, and coordinate index */
1388             jnrlistA         = jjnr[jidx];
1389             jnrlistB         = jjnr[jidx+1];
1390             jnrlistC         = jjnr[jidx+2];
1391             jnrlistD         = jjnr[jidx+3];
1392             /* Sign of each element will be negative for non-real atoms.
1393              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1394              * so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1395              */
1396             dummy_mask = gmx_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1397             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
1398             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
1399             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
1400             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
1401             j_coord_offsetA  = DIM*jnrA;
1402             j_coord_offsetB  = DIM*jnrB;
1403             j_coord_offsetC  = DIM*jnrC;
1404             j_coord_offsetD  = DIM*jnrD;
1405
1406             /* load j atom coordinates */
1407             gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA+DIM,x+j_coord_offsetB+DIM,
1408                                               x+j_coord_offsetC+DIM,x+j_coord_offsetD+DIM,
1409                                               &jx1,&jy1,&jz1,&jx2,&jy2,&jz2,&jx3,&jy3,&jz3);
1410
1411             /* Calculate displacement vector */
1412             dx11             = _mm_sub_ps(ix1,jx1);
1413             dy11             = _mm_sub_ps(iy1,jy1);
1414             dz11             = _mm_sub_ps(iz1,jz1);
1415             dx12             = _mm_sub_ps(ix1,jx2);
1416             dy12             = _mm_sub_ps(iy1,jy2);
1417             dz12             = _mm_sub_ps(iz1,jz2);
1418             dx13             = _mm_sub_ps(ix1,jx3);
1419             dy13             = _mm_sub_ps(iy1,jy3);
1420             dz13             = _mm_sub_ps(iz1,jz3);
1421             dx21             = _mm_sub_ps(ix2,jx1);
1422             dy21             = _mm_sub_ps(iy2,jy1);
1423             dz21             = _mm_sub_ps(iz2,jz1);
1424             dx22             = _mm_sub_ps(ix2,jx2);
1425             dy22             = _mm_sub_ps(iy2,jy2);
1426             dz22             = _mm_sub_ps(iz2,jz2);
1427             dx23             = _mm_sub_ps(ix2,jx3);
1428             dy23             = _mm_sub_ps(iy2,jy3);
1429             dz23             = _mm_sub_ps(iz2,jz3);
1430             dx31             = _mm_sub_ps(ix3,jx1);
1431             dy31             = _mm_sub_ps(iy3,jy1);
1432             dz31             = _mm_sub_ps(iz3,jz1);
1433             dx32             = _mm_sub_ps(ix3,jx2);
1434             dy32             = _mm_sub_ps(iy3,jy2);
1435             dz32             = _mm_sub_ps(iz3,jz2);
1436             dx33             = _mm_sub_ps(ix3,jx3);
1437             dy33             = _mm_sub_ps(iy3,jy3);
1438             dz33             = _mm_sub_ps(iz3,jz3);
1439
1440             /* Calculate squared distance and things based on it */
1441             rsq11            = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1442             rsq12            = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1443             rsq13            = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1444             rsq21            = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1445             rsq22            = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1446             rsq23            = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1447             rsq31            = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1448             rsq32            = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1449             rsq33            = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1450
1451             rinv11           = gmx_mm_invsqrt_ps(rsq11);
1452             rinv12           = gmx_mm_invsqrt_ps(rsq12);
1453             rinv13           = gmx_mm_invsqrt_ps(rsq13);
1454             rinv21           = gmx_mm_invsqrt_ps(rsq21);
1455             rinv22           = gmx_mm_invsqrt_ps(rsq22);
1456             rinv23           = gmx_mm_invsqrt_ps(rsq23);
1457             rinv31           = gmx_mm_invsqrt_ps(rsq31);
1458             rinv32           = gmx_mm_invsqrt_ps(rsq32);
1459             rinv33           = gmx_mm_invsqrt_ps(rsq33);
1460
1461             rinvsq11         = _mm_mul_ps(rinv11,rinv11);
1462             rinvsq12         = _mm_mul_ps(rinv12,rinv12);
1463             rinvsq13         = _mm_mul_ps(rinv13,rinv13);
1464             rinvsq21         = _mm_mul_ps(rinv21,rinv21);
1465             rinvsq22         = _mm_mul_ps(rinv22,rinv22);
1466             rinvsq23         = _mm_mul_ps(rinv23,rinv23);
1467             rinvsq31         = _mm_mul_ps(rinv31,rinv31);
1468             rinvsq32         = _mm_mul_ps(rinv32,rinv32);
1469             rinvsq33         = _mm_mul_ps(rinv33,rinv33);
1470
1471             fjx1             = _mm_setzero_ps();
1472             fjy1             = _mm_setzero_ps();
1473             fjz1             = _mm_setzero_ps();
1474             fjx2             = _mm_setzero_ps();
1475             fjy2             = _mm_setzero_ps();
1476             fjz2             = _mm_setzero_ps();
1477             fjx3             = _mm_setzero_ps();
1478             fjy3             = _mm_setzero_ps();
1479             fjz3             = _mm_setzero_ps();
1480
1481             /**************************
1482              * CALCULATE INTERACTIONS *
1483              **************************/
1484
1485             /* COULOMB ELECTROSTATICS */
1486             velec            = _mm_mul_ps(qq11,rinv11);
1487             felec            = _mm_mul_ps(velec,rinvsq11);
1488
1489             fscal            = felec;
1490
1491             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1492
1493             /* Calculate temporary vectorial force */
1494             tx               = _mm_mul_ps(fscal,dx11);
1495             ty               = _mm_mul_ps(fscal,dy11);
1496             tz               = _mm_mul_ps(fscal,dz11);
1497
1498             /* Update vectorial force */
1499             fix1             = _mm_add_ps(fix1,tx);
1500             fiy1             = _mm_add_ps(fiy1,ty);
1501             fiz1             = _mm_add_ps(fiz1,tz);
1502
1503             fjx1             = _mm_add_ps(fjx1,tx);
1504             fjy1             = _mm_add_ps(fjy1,ty);
1505             fjz1             = _mm_add_ps(fjz1,tz);
1506
1507             /**************************
1508              * CALCULATE INTERACTIONS *
1509              **************************/
1510
1511             /* COULOMB ELECTROSTATICS */
1512             velec            = _mm_mul_ps(qq12,rinv12);
1513             felec            = _mm_mul_ps(velec,rinvsq12);
1514
1515             fscal            = felec;
1516
1517             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1518
1519             /* Calculate temporary vectorial force */
1520             tx               = _mm_mul_ps(fscal,dx12);
1521             ty               = _mm_mul_ps(fscal,dy12);
1522             tz               = _mm_mul_ps(fscal,dz12);
1523
1524             /* Update vectorial force */
1525             fix1             = _mm_add_ps(fix1,tx);
1526             fiy1             = _mm_add_ps(fiy1,ty);
1527             fiz1             = _mm_add_ps(fiz1,tz);
1528
1529             fjx2             = _mm_add_ps(fjx2,tx);
1530             fjy2             = _mm_add_ps(fjy2,ty);
1531             fjz2             = _mm_add_ps(fjz2,tz);
1532
1533             /**************************
1534              * CALCULATE INTERACTIONS *
1535              **************************/
1536
1537             /* COULOMB ELECTROSTATICS */
1538             velec            = _mm_mul_ps(qq13,rinv13);
1539             felec            = _mm_mul_ps(velec,rinvsq13);
1540
1541             fscal            = felec;
1542
1543             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1544
1545             /* Calculate temporary vectorial force */
1546             tx               = _mm_mul_ps(fscal,dx13);
1547             ty               = _mm_mul_ps(fscal,dy13);
1548             tz               = _mm_mul_ps(fscal,dz13);
1549
1550             /* Update vectorial force */
1551             fix1             = _mm_add_ps(fix1,tx);
1552             fiy1             = _mm_add_ps(fiy1,ty);
1553             fiz1             = _mm_add_ps(fiz1,tz);
1554
1555             fjx3             = _mm_add_ps(fjx3,tx);
1556             fjy3             = _mm_add_ps(fjy3,ty);
1557             fjz3             = _mm_add_ps(fjz3,tz);
1558
1559             /**************************
1560              * CALCULATE INTERACTIONS *
1561              **************************/
1562
1563             /* COULOMB ELECTROSTATICS */
1564             velec            = _mm_mul_ps(qq21,rinv21);
1565             felec            = _mm_mul_ps(velec,rinvsq21);
1566
1567             fscal            = felec;
1568
1569             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1570
1571             /* Calculate temporary vectorial force */
1572             tx               = _mm_mul_ps(fscal,dx21);
1573             ty               = _mm_mul_ps(fscal,dy21);
1574             tz               = _mm_mul_ps(fscal,dz21);
1575
1576             /* Update vectorial force */
1577             fix2             = _mm_add_ps(fix2,tx);
1578             fiy2             = _mm_add_ps(fiy2,ty);
1579             fiz2             = _mm_add_ps(fiz2,tz);
1580
1581             fjx1             = _mm_add_ps(fjx1,tx);
1582             fjy1             = _mm_add_ps(fjy1,ty);
1583             fjz1             = _mm_add_ps(fjz1,tz);
1584
1585             /**************************
1586              * CALCULATE INTERACTIONS *
1587              **************************/
1588
1589             /* COULOMB ELECTROSTATICS */
1590             velec            = _mm_mul_ps(qq22,rinv22);
1591             felec            = _mm_mul_ps(velec,rinvsq22);
1592
1593             fscal            = felec;
1594
1595             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1596
1597             /* Calculate temporary vectorial force */
1598             tx               = _mm_mul_ps(fscal,dx22);
1599             ty               = _mm_mul_ps(fscal,dy22);
1600             tz               = _mm_mul_ps(fscal,dz22);
1601
1602             /* Update vectorial force */
1603             fix2             = _mm_add_ps(fix2,tx);
1604             fiy2             = _mm_add_ps(fiy2,ty);
1605             fiz2             = _mm_add_ps(fiz2,tz);
1606
1607             fjx2             = _mm_add_ps(fjx2,tx);
1608             fjy2             = _mm_add_ps(fjy2,ty);
1609             fjz2             = _mm_add_ps(fjz2,tz);
1610
1611             /**************************
1612              * CALCULATE INTERACTIONS *
1613              **************************/
1614
1615             /* COULOMB ELECTROSTATICS */
1616             velec            = _mm_mul_ps(qq23,rinv23);
1617             felec            = _mm_mul_ps(velec,rinvsq23);
1618
1619             fscal            = felec;
1620
1621             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1622
1623             /* Calculate temporary vectorial force */
1624             tx               = _mm_mul_ps(fscal,dx23);
1625             ty               = _mm_mul_ps(fscal,dy23);
1626             tz               = _mm_mul_ps(fscal,dz23);
1627
1628             /* Update vectorial force */
1629             fix2             = _mm_add_ps(fix2,tx);
1630             fiy2             = _mm_add_ps(fiy2,ty);
1631             fiz2             = _mm_add_ps(fiz2,tz);
1632
1633             fjx3             = _mm_add_ps(fjx3,tx);
1634             fjy3             = _mm_add_ps(fjy3,ty);
1635             fjz3             = _mm_add_ps(fjz3,tz);
1636
1637             /**************************
1638              * CALCULATE INTERACTIONS *
1639              **************************/
1640
1641             /* COULOMB ELECTROSTATICS */
1642             velec            = _mm_mul_ps(qq31,rinv31);
1643             felec            = _mm_mul_ps(velec,rinvsq31);
1644
1645             fscal            = felec;
1646
1647             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1648
1649             /* Calculate temporary vectorial force */
1650             tx               = _mm_mul_ps(fscal,dx31);
1651             ty               = _mm_mul_ps(fscal,dy31);
1652             tz               = _mm_mul_ps(fscal,dz31);
1653
1654             /* Update vectorial force */
1655             fix3             = _mm_add_ps(fix3,tx);
1656             fiy3             = _mm_add_ps(fiy3,ty);
1657             fiz3             = _mm_add_ps(fiz3,tz);
1658
1659             fjx1             = _mm_add_ps(fjx1,tx);
1660             fjy1             = _mm_add_ps(fjy1,ty);
1661             fjz1             = _mm_add_ps(fjz1,tz);
1662
1663             /**************************
1664              * CALCULATE INTERACTIONS *
1665              **************************/
1666
1667             /* COULOMB ELECTROSTATICS */
1668             velec            = _mm_mul_ps(qq32,rinv32);
1669             felec            = _mm_mul_ps(velec,rinvsq32);
1670
1671             fscal            = felec;
1672
1673             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1674
1675             /* Calculate temporary vectorial force */
1676             tx               = _mm_mul_ps(fscal,dx32);
1677             ty               = _mm_mul_ps(fscal,dy32);
1678             tz               = _mm_mul_ps(fscal,dz32);
1679
1680             /* Update vectorial force */
1681             fix3             = _mm_add_ps(fix3,tx);
1682             fiy3             = _mm_add_ps(fiy3,ty);
1683             fiz3             = _mm_add_ps(fiz3,tz);
1684
1685             fjx2             = _mm_add_ps(fjx2,tx);
1686             fjy2             = _mm_add_ps(fjy2,ty);
1687             fjz2             = _mm_add_ps(fjz2,tz);
1688
1689             /**************************
1690              * CALCULATE INTERACTIONS *
1691              **************************/
1692
1693             /* COULOMB ELECTROSTATICS */
1694             velec            = _mm_mul_ps(qq33,rinv33);
1695             felec            = _mm_mul_ps(velec,rinvsq33);
1696
1697             fscal            = felec;
1698
1699             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1700
1701             /* Calculate temporary vectorial force */
1702             tx               = _mm_mul_ps(fscal,dx33);
1703             ty               = _mm_mul_ps(fscal,dy33);
1704             tz               = _mm_mul_ps(fscal,dz33);
1705
1706             /* Update vectorial force */
1707             fix3             = _mm_add_ps(fix3,tx);
1708             fiy3             = _mm_add_ps(fiy3,ty);
1709             fiz3             = _mm_add_ps(fiz3,tz);
1710
1711             fjx3             = _mm_add_ps(fjx3,tx);
1712             fjy3             = _mm_add_ps(fjy3,ty);
1713             fjz3             = _mm_add_ps(fjz3,tz);
1714
1715             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1716             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1717             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1718             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1719
1720             gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA+DIM,fjptrB+DIM,fjptrC+DIM,fjptrD+DIM,
1721                                                    fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1722
1723             /* Inner loop uses 243 flops */
1724         }
1725
1726         /* End of innermost loop */
1727
1728         gmx_mm_update_iforce_3atom_swizzle_ps(fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1729                                               f+i_coord_offset+DIM,fshift+i_shift_offset);
1730
1731         /* Increment number of inner iterations */
1732         inneriter                  += j_index_end - j_index_start;
1733
1734         /* Outer loop uses 18 flops */
1735     }
1736
1737     /* Increment number of outer iterations */
1738     outeriter        += nri;
1739
1740     /* Update outer/inner flops */
1741
1742     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W4W4_F,outeriter*18 + inneriter*243);
1743 }