src/gromacs/gmxlib/nonbonded/nb_kernel_avx_128_fma_double/nb_kernel_ElecCoul_VdwLJ_GeomW4W4_avx_128_fma_double.c

   1 /*
   2  * This file is part of the GROMACS molecular simulation package.
   3  *
   4  * Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
   5  * Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
   6  * and including many others, as listed in the AUTHORS file in the
   7  * top-level source directory and at http://www.gromacs.org.
   8  *
   9  * GROMACS is free software; you can redistribute it and/or
  10  * modify it under the terms of the GNU Lesser General Public License
  11  * as published by the Free Software Foundation; either version 2.1
  12  * of the License, or (at your option) any later version.
  13  *
  14  * GROMACS is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17  * Lesser General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU Lesser General Public
  20  * License along with GROMACS; if not, see
  21  * http://www.gnu.org/licenses, or write to the Free Software Foundation,
  22  * Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA.
  23  *
  24  * If you want to redistribute modifications to GROMACS, please
  25  * consider that scientific software is very special. Version
  26  * control is crucial - bugs must be traceable. We will be happy to
  27  * consider code for inclusion in the official distribution, but
  28  * derived work must not be called official GROMACS. Details are found
  29  * in the README & COPYING files - if they are missing, get the
  30  * official version at http://www.gromacs.org.
  31  *
  32  * To help us fund GROMACS development, we humbly ask that you cite
  33  * the research papers on the package. Check out http://www.gromacs.org.
  34  */
  35 /*
  36  * Note: this file was generated by the GROMACS avx_128_fma_double kernel generator.
  37  */
  38 #include "config.h"
  39
  40 #include <math.h>
  41
  42 #include "../nb_kernel.h"
  43 #include "types/simple.h"
  44 #include "gromacs/math/vec.h"
  45 #include "nrnb.h"
  46
  47 #include "gromacs/simd/math_x86_avx_128_fma_double.h"
  48 #include "kernelutil_x86_avx_128_fma_double.h"
  49
  50 /*
  51  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwLJ_GeomW4W4_VF_avx_128_fma_double
  52  * Electrostatics interaction: Coulomb
  53  * VdW interaction:            LennardJones
  54  * Geometry:                   Water4-Water4
  55  * Calculate force/pot:        PotentialAndForce
  56  */
  57 void
  58 nb_kernel_ElecCoul_VdwLJ_GeomW4W4_VF_avx_128_fma_double
  59                     (t_nblist                    * gmx_restrict       nlist,
  60                      rvec                        * gmx_restrict          xx,
  61                      rvec                        * gmx_restrict          ff,
  62                      t_forcerec                  * gmx_restrict          fr,
  63                      t_mdatoms                   * gmx_restrict     mdatoms,
  64                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
  65                      t_nrnb                      * gmx_restrict        nrnb)
  66 {
  67     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  68      * just 0 for non-waters.
  69      * Suffixes A,B refer to j loop unrolling done with SSE double precision, e.g. for the two different
  70      * jnr indices corresponding to data put in the four positions in the SIMD register.
  71      */
  72     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  73     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  74     int              jnrA,jnrB;
  75     int              j_coord_offsetA,j_coord_offsetB;
  76     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  77     real             rcutoff_scalar;
  78     real             *shiftvec,*fshift,*x,*f;
  79     __m128d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  80     int              vdwioffset0;
  81     __m128d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
  82     int              vdwioffset1;
  83     __m128d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  84     int              vdwioffset2;
  85     __m128d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  86     int              vdwioffset3;
  87     __m128d          ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
  88     int              vdwjidx0A,vdwjidx0B;
  89     __m128d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  90     int              vdwjidx1A,vdwjidx1B;
  91     __m128d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
  92     int              vdwjidx2A,vdwjidx2B;
  93     __m128d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
  94     int              vdwjidx3A,vdwjidx3B;
  95     __m128d          jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
  96     __m128d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
  97     __m128d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
  98     __m128d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
  99     __m128d          dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
 100     __m128d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 101     __m128d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 102     __m128d          dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
 103     __m128d          dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
 104     __m128d          dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
 105     __m128d          dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
 106     __m128d          velec,felec,velecsum,facel,crf,krf,krf2;
 107     real             *charge;
 108     int              nvdwtype;
 109     __m128d          rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
 110     int              *vdwtype;
 111     real             *vdwparam;
 112     __m128d          one_sixth   = _mm_set1_pd(1.0/6.0);
 113     __m128d          one_twelfth = _mm_set1_pd(1.0/12.0);
 114     __m128d          dummy_mask,cutoff_mask;
 115     __m128d          signbit   = gmx_mm_castsi128_pd( _mm_set_epi32(0x80000000,0x00000000,0x80000000,0x00000000) );
 116     __m128d          one     = _mm_set1_pd(1.0);
 117     __m128d          two     = _mm_set1_pd(2.0);
 118     x                = xx[0];
 119     f                = ff[0];
 120
 121     nri              = nlist->nri;
 122     iinr             = nlist->iinr;
 123     jindex           = nlist->jindex;
 124     jjnr             = nlist->jjnr;
 125     shiftidx         = nlist->shift;
 126     gid              = nlist->gid;
 127     shiftvec         = fr->shift_vec[0];
 128     fshift           = fr->fshift[0];
 129     facel            = _mm_set1_pd(fr->epsfac);
 130     charge           = mdatoms->chargeA;
 131     nvdwtype         = fr->ntype;
 132     vdwparam         = fr->nbfp;
 133     vdwtype          = mdatoms->typeA;
 134
 135     /* Setup water-specific parameters */
 136     inr              = nlist->iinr[0];
 137     iq1              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+1]));
 138     iq2              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+2]));
 139     iq3              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+3]));
 140     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 141
 142     jq1              = _mm_set1_pd(charge[inr+1]);
 143     jq2              = _mm_set1_pd(charge[inr+2]);
 144     jq3              = _mm_set1_pd(charge[inr+3]);
 145     vdwjidx0A        = 2*vdwtype[inr+0];
 146     c6_00            = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A]);
 147     c12_00           = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A+1]);
 148     qq11             = _mm_mul_pd(iq1,jq1);
 149     qq12             = _mm_mul_pd(iq1,jq2);
 150     qq13             = _mm_mul_pd(iq1,jq3);
 151     qq21             = _mm_mul_pd(iq2,jq1);
 152     qq22             = _mm_mul_pd(iq2,jq2);
 153     qq23             = _mm_mul_pd(iq2,jq3);
 154     qq31             = _mm_mul_pd(iq3,jq1);
 155     qq32             = _mm_mul_pd(iq3,jq2);
 156     qq33             = _mm_mul_pd(iq3,jq3);
 157
 158     /* Avoid stupid compiler warnings */
 159     jnrA = jnrB = 0;
 160     j_coord_offsetA = 0;
 161     j_coord_offsetB = 0;
 162
 163     outeriter        = 0;
 164     inneriter        = 0;
 165
 166     /* Start outer loop over neighborlists */
 167     for(iidx=0; iidx<nri; iidx++)
 168     {
 169         /* Load shift vector for this list */
 170         i_shift_offset   = DIM*shiftidx[iidx];
 171
 172         /* Load limits for loop over neighbors */
 173         j_index_start    = jindex[iidx];
 174         j_index_end      = jindex[iidx+1];
 175
 176         /* Get outer coordinate index */
 177         inr              = iinr[iidx];
 178         i_coord_offset   = DIM*inr;
 179
 180         /* Load i particle coords and add shift vector */
 181         gmx_mm_load_shift_and_4rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
 182                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
 183
 184         fix0             = _mm_setzero_pd();
 185         fiy0             = _mm_setzero_pd();
 186         fiz0             = _mm_setzero_pd();
 187         fix1             = _mm_setzero_pd();
 188         fiy1             = _mm_setzero_pd();
 189         fiz1             = _mm_setzero_pd();
 190         fix2             = _mm_setzero_pd();
 191         fiy2             = _mm_setzero_pd();
 192         fiz2             = _mm_setzero_pd();
 193         fix3             = _mm_setzero_pd();
 194         fiy3             = _mm_setzero_pd();
 195         fiz3             = _mm_setzero_pd();
 196
 197         /* Reset potential sums */
 198         velecsum         = _mm_setzero_pd();
 199         vvdwsum          = _mm_setzero_pd();
 200
 201         /* Start inner kernel loop */
 202         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
 203         {
 204
 205             /* Get j neighbor index, and coordinate index */
 206             jnrA             = jjnr[jidx];
 207             jnrB             = jjnr[jidx+1];
 208             j_coord_offsetA  = DIM*jnrA;
 209             j_coord_offsetB  = DIM*jnrB;
 210
 211             /* load j atom coordinates */
 212             gmx_mm_load_4rvec_2ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 213                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
 214                                               &jy2,&jz2,&jx3,&jy3,&jz3);
 215
 216             /* Calculate displacement vector */
 217             dx00             = _mm_sub_pd(ix0,jx0);
 218             dy00             = _mm_sub_pd(iy0,jy0);
 219             dz00             = _mm_sub_pd(iz0,jz0);
 220             dx11             = _mm_sub_pd(ix1,jx1);
 221             dy11             = _mm_sub_pd(iy1,jy1);
 222             dz11             = _mm_sub_pd(iz1,jz1);
 223             dx12             = _mm_sub_pd(ix1,jx2);
 224             dy12             = _mm_sub_pd(iy1,jy2);
 225             dz12             = _mm_sub_pd(iz1,jz2);
 226             dx13             = _mm_sub_pd(ix1,jx3);
 227             dy13             = _mm_sub_pd(iy1,jy3);
 228             dz13             = _mm_sub_pd(iz1,jz3);
 229             dx21             = _mm_sub_pd(ix2,jx1);
 230             dy21             = _mm_sub_pd(iy2,jy1);
 231             dz21             = _mm_sub_pd(iz2,jz1);
 232             dx22             = _mm_sub_pd(ix2,jx2);
 233             dy22             = _mm_sub_pd(iy2,jy2);
 234             dz22             = _mm_sub_pd(iz2,jz2);
 235             dx23             = _mm_sub_pd(ix2,jx3);
 236             dy23             = _mm_sub_pd(iy2,jy3);
 237             dz23             = _mm_sub_pd(iz2,jz3);
 238             dx31             = _mm_sub_pd(ix3,jx1);
 239             dy31             = _mm_sub_pd(iy3,jy1);
 240             dz31             = _mm_sub_pd(iz3,jz1);
 241             dx32             = _mm_sub_pd(ix3,jx2);
 242             dy32             = _mm_sub_pd(iy3,jy2);
 243             dz32             = _mm_sub_pd(iz3,jz2);
 244             dx33             = _mm_sub_pd(ix3,jx3);
 245             dy33             = _mm_sub_pd(iy3,jy3);
 246             dz33             = _mm_sub_pd(iz3,jz3);
 247
 248             /* Calculate squared distance and things based on it */
 249             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
 250             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
 251             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
 252             rsq13            = gmx_mm_calc_rsq_pd(dx13,dy13,dz13);
 253             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
 254             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
 255             rsq23            = gmx_mm_calc_rsq_pd(dx23,dy23,dz23);
 256             rsq31            = gmx_mm_calc_rsq_pd(dx31,dy31,dz31);
 257             rsq32            = gmx_mm_calc_rsq_pd(dx32,dy32,dz32);
 258             rsq33            = gmx_mm_calc_rsq_pd(dx33,dy33,dz33);
 259
 260             rinv11           = gmx_mm_invsqrt_pd(rsq11);
 261             rinv12           = gmx_mm_invsqrt_pd(rsq12);
 262             rinv13           = gmx_mm_invsqrt_pd(rsq13);
 263             rinv21           = gmx_mm_invsqrt_pd(rsq21);
 264             rinv22           = gmx_mm_invsqrt_pd(rsq22);
 265             rinv23           = gmx_mm_invsqrt_pd(rsq23);
 266             rinv31           = gmx_mm_invsqrt_pd(rsq31);
 267             rinv32           = gmx_mm_invsqrt_pd(rsq32);
 268             rinv33           = gmx_mm_invsqrt_pd(rsq33);
 269
 270             rinvsq00         = gmx_mm_inv_pd(rsq00);
 271             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
 272             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
 273             rinvsq13         = _mm_mul_pd(rinv13,rinv13);
 274             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
 275             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
 276             rinvsq23         = _mm_mul_pd(rinv23,rinv23);
 277             rinvsq31         = _mm_mul_pd(rinv31,rinv31);
 278             rinvsq32         = _mm_mul_pd(rinv32,rinv32);
 279             rinvsq33         = _mm_mul_pd(rinv33,rinv33);
 280
 281             fjx0             = _mm_setzero_pd();
 282             fjy0             = _mm_setzero_pd();
 283             fjz0             = _mm_setzero_pd();
 284             fjx1             = _mm_setzero_pd();
 285             fjy1             = _mm_setzero_pd();
 286             fjz1             = _mm_setzero_pd();
 287             fjx2             = _mm_setzero_pd();
 288             fjy2             = _mm_setzero_pd();
 289             fjz2             = _mm_setzero_pd();
 290             fjx3             = _mm_setzero_pd();
 291             fjy3             = _mm_setzero_pd();
 292             fjz3             = _mm_setzero_pd();
 293
 294             /**************************
 295              * CALCULATE INTERACTIONS *
 296              **************************/
 297
 298             /* LENNARD-JONES DISPERSION/REPULSION */
 299
 300             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
 301             vvdw6            = _mm_mul_pd(c6_00,rinvsix);
 302             vvdw12           = _mm_mul_pd(c12_00,_mm_mul_pd(rinvsix,rinvsix));
 303             vvdw             = _mm_msub_pd( vvdw12,one_twelfth, _mm_mul_pd(vvdw6,one_sixth) );
 304             fvdw             = _mm_mul_pd(_mm_sub_pd(vvdw12,vvdw6),rinvsq00);
 305
 306             /* Update potential sum for this i atom from the interaction with this j atom. */
 307             vvdwsum          = _mm_add_pd(vvdwsum,vvdw);
 308
 309             fscal            = fvdw;
 310
 311             /* Update vectorial force */
 312             fix0             = _mm_macc_pd(dx00,fscal,fix0);
 313             fiy0             = _mm_macc_pd(dy00,fscal,fiy0);
 314             fiz0             = _mm_macc_pd(dz00,fscal,fiz0);
 315
 316             fjx0             = _mm_macc_pd(dx00,fscal,fjx0);
 317             fjy0             = _mm_macc_pd(dy00,fscal,fjy0);
 318             fjz0             = _mm_macc_pd(dz00,fscal,fjz0);
 319
 320             /**************************
 321              * CALCULATE INTERACTIONS *
 322              **************************/
 323
 324             /* COULOMB ELECTROSTATICS */
 325             velec            = _mm_mul_pd(qq11,rinv11);
 326             felec            = _mm_mul_pd(velec,rinvsq11);
 327
 328             /* Update potential sum for this i atom from the interaction with this j atom. */
 329             velecsum         = _mm_add_pd(velecsum,velec);
 330
 331             fscal            = felec;
 332
 333             /* Update vectorial force */
 334             fix1             = _mm_macc_pd(dx11,fscal,fix1);
 335             fiy1             = _mm_macc_pd(dy11,fscal,fiy1);
 336             fiz1             = _mm_macc_pd(dz11,fscal,fiz1);
 337
 338             fjx1             = _mm_macc_pd(dx11,fscal,fjx1);
 339             fjy1             = _mm_macc_pd(dy11,fscal,fjy1);
 340             fjz1             = _mm_macc_pd(dz11,fscal,fjz1);
 341
 342             /**************************
 343              * CALCULATE INTERACTIONS *
 344              **************************/
 345
 346             /* COULOMB ELECTROSTATICS */
 347             velec            = _mm_mul_pd(qq12,rinv12);
 348             felec            = _mm_mul_pd(velec,rinvsq12);
 349
 350             /* Update potential sum for this i atom from the interaction with this j atom. */
 351             velecsum         = _mm_add_pd(velecsum,velec);
 352
 353             fscal            = felec;
 354
 355             /* Update vectorial force */
 356             fix1             = _mm_macc_pd(dx12,fscal,fix1);
 357             fiy1             = _mm_macc_pd(dy12,fscal,fiy1);
 358             fiz1             = _mm_macc_pd(dz12,fscal,fiz1);
 359
 360             fjx2             = _mm_macc_pd(dx12,fscal,fjx2);
 361             fjy2             = _mm_macc_pd(dy12,fscal,fjy2);
 362             fjz2             = _mm_macc_pd(dz12,fscal,fjz2);
 363
 364             /**************************
 365              * CALCULATE INTERACTIONS *
 366              **************************/
 367
 368             /* COULOMB ELECTROSTATICS */
 369             velec            = _mm_mul_pd(qq13,rinv13);
 370             felec            = _mm_mul_pd(velec,rinvsq13);
 371
 372             /* Update potential sum for this i atom from the interaction with this j atom. */
 373             velecsum         = _mm_add_pd(velecsum,velec);
 374
 375             fscal            = felec;
 376
 377             /* Update vectorial force */
 378             fix1             = _mm_macc_pd(dx13,fscal,fix1);
 379             fiy1             = _mm_macc_pd(dy13,fscal,fiy1);
 380             fiz1             = _mm_macc_pd(dz13,fscal,fiz1);
 381
 382             fjx3             = _mm_macc_pd(dx13,fscal,fjx3);
 383             fjy3             = _mm_macc_pd(dy13,fscal,fjy3);
 384             fjz3             = _mm_macc_pd(dz13,fscal,fjz3);
 385
 386             /**************************
 387              * CALCULATE INTERACTIONS *
 388              **************************/
 389
 390             /* COULOMB ELECTROSTATICS */
 391             velec            = _mm_mul_pd(qq21,rinv21);
 392             felec            = _mm_mul_pd(velec,rinvsq21);
 393
 394             /* Update potential sum for this i atom from the interaction with this j atom. */
 395             velecsum         = _mm_add_pd(velecsum,velec);
 396
 397             fscal            = felec;
 398
 399             /* Update vectorial force */
 400             fix2             = _mm_macc_pd(dx21,fscal,fix2);
 401             fiy2             = _mm_macc_pd(dy21,fscal,fiy2);
 402             fiz2             = _mm_macc_pd(dz21,fscal,fiz2);
 403
 404             fjx1             = _mm_macc_pd(dx21,fscal,fjx1);
 405             fjy1             = _mm_macc_pd(dy21,fscal,fjy1);
 406             fjz1             = _mm_macc_pd(dz21,fscal,fjz1);
 407
 408             /**************************
 409              * CALCULATE INTERACTIONS *
 410              **************************/
 411
 412             /* COULOMB ELECTROSTATICS */
 413             velec            = _mm_mul_pd(qq22,rinv22);
 414             felec            = _mm_mul_pd(velec,rinvsq22);
 415
 416             /* Update potential sum for this i atom from the interaction with this j atom. */
 417             velecsum         = _mm_add_pd(velecsum,velec);
 418
 419             fscal            = felec;
 420
 421             /* Update vectorial force */
 422             fix2             = _mm_macc_pd(dx22,fscal,fix2);
 423             fiy2             = _mm_macc_pd(dy22,fscal,fiy2);
 424             fiz2             = _mm_macc_pd(dz22,fscal,fiz2);
 425
 426             fjx2             = _mm_macc_pd(dx22,fscal,fjx2);
 427             fjy2             = _mm_macc_pd(dy22,fscal,fjy2);
 428             fjz2             = _mm_macc_pd(dz22,fscal,fjz2);
 429
 430             /**************************
 431              * CALCULATE INTERACTIONS *
 432              **************************/
 433
 434             /* COULOMB ELECTROSTATICS */
 435             velec            = _mm_mul_pd(qq23,rinv23);
 436             felec            = _mm_mul_pd(velec,rinvsq23);
 437
 438             /* Update potential sum for this i atom from the interaction with this j atom. */
 439             velecsum         = _mm_add_pd(velecsum,velec);
 440
 441             fscal            = felec;
 442
 443             /* Update vectorial force */
 444             fix2             = _mm_macc_pd(dx23,fscal,fix2);
 445             fiy2             = _mm_macc_pd(dy23,fscal,fiy2);
 446             fiz2             = _mm_macc_pd(dz23,fscal,fiz2);
 447
 448             fjx3             = _mm_macc_pd(dx23,fscal,fjx3);
 449             fjy3             = _mm_macc_pd(dy23,fscal,fjy3);
 450             fjz3             = _mm_macc_pd(dz23,fscal,fjz3);
 451
 452             /**************************
 453              * CALCULATE INTERACTIONS *
 454              **************************/
 455
 456             /* COULOMB ELECTROSTATICS */
 457             velec            = _mm_mul_pd(qq31,rinv31);
 458             felec            = _mm_mul_pd(velec,rinvsq31);
 459
 460             /* Update potential sum for this i atom from the interaction with this j atom. */
 461             velecsum         = _mm_add_pd(velecsum,velec);
 462
 463             fscal            = felec;
 464
 465             /* Update vectorial force */
 466             fix3             = _mm_macc_pd(dx31,fscal,fix3);
 467             fiy3             = _mm_macc_pd(dy31,fscal,fiy3);
 468             fiz3             = _mm_macc_pd(dz31,fscal,fiz3);
 469
 470             fjx1             = _mm_macc_pd(dx31,fscal,fjx1);
 471             fjy1             = _mm_macc_pd(dy31,fscal,fjy1);
 472             fjz1             = _mm_macc_pd(dz31,fscal,fjz1);
 473
 474             /**************************
 475              * CALCULATE INTERACTIONS *
 476              **************************/
 477
 478             /* COULOMB ELECTROSTATICS */
 479             velec            = _mm_mul_pd(qq32,rinv32);
 480             felec            = _mm_mul_pd(velec,rinvsq32);
 481
 482             /* Update potential sum for this i atom from the interaction with this j atom. */
 483             velecsum         = _mm_add_pd(velecsum,velec);
 484
 485             fscal            = felec;
 486
 487             /* Update vectorial force */
 488             fix3             = _mm_macc_pd(dx32,fscal,fix3);
 489             fiy3             = _mm_macc_pd(dy32,fscal,fiy3);
 490             fiz3             = _mm_macc_pd(dz32,fscal,fiz3);
 491
 492             fjx2             = _mm_macc_pd(dx32,fscal,fjx2);
 493             fjy2             = _mm_macc_pd(dy32,fscal,fjy2);
 494             fjz2             = _mm_macc_pd(dz32,fscal,fjz2);
 495
 496             /**************************
 497              * CALCULATE INTERACTIONS *
 498              **************************/
 499
 500             /* COULOMB ELECTROSTATICS */
 501             velec            = _mm_mul_pd(qq33,rinv33);
 502             felec            = _mm_mul_pd(velec,rinvsq33);
 503
 504             /* Update potential sum for this i atom from the interaction with this j atom. */
 505             velecsum         = _mm_add_pd(velecsum,velec);
 506
 507             fscal            = felec;
 508
 509             /* Update vectorial force */
 510             fix3             = _mm_macc_pd(dx33,fscal,fix3);
 511             fiy3             = _mm_macc_pd(dy33,fscal,fiy3);
 512             fiz3             = _mm_macc_pd(dz33,fscal,fiz3);
 513
 514             fjx3             = _mm_macc_pd(dx33,fscal,fjx3);
 515             fjy3             = _mm_macc_pd(dy33,fscal,fjy3);
 516             fjz3             = _mm_macc_pd(dz33,fscal,fjz3);
 517
 518             gmx_mm_decrement_4rvec_2ptr_swizzle_pd(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
 519
 520             /* Inner loop uses 317 flops */
 521         }
 522
 523         if(jidx<j_index_end)
 524         {
 525
 526             jnrA             = jjnr[jidx];
 527             j_coord_offsetA  = DIM*jnrA;
 528
 529             /* load j atom coordinates */
 530             gmx_mm_load_4rvec_1ptr_swizzle_pd(x+j_coord_offsetA,
 531                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
 532                                               &jy2,&jz2,&jx3,&jy3,&jz3);
 533
 534             /* Calculate displacement vector */
 535             dx00             = _mm_sub_pd(ix0,jx0);
 536             dy00             = _mm_sub_pd(iy0,jy0);
 537             dz00             = _mm_sub_pd(iz0,jz0);
 538             dx11             = _mm_sub_pd(ix1,jx1);
 539             dy11             = _mm_sub_pd(iy1,jy1);
 540             dz11             = _mm_sub_pd(iz1,jz1);
 541             dx12             = _mm_sub_pd(ix1,jx2);
 542             dy12             = _mm_sub_pd(iy1,jy2);
 543             dz12             = _mm_sub_pd(iz1,jz2);
 544             dx13             = _mm_sub_pd(ix1,jx3);
 545             dy13             = _mm_sub_pd(iy1,jy3);
 546             dz13             = _mm_sub_pd(iz1,jz3);
 547             dx21             = _mm_sub_pd(ix2,jx1);
 548             dy21             = _mm_sub_pd(iy2,jy1);
 549             dz21             = _mm_sub_pd(iz2,jz1);
 550             dx22             = _mm_sub_pd(ix2,jx2);
 551             dy22             = _mm_sub_pd(iy2,jy2);
 552             dz22             = _mm_sub_pd(iz2,jz2);
 553             dx23             = _mm_sub_pd(ix2,jx3);
 554             dy23             = _mm_sub_pd(iy2,jy3);
 555             dz23             = _mm_sub_pd(iz2,jz3);
 556             dx31             = _mm_sub_pd(ix3,jx1);
 557             dy31             = _mm_sub_pd(iy3,jy1);
 558             dz31             = _mm_sub_pd(iz3,jz1);
 559             dx32             = _mm_sub_pd(ix3,jx2);
 560             dy32             = _mm_sub_pd(iy3,jy2);
 561             dz32             = _mm_sub_pd(iz3,jz2);
 562             dx33             = _mm_sub_pd(ix3,jx3);
 563             dy33             = _mm_sub_pd(iy3,jy3);
 564             dz33             = _mm_sub_pd(iz3,jz3);
 565
 566             /* Calculate squared distance and things based on it */
 567             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
 568             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
 569             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
 570             rsq13            = gmx_mm_calc_rsq_pd(dx13,dy13,dz13);
 571             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
 572             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
 573             rsq23            = gmx_mm_calc_rsq_pd(dx23,dy23,dz23);
 574             rsq31            = gmx_mm_calc_rsq_pd(dx31,dy31,dz31);
 575             rsq32            = gmx_mm_calc_rsq_pd(dx32,dy32,dz32);
 576             rsq33            = gmx_mm_calc_rsq_pd(dx33,dy33,dz33);
 577
 578             rinv11           = gmx_mm_invsqrt_pd(rsq11);
 579             rinv12           = gmx_mm_invsqrt_pd(rsq12);
 580             rinv13           = gmx_mm_invsqrt_pd(rsq13);
 581             rinv21           = gmx_mm_invsqrt_pd(rsq21);
 582             rinv22           = gmx_mm_invsqrt_pd(rsq22);
 583             rinv23           = gmx_mm_invsqrt_pd(rsq23);
 584             rinv31           = gmx_mm_invsqrt_pd(rsq31);
 585             rinv32           = gmx_mm_invsqrt_pd(rsq32);
 586             rinv33           = gmx_mm_invsqrt_pd(rsq33);
 587
 588             rinvsq00         = gmx_mm_inv_pd(rsq00);
 589             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
 590             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
 591             rinvsq13         = _mm_mul_pd(rinv13,rinv13);
 592             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
 593             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
 594             rinvsq23         = _mm_mul_pd(rinv23,rinv23);
 595             rinvsq31         = _mm_mul_pd(rinv31,rinv31);
 596             rinvsq32         = _mm_mul_pd(rinv32,rinv32);
 597             rinvsq33         = _mm_mul_pd(rinv33,rinv33);
 598
 599             fjx0             = _mm_setzero_pd();
 600             fjy0             = _mm_setzero_pd();
 601             fjz0             = _mm_setzero_pd();
 602             fjx1             = _mm_setzero_pd();
 603             fjy1             = _mm_setzero_pd();
 604             fjz1             = _mm_setzero_pd();
 605             fjx2             = _mm_setzero_pd();
 606             fjy2             = _mm_setzero_pd();
 607             fjz2             = _mm_setzero_pd();
 608             fjx3             = _mm_setzero_pd();
 609             fjy3             = _mm_setzero_pd();
 610             fjz3             = _mm_setzero_pd();
 611
 612             /**************************
 613              * CALCULATE INTERACTIONS *
 614              **************************/
 615
 616             /* LENNARD-JONES DISPERSION/REPULSION */
 617
 618             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
 619             vvdw6            = _mm_mul_pd(c6_00,rinvsix);
 620             vvdw12           = _mm_mul_pd(c12_00,_mm_mul_pd(rinvsix,rinvsix));
 621             vvdw             = _mm_msub_pd( vvdw12,one_twelfth, _mm_mul_pd(vvdw6,one_sixth) );
 622             fvdw             = _mm_mul_pd(_mm_sub_pd(vvdw12,vvdw6),rinvsq00);
 623
 624             /* Update potential sum for this i atom from the interaction with this j atom. */
 625             vvdw             = _mm_unpacklo_pd(vvdw,_mm_setzero_pd());
 626             vvdwsum          = _mm_add_pd(vvdwsum,vvdw);
 627
 628             fscal            = fvdw;
 629
 630             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 631
 632             /* Update vectorial force */
 633             fix0             = _mm_macc_pd(dx00,fscal,fix0);
 634             fiy0             = _mm_macc_pd(dy00,fscal,fiy0);
 635             fiz0             = _mm_macc_pd(dz00,fscal,fiz0);
 636
 637             fjx0             = _mm_macc_pd(dx00,fscal,fjx0);
 638             fjy0             = _mm_macc_pd(dy00,fscal,fjy0);
 639             fjz0             = _mm_macc_pd(dz00,fscal,fjz0);
 640
 641             /**************************
 642              * CALCULATE INTERACTIONS *
 643              **************************/
 644
 645             /* COULOMB ELECTROSTATICS */
 646             velec            = _mm_mul_pd(qq11,rinv11);
 647             felec            = _mm_mul_pd(velec,rinvsq11);
 648
 649             /* Update potential sum for this i atom from the interaction with this j atom. */
 650             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 651             velecsum         = _mm_add_pd(velecsum,velec);
 652
 653             fscal            = felec;
 654
 655             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 656
 657             /* Update vectorial force */
 658             fix1             = _mm_macc_pd(dx11,fscal,fix1);
 659             fiy1             = _mm_macc_pd(dy11,fscal,fiy1);
 660             fiz1             = _mm_macc_pd(dz11,fscal,fiz1);
 661
 662             fjx1             = _mm_macc_pd(dx11,fscal,fjx1);
 663             fjy1             = _mm_macc_pd(dy11,fscal,fjy1);
 664             fjz1             = _mm_macc_pd(dz11,fscal,fjz1);
 665
 666             /**************************
 667              * CALCULATE INTERACTIONS *
 668              **************************/
 669
 670             /* COULOMB ELECTROSTATICS */
 671             velec            = _mm_mul_pd(qq12,rinv12);
 672             felec            = _mm_mul_pd(velec,rinvsq12);
 673
 674             /* Update potential sum for this i atom from the interaction with this j atom. */
 675             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 676             velecsum         = _mm_add_pd(velecsum,velec);
 677
 678             fscal            = felec;
 679
 680             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 681
 682             /* Update vectorial force */
 683             fix1             = _mm_macc_pd(dx12,fscal,fix1);
 684             fiy1             = _mm_macc_pd(dy12,fscal,fiy1);
 685             fiz1             = _mm_macc_pd(dz12,fscal,fiz1);
 686
 687             fjx2             = _mm_macc_pd(dx12,fscal,fjx2);
 688             fjy2             = _mm_macc_pd(dy12,fscal,fjy2);
 689             fjz2             = _mm_macc_pd(dz12,fscal,fjz2);
 690
 691             /**************************
 692              * CALCULATE INTERACTIONS *
 693              **************************/
 694
 695             /* COULOMB ELECTROSTATICS */
 696             velec            = _mm_mul_pd(qq13,rinv13);
 697             felec            = _mm_mul_pd(velec,rinvsq13);
 698
 699             /* Update potential sum for this i atom from the interaction with this j atom. */
 700             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 701             velecsum         = _mm_add_pd(velecsum,velec);
 702
 703             fscal            = felec;
 704
 705             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 706
 707             /* Update vectorial force */
 708             fix1             = _mm_macc_pd(dx13,fscal,fix1);
 709             fiy1             = _mm_macc_pd(dy13,fscal,fiy1);
 710             fiz1             = _mm_macc_pd(dz13,fscal,fiz1);
 711
 712             fjx3             = _mm_macc_pd(dx13,fscal,fjx3);
 713             fjy3             = _mm_macc_pd(dy13,fscal,fjy3);
 714             fjz3             = _mm_macc_pd(dz13,fscal,fjz3);
 715
 716             /**************************
 717              * CALCULATE INTERACTIONS *
 718              **************************/
 719
 720             /* COULOMB ELECTROSTATICS */
 721             velec            = _mm_mul_pd(qq21,rinv21);
 722             felec            = _mm_mul_pd(velec,rinvsq21);
 723
 724             /* Update potential sum for this i atom from the interaction with this j atom. */
 725             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 726             velecsum         = _mm_add_pd(velecsum,velec);
 727
 728             fscal            = felec;
 729
 730             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 731
 732             /* Update vectorial force */
 733             fix2             = _mm_macc_pd(dx21,fscal,fix2);
 734             fiy2             = _mm_macc_pd(dy21,fscal,fiy2);
 735             fiz2             = _mm_macc_pd(dz21,fscal,fiz2);
 736
 737             fjx1             = _mm_macc_pd(dx21,fscal,fjx1);
 738             fjy1             = _mm_macc_pd(dy21,fscal,fjy1);
 739             fjz1             = _mm_macc_pd(dz21,fscal,fjz1);
 740
 741             /**************************
 742              * CALCULATE INTERACTIONS *
 743              **************************/
 744
 745             /* COULOMB ELECTROSTATICS */
 746             velec            = _mm_mul_pd(qq22,rinv22);
 747             felec            = _mm_mul_pd(velec,rinvsq22);
 748
 749             /* Update potential sum for this i atom from the interaction with this j atom. */
 750             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 751             velecsum         = _mm_add_pd(velecsum,velec);
 752
 753             fscal            = felec;
 754
 755             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 756
 757             /* Update vectorial force */
 758             fix2             = _mm_macc_pd(dx22,fscal,fix2);
 759             fiy2             = _mm_macc_pd(dy22,fscal,fiy2);
 760             fiz2             = _mm_macc_pd(dz22,fscal,fiz2);
 761
 762             fjx2             = _mm_macc_pd(dx22,fscal,fjx2);
 763             fjy2             = _mm_macc_pd(dy22,fscal,fjy2);
 764             fjz2             = _mm_macc_pd(dz22,fscal,fjz2);
 765
 766             /**************************
 767              * CALCULATE INTERACTIONS *
 768              **************************/
 769
 770             /* COULOMB ELECTROSTATICS */
 771             velec            = _mm_mul_pd(qq23,rinv23);
 772             felec            = _mm_mul_pd(velec,rinvsq23);
 773
 774             /* Update potential sum for this i atom from the interaction with this j atom. */
 775             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 776             velecsum         = _mm_add_pd(velecsum,velec);
 777
 778             fscal            = felec;
 779
 780             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 781
 782             /* Update vectorial force */
 783             fix2             = _mm_macc_pd(dx23,fscal,fix2);
 784             fiy2             = _mm_macc_pd(dy23,fscal,fiy2);
 785             fiz2             = _mm_macc_pd(dz23,fscal,fiz2);
 786
 787             fjx3             = _mm_macc_pd(dx23,fscal,fjx3);
 788             fjy3             = _mm_macc_pd(dy23,fscal,fjy3);
 789             fjz3             = _mm_macc_pd(dz23,fscal,fjz3);
 790
 791             /**************************
 792              * CALCULATE INTERACTIONS *
 793              **************************/
 794
 795             /* COULOMB ELECTROSTATICS */
 796             velec            = _mm_mul_pd(qq31,rinv31);
 797             felec            = _mm_mul_pd(velec,rinvsq31);
 798
 799             /* Update potential sum for this i atom from the interaction with this j atom. */
 800             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 801             velecsum         = _mm_add_pd(velecsum,velec);
 802
 803             fscal            = felec;
 804
 805             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 806
 807             /* Update vectorial force */
 808             fix3             = _mm_macc_pd(dx31,fscal,fix3);
 809             fiy3             = _mm_macc_pd(dy31,fscal,fiy3);
 810             fiz3             = _mm_macc_pd(dz31,fscal,fiz3);
 811
 812             fjx1             = _mm_macc_pd(dx31,fscal,fjx1);
 813             fjy1             = _mm_macc_pd(dy31,fscal,fjy1);
 814             fjz1             = _mm_macc_pd(dz31,fscal,fjz1);
 815
 816             /**************************
 817              * CALCULATE INTERACTIONS *
 818              **************************/
 819
 820             /* COULOMB ELECTROSTATICS */
 821             velec            = _mm_mul_pd(qq32,rinv32);
 822             felec            = _mm_mul_pd(velec,rinvsq32);
 823
 824             /* Update potential sum for this i atom from the interaction with this j atom. */
 825             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 826             velecsum         = _mm_add_pd(velecsum,velec);
 827
 828             fscal            = felec;
 829
 830             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 831
 832             /* Update vectorial force */
 833             fix3             = _mm_macc_pd(dx32,fscal,fix3);
 834             fiy3             = _mm_macc_pd(dy32,fscal,fiy3);
 835             fiz3             = _mm_macc_pd(dz32,fscal,fiz3);
 836
 837             fjx2             = _mm_macc_pd(dx32,fscal,fjx2);
 838             fjy2             = _mm_macc_pd(dy32,fscal,fjy2);
 839             fjz2             = _mm_macc_pd(dz32,fscal,fjz2);
 840
 841             /**************************
 842              * CALCULATE INTERACTIONS *
 843              **************************/
 844
 845             /* COULOMB ELECTROSTATICS */
 846             velec            = _mm_mul_pd(qq33,rinv33);
 847             felec            = _mm_mul_pd(velec,rinvsq33);
 848
 849             /* Update potential sum for this i atom from the interaction with this j atom. */
 850             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 851             velecsum         = _mm_add_pd(velecsum,velec);
 852
 853             fscal            = felec;
 854
 855             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 856
 857             /* Update vectorial force */
 858             fix3             = _mm_macc_pd(dx33,fscal,fix3);
 859             fiy3             = _mm_macc_pd(dy33,fscal,fiy3);
 860             fiz3             = _mm_macc_pd(dz33,fscal,fiz3);
 861
 862             fjx3             = _mm_macc_pd(dx33,fscal,fjx3);
 863             fjy3             = _mm_macc_pd(dy33,fscal,fjy3);
 864             fjz3             = _mm_macc_pd(dz33,fscal,fjz3);
 865
 866             gmx_mm_decrement_4rvec_1ptr_swizzle_pd(f+j_coord_offsetA,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
 867
 868             /* Inner loop uses 317 flops */
 869         }
 870
 871         /* End of innermost loop */
 872
 873         gmx_mm_update_iforce_4atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
 874                                               f+i_coord_offset,fshift+i_shift_offset);
 875
 876         ggid                        = gid[iidx];
 877         /* Update potential energies */
 878         gmx_mm_update_1pot_pd(velecsum,kernel_data->energygrp_elec+ggid);
 879         gmx_mm_update_1pot_pd(vvdwsum,kernel_data->energygrp_vdw+ggid);
 880
 881         /* Increment number of inner iterations */
 882         inneriter                  += j_index_end - j_index_start;
 883
 884         /* Outer loop uses 26 flops */
 885     }
 886
 887     /* Increment number of outer iterations */
 888     outeriter        += nri;
 889
 890     /* Update outer/inner flops */
 891
 892     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_VF,outeriter*26 + inneriter*317);
 893 }
 894 /*
 895  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwLJ_GeomW4W4_F_avx_128_fma_double
 896  * Electrostatics interaction: Coulomb
 897  * VdW interaction:            LennardJones
 898  * Geometry:                   Water4-Water4
 899  * Calculate force/pot:        Force
 900  */
 901 void
 902 nb_kernel_ElecCoul_VdwLJ_GeomW4W4_F_avx_128_fma_double
 903                     (t_nblist                    * gmx_restrict       nlist,
 904                      rvec                        * gmx_restrict          xx,
 905                      rvec                        * gmx_restrict          ff,
 906                      t_forcerec                  * gmx_restrict          fr,
 907                      t_mdatoms                   * gmx_restrict     mdatoms,
 908                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
 909                      t_nrnb                      * gmx_restrict        nrnb)
 910 {
 911     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 912      * just 0 for non-waters.
 913      * Suffixes A,B refer to j loop unrolling done with SSE double precision, e.g. for the two different
 914      * jnr indices corresponding to data put in the four positions in the SIMD register.
 915      */
 916     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 917     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 918     int              jnrA,jnrB;
 919     int              j_coord_offsetA,j_coord_offsetB;
 920     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 921     real             rcutoff_scalar;
 922     real             *shiftvec,*fshift,*x,*f;
 923     __m128d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 924     int              vdwioffset0;
 925     __m128d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
 926     int              vdwioffset1;
 927     __m128d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 928     int              vdwioffset2;
 929     __m128d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 930     int              vdwioffset3;
 931     __m128d          ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
 932     int              vdwjidx0A,vdwjidx0B;
 933     __m128d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
 934     int              vdwjidx1A,vdwjidx1B;
 935     __m128d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
 936     int              vdwjidx2A,vdwjidx2B;
 937     __m128d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
 938     int              vdwjidx3A,vdwjidx3B;
 939     __m128d          jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
 940     __m128d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
 941     __m128d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
 942     __m128d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
 943     __m128d          dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
 944     __m128d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 945     __m128d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 946     __m128d          dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
 947     __m128d          dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
 948     __m128d          dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
 949     __m128d          dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
 950     __m128d          velec,felec,velecsum,facel,crf,krf,krf2;
 951     real             *charge;
 952     int              nvdwtype;
 953     __m128d          rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
 954     int              *vdwtype;
 955     real             *vdwparam;
 956     __m128d          one_sixth   = _mm_set1_pd(1.0/6.0);
 957     __m128d          one_twelfth = _mm_set1_pd(1.0/12.0);
 958     __m128d          dummy_mask,cutoff_mask;
 959     __m128d          signbit   = gmx_mm_castsi128_pd( _mm_set_epi32(0x80000000,0x00000000,0x80000000,0x00000000) );
 960     __m128d          one     = _mm_set1_pd(1.0);
 961     __m128d          two     = _mm_set1_pd(2.0);
 962     x                = xx[0];
 963     f                = ff[0];
 964
 965     nri              = nlist->nri;
 966     iinr             = nlist->iinr;
 967     jindex           = nlist->jindex;
 968     jjnr             = nlist->jjnr;
 969     shiftidx         = nlist->shift;
 970     gid              = nlist->gid;
 971     shiftvec         = fr->shift_vec[0];
 972     fshift           = fr->fshift[0];
 973     facel            = _mm_set1_pd(fr->epsfac);
 974     charge           = mdatoms->chargeA;
 975     nvdwtype         = fr->ntype;
 976     vdwparam         = fr->nbfp;
 977     vdwtype          = mdatoms->typeA;
 978
 979     /* Setup water-specific parameters */
 980     inr              = nlist->iinr[0];
 981     iq1              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+1]));
 982     iq2              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+2]));
 983     iq3              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+3]));
 984     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 985
 986     jq1              = _mm_set1_pd(charge[inr+1]);
 987     jq2              = _mm_set1_pd(charge[inr+2]);
 988     jq3              = _mm_set1_pd(charge[inr+3]);
 989     vdwjidx0A        = 2*vdwtype[inr+0];
 990     c6_00            = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A]);
 991     c12_00           = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A+1]);
 992     qq11             = _mm_mul_pd(iq1,jq1);
 993     qq12             = _mm_mul_pd(iq1,jq2);
 994     qq13             = _mm_mul_pd(iq1,jq3);
 995     qq21             = _mm_mul_pd(iq2,jq1);
 996     qq22             = _mm_mul_pd(iq2,jq2);
 997     qq23             = _mm_mul_pd(iq2,jq3);
 998     qq31             = _mm_mul_pd(iq3,jq1);
 999     qq32             = _mm_mul_pd(iq3,jq2);
1000     qq33             = _mm_mul_pd(iq3,jq3);
1001
1002     /* Avoid stupid compiler warnings */
1003     jnrA = jnrB = 0;
1004     j_coord_offsetA = 0;
1005     j_coord_offsetB = 0;
1006
1007     outeriter        = 0;
1008     inneriter        = 0;
1009
1010     /* Start outer loop over neighborlists */
1011     for(iidx=0; iidx<nri; iidx++)
1012     {
1013         /* Load shift vector for this list */
1014         i_shift_offset   = DIM*shiftidx[iidx];
1015
1016         /* Load limits for loop over neighbors */
1017         j_index_start    = jindex[iidx];
1018         j_index_end      = jindex[iidx+1];
1019
1020         /* Get outer coordinate index */
1021         inr              = iinr[iidx];
1022         i_coord_offset   = DIM*inr;
1023
1024         /* Load i particle coords and add shift vector */
1025         gmx_mm_load_shift_and_4rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
1026                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
1027
1028         fix0             = _mm_setzero_pd();
1029         fiy0             = _mm_setzero_pd();
1030         fiz0             = _mm_setzero_pd();
1031         fix1             = _mm_setzero_pd();
1032         fiy1             = _mm_setzero_pd();
1033         fiz1             = _mm_setzero_pd();
1034         fix2             = _mm_setzero_pd();
1035         fiy2             = _mm_setzero_pd();
1036         fiz2             = _mm_setzero_pd();
1037         fix3             = _mm_setzero_pd();
1038         fiy3             = _mm_setzero_pd();
1039         fiz3             = _mm_setzero_pd();
1040
1041         /* Start inner kernel loop */
1042         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
1043         {
1044
1045             /* Get j neighbor index, and coordinate index */
1046             jnrA             = jjnr[jidx];
1047             jnrB             = jjnr[jidx+1];
1048             j_coord_offsetA  = DIM*jnrA;
1049             j_coord_offsetB  = DIM*jnrB;
1050
1051             /* load j atom coordinates */
1052             gmx_mm_load_4rvec_2ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
1053                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1054                                               &jy2,&jz2,&jx3,&jy3,&jz3);
1055
1056             /* Calculate displacement vector */
1057             dx00             = _mm_sub_pd(ix0,jx0);
1058             dy00             = _mm_sub_pd(iy0,jy0);
1059             dz00             = _mm_sub_pd(iz0,jz0);
1060             dx11             = _mm_sub_pd(ix1,jx1);
1061             dy11             = _mm_sub_pd(iy1,jy1);
1062             dz11             = _mm_sub_pd(iz1,jz1);
1063             dx12             = _mm_sub_pd(ix1,jx2);
1064             dy12             = _mm_sub_pd(iy1,jy2);
1065             dz12             = _mm_sub_pd(iz1,jz2);
1066             dx13             = _mm_sub_pd(ix1,jx3);
1067             dy13             = _mm_sub_pd(iy1,jy3);
1068             dz13             = _mm_sub_pd(iz1,jz3);
1069             dx21             = _mm_sub_pd(ix2,jx1);
1070             dy21             = _mm_sub_pd(iy2,jy1);
1071             dz21             = _mm_sub_pd(iz2,jz1);
1072             dx22             = _mm_sub_pd(ix2,jx2);
1073             dy22             = _mm_sub_pd(iy2,jy2);
1074             dz22             = _mm_sub_pd(iz2,jz2);
1075             dx23             = _mm_sub_pd(ix2,jx3);
1076             dy23             = _mm_sub_pd(iy2,jy3);
1077             dz23             = _mm_sub_pd(iz2,jz3);
1078             dx31             = _mm_sub_pd(ix3,jx1);
1079             dy31             = _mm_sub_pd(iy3,jy1);
1080             dz31             = _mm_sub_pd(iz3,jz1);
1081             dx32             = _mm_sub_pd(ix3,jx2);
1082             dy32             = _mm_sub_pd(iy3,jy2);
1083             dz32             = _mm_sub_pd(iz3,jz2);
1084             dx33             = _mm_sub_pd(ix3,jx3);
1085             dy33             = _mm_sub_pd(iy3,jy3);
1086             dz33             = _mm_sub_pd(iz3,jz3);
1087
1088             /* Calculate squared distance and things based on it */
1089             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
1090             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
1091             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
1092             rsq13            = gmx_mm_calc_rsq_pd(dx13,dy13,dz13);
1093             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
1094             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
1095             rsq23            = gmx_mm_calc_rsq_pd(dx23,dy23,dz23);
1096             rsq31            = gmx_mm_calc_rsq_pd(dx31,dy31,dz31);
1097             rsq32            = gmx_mm_calc_rsq_pd(dx32,dy32,dz32);
1098             rsq33            = gmx_mm_calc_rsq_pd(dx33,dy33,dz33);
1099
1100             rinv11           = gmx_mm_invsqrt_pd(rsq11);
1101             rinv12           = gmx_mm_invsqrt_pd(rsq12);
1102             rinv13           = gmx_mm_invsqrt_pd(rsq13);
1103             rinv21           = gmx_mm_invsqrt_pd(rsq21);
1104             rinv22           = gmx_mm_invsqrt_pd(rsq22);
1105             rinv23           = gmx_mm_invsqrt_pd(rsq23);
1106             rinv31           = gmx_mm_invsqrt_pd(rsq31);
1107             rinv32           = gmx_mm_invsqrt_pd(rsq32);
1108             rinv33           = gmx_mm_invsqrt_pd(rsq33);
1109
1110             rinvsq00         = gmx_mm_inv_pd(rsq00);
1111             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
1112             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
1113             rinvsq13         = _mm_mul_pd(rinv13,rinv13);
1114             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
1115             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
1116             rinvsq23         = _mm_mul_pd(rinv23,rinv23);
1117             rinvsq31         = _mm_mul_pd(rinv31,rinv31);
1118             rinvsq32         = _mm_mul_pd(rinv32,rinv32);
1119             rinvsq33         = _mm_mul_pd(rinv33,rinv33);
1120
1121             fjx0             = _mm_setzero_pd();
1122             fjy0             = _mm_setzero_pd();
1123             fjz0             = _mm_setzero_pd();
1124             fjx1             = _mm_setzero_pd();
1125             fjy1             = _mm_setzero_pd();
1126             fjz1             = _mm_setzero_pd();
1127             fjx2             = _mm_setzero_pd();
1128             fjy2             = _mm_setzero_pd();
1129             fjz2             = _mm_setzero_pd();
1130             fjx3             = _mm_setzero_pd();
1131             fjy3             = _mm_setzero_pd();
1132             fjz3             = _mm_setzero_pd();
1133
1134             /**************************
1135              * CALCULATE INTERACTIONS *
1136              **************************/
1137
1138             /* LENNARD-JONES DISPERSION/REPULSION */
1139
1140             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
1141             fvdw             = _mm_mul_pd(_mm_msub_pd(c12_00,rinvsix,c6_00),_mm_mul_pd(rinvsix,rinvsq00));
1142
1143             fscal            = fvdw;
1144
1145             /* Update vectorial force */
1146             fix0             = _mm_macc_pd(dx00,fscal,fix0);
1147             fiy0             = _mm_macc_pd(dy00,fscal,fiy0);
1148             fiz0             = _mm_macc_pd(dz00,fscal,fiz0);
1149
1150             fjx0             = _mm_macc_pd(dx00,fscal,fjx0);
1151             fjy0             = _mm_macc_pd(dy00,fscal,fjy0);
1152             fjz0             = _mm_macc_pd(dz00,fscal,fjz0);
1153
1154             /**************************
1155              * CALCULATE INTERACTIONS *
1156              **************************/
1157
1158             /* COULOMB ELECTROSTATICS */
1159             velec            = _mm_mul_pd(qq11,rinv11);
1160             felec            = _mm_mul_pd(velec,rinvsq11);
1161
1162             fscal            = felec;
1163
1164             /* Update vectorial force */
1165             fix1             = _mm_macc_pd(dx11,fscal,fix1);
1166             fiy1             = _mm_macc_pd(dy11,fscal,fiy1);
1167             fiz1             = _mm_macc_pd(dz11,fscal,fiz1);
1168
1169             fjx1             = _mm_macc_pd(dx11,fscal,fjx1);
1170             fjy1             = _mm_macc_pd(dy11,fscal,fjy1);
1171             fjz1             = _mm_macc_pd(dz11,fscal,fjz1);
1172
1173             /**************************
1174              * CALCULATE INTERACTIONS *
1175              **************************/
1176
1177             /* COULOMB ELECTROSTATICS */
1178             velec            = _mm_mul_pd(qq12,rinv12);
1179             felec            = _mm_mul_pd(velec,rinvsq12);
1180
1181             fscal            = felec;
1182
1183             /* Update vectorial force */
1184             fix1             = _mm_macc_pd(dx12,fscal,fix1);
1185             fiy1             = _mm_macc_pd(dy12,fscal,fiy1);
1186             fiz1             = _mm_macc_pd(dz12,fscal,fiz1);
1187
1188             fjx2             = _mm_macc_pd(dx12,fscal,fjx2);
1189             fjy2             = _mm_macc_pd(dy12,fscal,fjy2);
1190             fjz2             = _mm_macc_pd(dz12,fscal,fjz2);
1191
1192             /**************************
1193              * CALCULATE INTERACTIONS *
1194              **************************/
1195
1196             /* COULOMB ELECTROSTATICS */
1197             velec            = _mm_mul_pd(qq13,rinv13);
1198             felec            = _mm_mul_pd(velec,rinvsq13);
1199
1200             fscal            = felec;
1201
1202             /* Update vectorial force */
1203             fix1             = _mm_macc_pd(dx13,fscal,fix1);
1204             fiy1             = _mm_macc_pd(dy13,fscal,fiy1);
1205             fiz1             = _mm_macc_pd(dz13,fscal,fiz1);
1206
1207             fjx3             = _mm_macc_pd(dx13,fscal,fjx3);
1208             fjy3             = _mm_macc_pd(dy13,fscal,fjy3);
1209             fjz3             = _mm_macc_pd(dz13,fscal,fjz3);
1210
1211             /**************************
1212              * CALCULATE INTERACTIONS *
1213              **************************/
1214
1215             /* COULOMB ELECTROSTATICS */
1216             velec            = _mm_mul_pd(qq21,rinv21);
1217             felec            = _mm_mul_pd(velec,rinvsq21);
1218
1219             fscal            = felec;
1220
1221             /* Update vectorial force */
1222             fix2             = _mm_macc_pd(dx21,fscal,fix2);
1223             fiy2             = _mm_macc_pd(dy21,fscal,fiy2);
1224             fiz2             = _mm_macc_pd(dz21,fscal,fiz2);
1225
1226             fjx1             = _mm_macc_pd(dx21,fscal,fjx1);
1227             fjy1             = _mm_macc_pd(dy21,fscal,fjy1);
1228             fjz1             = _mm_macc_pd(dz21,fscal,fjz1);
1229
1230             /**************************
1231              * CALCULATE INTERACTIONS *
1232              **************************/
1233
1234             /* COULOMB ELECTROSTATICS */
1235             velec            = _mm_mul_pd(qq22,rinv22);
1236             felec            = _mm_mul_pd(velec,rinvsq22);
1237
1238             fscal            = felec;
1239
1240             /* Update vectorial force */
1241             fix2             = _mm_macc_pd(dx22,fscal,fix2);
1242             fiy2             = _mm_macc_pd(dy22,fscal,fiy2);
1243             fiz2             = _mm_macc_pd(dz22,fscal,fiz2);
1244
1245             fjx2             = _mm_macc_pd(dx22,fscal,fjx2);
1246             fjy2             = _mm_macc_pd(dy22,fscal,fjy2);
1247             fjz2             = _mm_macc_pd(dz22,fscal,fjz2);
1248
1249             /**************************
1250              * CALCULATE INTERACTIONS *
1251              **************************/
1252
1253             /* COULOMB ELECTROSTATICS */
1254             velec            = _mm_mul_pd(qq23,rinv23);
1255             felec            = _mm_mul_pd(velec,rinvsq23);
1256
1257             fscal            = felec;
1258
1259             /* Update vectorial force */
1260             fix2             = _mm_macc_pd(dx23,fscal,fix2);
1261             fiy2             = _mm_macc_pd(dy23,fscal,fiy2);
1262             fiz2             = _mm_macc_pd(dz23,fscal,fiz2);
1263
1264             fjx3             = _mm_macc_pd(dx23,fscal,fjx3);
1265             fjy3             = _mm_macc_pd(dy23,fscal,fjy3);
1266             fjz3             = _mm_macc_pd(dz23,fscal,fjz3);
1267
1268             /**************************
1269              * CALCULATE INTERACTIONS *
1270              **************************/
1271
1272             /* COULOMB ELECTROSTATICS */
1273             velec            = _mm_mul_pd(qq31,rinv31);
1274             felec            = _mm_mul_pd(velec,rinvsq31);
1275
1276             fscal            = felec;
1277
1278             /* Update vectorial force */
1279             fix3             = _mm_macc_pd(dx31,fscal,fix3);
1280             fiy3             = _mm_macc_pd(dy31,fscal,fiy3);
1281             fiz3             = _mm_macc_pd(dz31,fscal,fiz3);
1282
1283             fjx1             = _mm_macc_pd(dx31,fscal,fjx1);
1284             fjy1             = _mm_macc_pd(dy31,fscal,fjy1);
1285             fjz1             = _mm_macc_pd(dz31,fscal,fjz1);
1286
1287             /**************************
1288              * CALCULATE INTERACTIONS *
1289              **************************/
1290
1291             /* COULOMB ELECTROSTATICS */
1292             velec            = _mm_mul_pd(qq32,rinv32);
1293             felec            = _mm_mul_pd(velec,rinvsq32);
1294
1295             fscal            = felec;
1296
1297             /* Update vectorial force */
1298             fix3             = _mm_macc_pd(dx32,fscal,fix3);
1299             fiy3             = _mm_macc_pd(dy32,fscal,fiy3);
1300             fiz3             = _mm_macc_pd(dz32,fscal,fiz3);
1301
1302             fjx2             = _mm_macc_pd(dx32,fscal,fjx2);
1303             fjy2             = _mm_macc_pd(dy32,fscal,fjy2);
1304             fjz2             = _mm_macc_pd(dz32,fscal,fjz2);
1305
1306             /**************************
1307              * CALCULATE INTERACTIONS *
1308              **************************/
1309
1310             /* COULOMB ELECTROSTATICS */
1311             velec            = _mm_mul_pd(qq33,rinv33);
1312             felec            = _mm_mul_pd(velec,rinvsq33);
1313
1314             fscal            = felec;
1315
1316             /* Update vectorial force */
1317             fix3             = _mm_macc_pd(dx33,fscal,fix3);
1318             fiy3             = _mm_macc_pd(dy33,fscal,fiy3);
1319             fiz3             = _mm_macc_pd(dz33,fscal,fiz3);
1320
1321             fjx3             = _mm_macc_pd(dx33,fscal,fjx3);
1322             fjy3             = _mm_macc_pd(dy33,fscal,fjy3);
1323             fjz3             = _mm_macc_pd(dz33,fscal,fjz3);
1324
1325             gmx_mm_decrement_4rvec_2ptr_swizzle_pd(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1326
1327             /* Inner loop uses 303 flops */
1328         }
1329
1330         if(jidx<j_index_end)
1331         {
1332
1333             jnrA             = jjnr[jidx];
1334             j_coord_offsetA  = DIM*jnrA;
1335
1336             /* load j atom coordinates */
1337             gmx_mm_load_4rvec_1ptr_swizzle_pd(x+j_coord_offsetA,
1338                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1339                                               &jy2,&jz2,&jx3,&jy3,&jz3);
1340
1341             /* Calculate displacement vector */
1342             dx00             = _mm_sub_pd(ix0,jx0);
1343             dy00             = _mm_sub_pd(iy0,jy0);
1344             dz00             = _mm_sub_pd(iz0,jz0);
1345             dx11             = _mm_sub_pd(ix1,jx1);
1346             dy11             = _mm_sub_pd(iy1,jy1);
1347             dz11             = _mm_sub_pd(iz1,jz1);
1348             dx12             = _mm_sub_pd(ix1,jx2);
1349             dy12             = _mm_sub_pd(iy1,jy2);
1350             dz12             = _mm_sub_pd(iz1,jz2);
1351             dx13             = _mm_sub_pd(ix1,jx3);
1352             dy13             = _mm_sub_pd(iy1,jy3);
1353             dz13             = _mm_sub_pd(iz1,jz3);
1354             dx21             = _mm_sub_pd(ix2,jx1);
1355             dy21             = _mm_sub_pd(iy2,jy1);
1356             dz21             = _mm_sub_pd(iz2,jz1);
1357             dx22             = _mm_sub_pd(ix2,jx2);
1358             dy22             = _mm_sub_pd(iy2,jy2);
1359             dz22             = _mm_sub_pd(iz2,jz2);
1360             dx23             = _mm_sub_pd(ix2,jx3);
1361             dy23             = _mm_sub_pd(iy2,jy3);
1362             dz23             = _mm_sub_pd(iz2,jz3);
1363             dx31             = _mm_sub_pd(ix3,jx1);
1364             dy31             = _mm_sub_pd(iy3,jy1);
1365             dz31             = _mm_sub_pd(iz3,jz1);
1366             dx32             = _mm_sub_pd(ix3,jx2);
1367             dy32             = _mm_sub_pd(iy3,jy2);
1368             dz32             = _mm_sub_pd(iz3,jz2);
1369             dx33             = _mm_sub_pd(ix3,jx3);
1370             dy33             = _mm_sub_pd(iy3,jy3);
1371             dz33             = _mm_sub_pd(iz3,jz3);
1372
1373             /* Calculate squared distance and things based on it */
1374             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
1375             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
1376             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
1377             rsq13            = gmx_mm_calc_rsq_pd(dx13,dy13,dz13);
1378             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
1379             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
1380             rsq23            = gmx_mm_calc_rsq_pd(dx23,dy23,dz23);
1381             rsq31            = gmx_mm_calc_rsq_pd(dx31,dy31,dz31);
1382             rsq32            = gmx_mm_calc_rsq_pd(dx32,dy32,dz32);
1383             rsq33            = gmx_mm_calc_rsq_pd(dx33,dy33,dz33);
1384
1385             rinv11           = gmx_mm_invsqrt_pd(rsq11);
1386             rinv12           = gmx_mm_invsqrt_pd(rsq12);
1387             rinv13           = gmx_mm_invsqrt_pd(rsq13);
1388             rinv21           = gmx_mm_invsqrt_pd(rsq21);
1389             rinv22           = gmx_mm_invsqrt_pd(rsq22);
1390             rinv23           = gmx_mm_invsqrt_pd(rsq23);
1391             rinv31           = gmx_mm_invsqrt_pd(rsq31);
1392             rinv32           = gmx_mm_invsqrt_pd(rsq32);
1393             rinv33           = gmx_mm_invsqrt_pd(rsq33);
1394
1395             rinvsq00         = gmx_mm_inv_pd(rsq00);
1396             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
1397             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
1398             rinvsq13         = _mm_mul_pd(rinv13,rinv13);
1399             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
1400             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
1401             rinvsq23         = _mm_mul_pd(rinv23,rinv23);
1402             rinvsq31         = _mm_mul_pd(rinv31,rinv31);
1403             rinvsq32         = _mm_mul_pd(rinv32,rinv32);
1404             rinvsq33         = _mm_mul_pd(rinv33,rinv33);
1405
1406             fjx0             = _mm_setzero_pd();
1407             fjy0             = _mm_setzero_pd();
1408             fjz0             = _mm_setzero_pd();
1409             fjx1             = _mm_setzero_pd();
1410             fjy1             = _mm_setzero_pd();
1411             fjz1             = _mm_setzero_pd();
1412             fjx2             = _mm_setzero_pd();
1413             fjy2             = _mm_setzero_pd();
1414             fjz2             = _mm_setzero_pd();
1415             fjx3             = _mm_setzero_pd();
1416             fjy3             = _mm_setzero_pd();
1417             fjz3             = _mm_setzero_pd();
1418
1419             /**************************
1420              * CALCULATE INTERACTIONS *
1421              **************************/
1422
1423             /* LENNARD-JONES DISPERSION/REPULSION */
1424
1425             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
1426             fvdw             = _mm_mul_pd(_mm_msub_pd(c12_00,rinvsix,c6_00),_mm_mul_pd(rinvsix,rinvsq00));
1427
1428             fscal            = fvdw;
1429
1430             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1431
1432             /* Update vectorial force */
1433             fix0             = _mm_macc_pd(dx00,fscal,fix0);
1434             fiy0             = _mm_macc_pd(dy00,fscal,fiy0);
1435             fiz0             = _mm_macc_pd(dz00,fscal,fiz0);
1436
1437             fjx0             = _mm_macc_pd(dx00,fscal,fjx0);
1438             fjy0             = _mm_macc_pd(dy00,fscal,fjy0);
1439             fjz0             = _mm_macc_pd(dz00,fscal,fjz0);
1440
1441             /**************************
1442              * CALCULATE INTERACTIONS *
1443              **************************/
1444
1445             /* COULOMB ELECTROSTATICS */
1446             velec            = _mm_mul_pd(qq11,rinv11);
1447             felec            = _mm_mul_pd(velec,rinvsq11);
1448
1449             fscal            = felec;
1450
1451             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1452
1453             /* Update vectorial force */
1454             fix1             = _mm_macc_pd(dx11,fscal,fix1);
1455             fiy1             = _mm_macc_pd(dy11,fscal,fiy1);
1456             fiz1             = _mm_macc_pd(dz11,fscal,fiz1);
1457
1458             fjx1             = _mm_macc_pd(dx11,fscal,fjx1);
1459             fjy1             = _mm_macc_pd(dy11,fscal,fjy1);
1460             fjz1             = _mm_macc_pd(dz11,fscal,fjz1);
1461
1462             /**************************
1463              * CALCULATE INTERACTIONS *
1464              **************************/
1465
1466             /* COULOMB ELECTROSTATICS */
1467             velec            = _mm_mul_pd(qq12,rinv12);
1468             felec            = _mm_mul_pd(velec,rinvsq12);
1469
1470             fscal            = felec;
1471
1472             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1473
1474             /* Update vectorial force */
1475             fix1             = _mm_macc_pd(dx12,fscal,fix1);
1476             fiy1             = _mm_macc_pd(dy12,fscal,fiy1);
1477             fiz1             = _mm_macc_pd(dz12,fscal,fiz1);
1478
1479             fjx2             = _mm_macc_pd(dx12,fscal,fjx2);
1480             fjy2             = _mm_macc_pd(dy12,fscal,fjy2);
1481             fjz2             = _mm_macc_pd(dz12,fscal,fjz2);
1482
1483             /**************************
1484              * CALCULATE INTERACTIONS *
1485              **************************/
1486
1487             /* COULOMB ELECTROSTATICS */
1488             velec            = _mm_mul_pd(qq13,rinv13);
1489             felec            = _mm_mul_pd(velec,rinvsq13);
1490
1491             fscal            = felec;
1492
1493             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1494
1495             /* Update vectorial force */
1496             fix1             = _mm_macc_pd(dx13,fscal,fix1);
1497             fiy1             = _mm_macc_pd(dy13,fscal,fiy1);
1498             fiz1             = _mm_macc_pd(dz13,fscal,fiz1);
1499
1500             fjx3             = _mm_macc_pd(dx13,fscal,fjx3);
1501             fjy3             = _mm_macc_pd(dy13,fscal,fjy3);
1502             fjz3             = _mm_macc_pd(dz13,fscal,fjz3);
1503
1504             /**************************
1505              * CALCULATE INTERACTIONS *
1506              **************************/
1507
1508             /* COULOMB ELECTROSTATICS */
1509             velec            = _mm_mul_pd(qq21,rinv21);
1510             felec            = _mm_mul_pd(velec,rinvsq21);
1511
1512             fscal            = felec;
1513
1514             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1515
1516             /* Update vectorial force */
1517             fix2             = _mm_macc_pd(dx21,fscal,fix2);
1518             fiy2             = _mm_macc_pd(dy21,fscal,fiy2);
1519             fiz2             = _mm_macc_pd(dz21,fscal,fiz2);
1520
1521             fjx1             = _mm_macc_pd(dx21,fscal,fjx1);
1522             fjy1             = _mm_macc_pd(dy21,fscal,fjy1);
1523             fjz1             = _mm_macc_pd(dz21,fscal,fjz1);
1524
1525             /**************************
1526              * CALCULATE INTERACTIONS *
1527              **************************/
1528
1529             /* COULOMB ELECTROSTATICS */
1530             velec            = _mm_mul_pd(qq22,rinv22);
1531             felec            = _mm_mul_pd(velec,rinvsq22);
1532
1533             fscal            = felec;
1534
1535             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1536
1537             /* Update vectorial force */
1538             fix2             = _mm_macc_pd(dx22,fscal,fix2);
1539             fiy2             = _mm_macc_pd(dy22,fscal,fiy2);
1540             fiz2             = _mm_macc_pd(dz22,fscal,fiz2);
1541
1542             fjx2             = _mm_macc_pd(dx22,fscal,fjx2);
1543             fjy2             = _mm_macc_pd(dy22,fscal,fjy2);
1544             fjz2             = _mm_macc_pd(dz22,fscal,fjz2);
1545
1546             /**************************
1547              * CALCULATE INTERACTIONS *
1548              **************************/
1549
1550             /* COULOMB ELECTROSTATICS */
1551             velec            = _mm_mul_pd(qq23,rinv23);
1552             felec            = _mm_mul_pd(velec,rinvsq23);
1553
1554             fscal            = felec;
1555
1556             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1557
1558             /* Update vectorial force */
1559             fix2             = _mm_macc_pd(dx23,fscal,fix2);
1560             fiy2             = _mm_macc_pd(dy23,fscal,fiy2);
1561             fiz2             = _mm_macc_pd(dz23,fscal,fiz2);
1562
1563             fjx3             = _mm_macc_pd(dx23,fscal,fjx3);
1564             fjy3             = _mm_macc_pd(dy23,fscal,fjy3);
1565             fjz3             = _mm_macc_pd(dz23,fscal,fjz3);
1566
1567             /**************************
1568              * CALCULATE INTERACTIONS *
1569              **************************/
1570
1571             /* COULOMB ELECTROSTATICS */
1572             velec            = _mm_mul_pd(qq31,rinv31);
1573             felec            = _mm_mul_pd(velec,rinvsq31);
1574
1575             fscal            = felec;
1576
1577             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1578
1579             /* Update vectorial force */
1580             fix3             = _mm_macc_pd(dx31,fscal,fix3);
1581             fiy3             = _mm_macc_pd(dy31,fscal,fiy3);
1582             fiz3             = _mm_macc_pd(dz31,fscal,fiz3);
1583
1584             fjx1             = _mm_macc_pd(dx31,fscal,fjx1);
1585             fjy1             = _mm_macc_pd(dy31,fscal,fjy1);
1586             fjz1             = _mm_macc_pd(dz31,fscal,fjz1);
1587
1588             /**************************
1589              * CALCULATE INTERACTIONS *
1590              **************************/
1591
1592             /* COULOMB ELECTROSTATICS */
1593             velec            = _mm_mul_pd(qq32,rinv32);
1594             felec            = _mm_mul_pd(velec,rinvsq32);
1595
1596             fscal            = felec;
1597
1598             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1599
1600             /* Update vectorial force */
1601             fix3             = _mm_macc_pd(dx32,fscal,fix3);
1602             fiy3             = _mm_macc_pd(dy32,fscal,fiy3);
1603             fiz3             = _mm_macc_pd(dz32,fscal,fiz3);
1604
1605             fjx2             = _mm_macc_pd(dx32,fscal,fjx2);
1606             fjy2             = _mm_macc_pd(dy32,fscal,fjy2);
1607             fjz2             = _mm_macc_pd(dz32,fscal,fjz2);
1608
1609             /**************************
1610              * CALCULATE INTERACTIONS *
1611              **************************/
1612
1613             /* COULOMB ELECTROSTATICS */
1614             velec            = _mm_mul_pd(qq33,rinv33);
1615             felec            = _mm_mul_pd(velec,rinvsq33);
1616
1617             fscal            = felec;
1618
1619             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1620
1621             /* Update vectorial force */
1622             fix3             = _mm_macc_pd(dx33,fscal,fix3);
1623             fiy3             = _mm_macc_pd(dy33,fscal,fiy3);
1624             fiz3             = _mm_macc_pd(dz33,fscal,fiz3);
1625
1626             fjx3             = _mm_macc_pd(dx33,fscal,fjx3);
1627             fjy3             = _mm_macc_pd(dy33,fscal,fjy3);
1628             fjz3             = _mm_macc_pd(dz33,fscal,fjz3);
1629
1630             gmx_mm_decrement_4rvec_1ptr_swizzle_pd(f+j_coord_offsetA,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1631
1632             /* Inner loop uses 303 flops */
1633         }
1634
1635         /* End of innermost loop */
1636
1637         gmx_mm_update_iforce_4atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1638                                               f+i_coord_offset,fshift+i_shift_offset);
1639
1640         /* Increment number of inner iterations */
1641         inneriter                  += j_index_end - j_index_start;
1642
1643         /* Outer loop uses 24 flops */
1644     }
1645
1646     /* Increment number of outer iterations */
1647     outeriter        += nri;
1648
1649     /* Update outer/inner flops */
1650
1651     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_F,outeriter*24 + inneriter*303);
1652 }