src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_double/nb_kernel_ElecRF_VdwLJ_GeomW3W3_sse4_1_double.c

   1 /*
   2  * This file is part of the GROMACS molecular simulation package.
   3  *
   4  * Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
   5  * Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
   6  * and including many others, as listed in the AUTHORS file in the
   7  * top-level source directory and at http://www.gromacs.org.
   8  *
   9  * GROMACS is free software; you can redistribute it and/or
  10  * modify it under the terms of the GNU Lesser General Public License
  11  * as published by the Free Software Foundation; either version 2.1
  12  * of the License, or (at your option) any later version.
  13  *
  14  * GROMACS is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17  * Lesser General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU Lesser General Public
  20  * License along with GROMACS; if not, see
  21  * http://www.gnu.org/licenses, or write to the Free Software Foundation,
  22  * Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA.
  23  *
  24  * If you want to redistribute modifications to GROMACS, please
  25  * consider that scientific software is very special. Version
  26  * control is crucial - bugs must be traceable. We will be happy to
  27  * consider code for inclusion in the official distribution, but
  28  * derived work must not be called official GROMACS. Details are found
  29  * in the README & COPYING files - if they are missing, get the
  30  * official version at http://www.gromacs.org.
  31  *
  32  * To help us fund GROMACS development, we humbly ask that you cite
  33  * the research papers on the package. Check out http://www.gromacs.org.
  34  */
  35 /*
  36  * Note: this file was generated by the GROMACS sse4_1_double kernel generator.
  37  */
  38 #include "config.h"
  39
  40 #include <math.h>
  41
  42 #include "../nb_kernel.h"
  43 #include "gromacs/legacyheaders/types/simple.h"
  44 #include "gromacs/math/vec.h"
  45 #include "gromacs/legacyheaders/nrnb.h"
  46
  47 #include "gromacs/simd/math_x86_sse4_1_double.h"
  48 #include "kernelutil_x86_sse4_1_double.h"
  49
  50 /*
  51  * Gromacs nonbonded kernel:   nb_kernel_ElecRF_VdwLJ_GeomW3W3_VF_sse4_1_double
  52  * Electrostatics interaction: ReactionField
  53  * VdW interaction:            LennardJones
  54  * Geometry:                   Water3-Water3
  55  * Calculate force/pot:        PotentialAndForce
  56  */
  57 void
  58 nb_kernel_ElecRF_VdwLJ_GeomW3W3_VF_sse4_1_double
  59                     (t_nblist                    * gmx_restrict       nlist,
  60                      rvec                        * gmx_restrict          xx,
  61                      rvec                        * gmx_restrict          ff,
  62                      t_forcerec                  * gmx_restrict          fr,
  63                      t_mdatoms                   * gmx_restrict     mdatoms,
  64                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
  65                      t_nrnb                      * gmx_restrict        nrnb)
  66 {
  67     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  68      * just 0 for non-waters.
  69      * Suffixes A,B refer to j loop unrolling done with SSE double precision, e.g. for the two different
  70      * jnr indices corresponding to data put in the four positions in the SIMD register.
  71      */
  72     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  73     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  74     int              jnrA,jnrB;
  75     int              j_coord_offsetA,j_coord_offsetB;
  76     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  77     real             rcutoff_scalar;
  78     real             *shiftvec,*fshift,*x,*f;
  79     __m128d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  80     int              vdwioffset0;
  81     __m128d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
  82     int              vdwioffset1;
  83     __m128d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  84     int              vdwioffset2;
  85     __m128d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  86     int              vdwjidx0A,vdwjidx0B;
  87     __m128d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  88     int              vdwjidx1A,vdwjidx1B;
  89     __m128d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
  90     int              vdwjidx2A,vdwjidx2B;
  91     __m128d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
  92     __m128d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
  93     __m128d          dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
  94     __m128d          dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
  95     __m128d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
  96     __m128d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
  97     __m128d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
  98     __m128d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
  99     __m128d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 100     __m128d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 101     __m128d          velec,felec,velecsum,facel,crf,krf,krf2;
 102     real             *charge;
 103     int              nvdwtype;
 104     __m128d          rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
 105     int              *vdwtype;
 106     real             *vdwparam;
 107     __m128d          one_sixth   = _mm_set1_pd(1.0/6.0);
 108     __m128d          one_twelfth = _mm_set1_pd(1.0/12.0);
 109     __m128d          dummy_mask,cutoff_mask;
 110     __m128d          signbit   = gmx_mm_castsi128_pd( _mm_set_epi32(0x80000000,0x00000000,0x80000000,0x00000000) );
 111     __m128d          one     = _mm_set1_pd(1.0);
 112     __m128d          two     = _mm_set1_pd(2.0);
 113     x                = xx[0];
 114     f                = ff[0];
 115
 116     nri              = nlist->nri;
 117     iinr             = nlist->iinr;
 118     jindex           = nlist->jindex;
 119     jjnr             = nlist->jjnr;
 120     shiftidx         = nlist->shift;
 121     gid              = nlist->gid;
 122     shiftvec         = fr->shift_vec[0];
 123     fshift           = fr->fshift[0];
 124     facel            = _mm_set1_pd(fr->epsfac);
 125     charge           = mdatoms->chargeA;
 126     krf              = _mm_set1_pd(fr->ic->k_rf);
 127     krf2             = _mm_set1_pd(fr->ic->k_rf*2.0);
 128     crf              = _mm_set1_pd(fr->ic->c_rf);
 129     nvdwtype         = fr->ntype;
 130     vdwparam         = fr->nbfp;
 131     vdwtype          = mdatoms->typeA;
 132
 133     /* Setup water-specific parameters */
 134     inr              = nlist->iinr[0];
 135     iq0              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+0]));
 136     iq1              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+1]));
 137     iq2              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+2]));
 138     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 139
 140     jq0              = _mm_set1_pd(charge[inr+0]);
 141     jq1              = _mm_set1_pd(charge[inr+1]);
 142     jq2              = _mm_set1_pd(charge[inr+2]);
 143     vdwjidx0A        = 2*vdwtype[inr+0];
 144     qq00             = _mm_mul_pd(iq0,jq0);
 145     c6_00            = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A]);
 146     c12_00           = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A+1]);
 147     qq01             = _mm_mul_pd(iq0,jq1);
 148     qq02             = _mm_mul_pd(iq0,jq2);
 149     qq10             = _mm_mul_pd(iq1,jq0);
 150     qq11             = _mm_mul_pd(iq1,jq1);
 151     qq12             = _mm_mul_pd(iq1,jq2);
 152     qq20             = _mm_mul_pd(iq2,jq0);
 153     qq21             = _mm_mul_pd(iq2,jq1);
 154     qq22             = _mm_mul_pd(iq2,jq2);
 155
 156     /* Avoid stupid compiler warnings */
 157     jnrA = jnrB = 0;
 158     j_coord_offsetA = 0;
 159     j_coord_offsetB = 0;
 160
 161     outeriter        = 0;
 162     inneriter        = 0;
 163
 164     /* Start outer loop over neighborlists */
 165     for(iidx=0; iidx<nri; iidx++)
 166     {
 167         /* Load shift vector for this list */
 168         i_shift_offset   = DIM*shiftidx[iidx];
 169
 170         /* Load limits for loop over neighbors */
 171         j_index_start    = jindex[iidx];
 172         j_index_end      = jindex[iidx+1];
 173
 174         /* Get outer coordinate index */
 175         inr              = iinr[iidx];
 176         i_coord_offset   = DIM*inr;
 177
 178         /* Load i particle coords and add shift vector */
 179         gmx_mm_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
 180                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
 181
 182         fix0             = _mm_setzero_pd();
 183         fiy0             = _mm_setzero_pd();
 184         fiz0             = _mm_setzero_pd();
 185         fix1             = _mm_setzero_pd();
 186         fiy1             = _mm_setzero_pd();
 187         fiz1             = _mm_setzero_pd();
 188         fix2             = _mm_setzero_pd();
 189         fiy2             = _mm_setzero_pd();
 190         fiz2             = _mm_setzero_pd();
 191
 192         /* Reset potential sums */
 193         velecsum         = _mm_setzero_pd();
 194         vvdwsum          = _mm_setzero_pd();
 195
 196         /* Start inner kernel loop */
 197         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
 198         {
 199
 200             /* Get j neighbor index, and coordinate index */
 201             jnrA             = jjnr[jidx];
 202             jnrB             = jjnr[jidx+1];
 203             j_coord_offsetA  = DIM*jnrA;
 204             j_coord_offsetB  = DIM*jnrB;
 205
 206             /* load j atom coordinates */
 207             gmx_mm_load_3rvec_2ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 208                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
 209
 210             /* Calculate displacement vector */
 211             dx00             = _mm_sub_pd(ix0,jx0);
 212             dy00             = _mm_sub_pd(iy0,jy0);
 213             dz00             = _mm_sub_pd(iz0,jz0);
 214             dx01             = _mm_sub_pd(ix0,jx1);
 215             dy01             = _mm_sub_pd(iy0,jy1);
 216             dz01             = _mm_sub_pd(iz0,jz1);
 217             dx02             = _mm_sub_pd(ix0,jx2);
 218             dy02             = _mm_sub_pd(iy0,jy2);
 219             dz02             = _mm_sub_pd(iz0,jz2);
 220             dx10             = _mm_sub_pd(ix1,jx0);
 221             dy10             = _mm_sub_pd(iy1,jy0);
 222             dz10             = _mm_sub_pd(iz1,jz0);
 223             dx11             = _mm_sub_pd(ix1,jx1);
 224             dy11             = _mm_sub_pd(iy1,jy1);
 225             dz11             = _mm_sub_pd(iz1,jz1);
 226             dx12             = _mm_sub_pd(ix1,jx2);
 227             dy12             = _mm_sub_pd(iy1,jy2);
 228             dz12             = _mm_sub_pd(iz1,jz2);
 229             dx20             = _mm_sub_pd(ix2,jx0);
 230             dy20             = _mm_sub_pd(iy2,jy0);
 231             dz20             = _mm_sub_pd(iz2,jz0);
 232             dx21             = _mm_sub_pd(ix2,jx1);
 233             dy21             = _mm_sub_pd(iy2,jy1);
 234             dz21             = _mm_sub_pd(iz2,jz1);
 235             dx22             = _mm_sub_pd(ix2,jx2);
 236             dy22             = _mm_sub_pd(iy2,jy2);
 237             dz22             = _mm_sub_pd(iz2,jz2);
 238
 239             /* Calculate squared distance and things based on it */
 240             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
 241             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
 242             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
 243             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
 244             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
 245             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
 246             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
 247             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
 248             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
 249
 250             rinv00           = gmx_mm_invsqrt_pd(rsq00);
 251             rinv01           = gmx_mm_invsqrt_pd(rsq01);
 252             rinv02           = gmx_mm_invsqrt_pd(rsq02);
 253             rinv10           = gmx_mm_invsqrt_pd(rsq10);
 254             rinv11           = gmx_mm_invsqrt_pd(rsq11);
 255             rinv12           = gmx_mm_invsqrt_pd(rsq12);
 256             rinv20           = gmx_mm_invsqrt_pd(rsq20);
 257             rinv21           = gmx_mm_invsqrt_pd(rsq21);
 258             rinv22           = gmx_mm_invsqrt_pd(rsq22);
 259
 260             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
 261             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
 262             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
 263             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
 264             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
 265             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
 266             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
 267             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
 268             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
 269
 270             fjx0             = _mm_setzero_pd();
 271             fjy0             = _mm_setzero_pd();
 272             fjz0             = _mm_setzero_pd();
 273             fjx1             = _mm_setzero_pd();
 274             fjy1             = _mm_setzero_pd();
 275             fjz1             = _mm_setzero_pd();
 276             fjx2             = _mm_setzero_pd();
 277             fjy2             = _mm_setzero_pd();
 278             fjz2             = _mm_setzero_pd();
 279
 280             /**************************
 281              * CALCULATE INTERACTIONS *
 282              **************************/
 283
 284             /* REACTION-FIELD ELECTROSTATICS */
 285             velec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_add_pd(rinv00,_mm_mul_pd(krf,rsq00)),crf));
 286             felec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_mul_pd(rinv00,rinvsq00),krf2));
 287
 288             /* LENNARD-JONES DISPERSION/REPULSION */
 289
 290             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
 291             vvdw6            = _mm_mul_pd(c6_00,rinvsix);
 292             vvdw12           = _mm_mul_pd(c12_00,_mm_mul_pd(rinvsix,rinvsix));
 293             vvdw             = _mm_sub_pd( _mm_mul_pd(vvdw12,one_twelfth) , _mm_mul_pd(vvdw6,one_sixth) );
 294             fvdw             = _mm_mul_pd(_mm_sub_pd(vvdw12,vvdw6),rinvsq00);
 295
 296             /* Update potential sum for this i atom from the interaction with this j atom. */
 297             velecsum         = _mm_add_pd(velecsum,velec);
 298             vvdwsum          = _mm_add_pd(vvdwsum,vvdw);
 299
 300             fscal            = _mm_add_pd(felec,fvdw);
 301
 302             /* Calculate temporary vectorial force */
 303             tx               = _mm_mul_pd(fscal,dx00);
 304             ty               = _mm_mul_pd(fscal,dy00);
 305             tz               = _mm_mul_pd(fscal,dz00);
 306
 307             /* Update vectorial force */
 308             fix0             = _mm_add_pd(fix0,tx);
 309             fiy0             = _mm_add_pd(fiy0,ty);
 310             fiz0             = _mm_add_pd(fiz0,tz);
 311
 312             fjx0             = _mm_add_pd(fjx0,tx);
 313             fjy0             = _mm_add_pd(fjy0,ty);
 314             fjz0             = _mm_add_pd(fjz0,tz);
 315
 316             /**************************
 317              * CALCULATE INTERACTIONS *
 318              **************************/
 319
 320             /* REACTION-FIELD ELECTROSTATICS */
 321             velec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_add_pd(rinv01,_mm_mul_pd(krf,rsq01)),crf));
 322             felec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_mul_pd(rinv01,rinvsq01),krf2));
 323
 324             /* Update potential sum for this i atom from the interaction with this j atom. */
 325             velecsum         = _mm_add_pd(velecsum,velec);
 326
 327             fscal            = felec;
 328
 329             /* Calculate temporary vectorial force */
 330             tx               = _mm_mul_pd(fscal,dx01);
 331             ty               = _mm_mul_pd(fscal,dy01);
 332             tz               = _mm_mul_pd(fscal,dz01);
 333
 334             /* Update vectorial force */
 335             fix0             = _mm_add_pd(fix0,tx);
 336             fiy0             = _mm_add_pd(fiy0,ty);
 337             fiz0             = _mm_add_pd(fiz0,tz);
 338
 339             fjx1             = _mm_add_pd(fjx1,tx);
 340             fjy1             = _mm_add_pd(fjy1,ty);
 341             fjz1             = _mm_add_pd(fjz1,tz);
 342
 343             /**************************
 344              * CALCULATE INTERACTIONS *
 345              **************************/
 346
 347             /* REACTION-FIELD ELECTROSTATICS */
 348             velec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_add_pd(rinv02,_mm_mul_pd(krf,rsq02)),crf));
 349             felec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_mul_pd(rinv02,rinvsq02),krf2));
 350
 351             /* Update potential sum for this i atom from the interaction with this j atom. */
 352             velecsum         = _mm_add_pd(velecsum,velec);
 353
 354             fscal            = felec;
 355
 356             /* Calculate temporary vectorial force */
 357             tx               = _mm_mul_pd(fscal,dx02);
 358             ty               = _mm_mul_pd(fscal,dy02);
 359             tz               = _mm_mul_pd(fscal,dz02);
 360
 361             /* Update vectorial force */
 362             fix0             = _mm_add_pd(fix0,tx);
 363             fiy0             = _mm_add_pd(fiy0,ty);
 364             fiz0             = _mm_add_pd(fiz0,tz);
 365
 366             fjx2             = _mm_add_pd(fjx2,tx);
 367             fjy2             = _mm_add_pd(fjy2,ty);
 368             fjz2             = _mm_add_pd(fjz2,tz);
 369
 370             /**************************
 371              * CALCULATE INTERACTIONS *
 372              **************************/
 373
 374             /* REACTION-FIELD ELECTROSTATICS */
 375             velec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_add_pd(rinv10,_mm_mul_pd(krf,rsq10)),crf));
 376             felec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_mul_pd(rinv10,rinvsq10),krf2));
 377
 378             /* Update potential sum for this i atom from the interaction with this j atom. */
 379             velecsum         = _mm_add_pd(velecsum,velec);
 380
 381             fscal            = felec;
 382
 383             /* Calculate temporary vectorial force */
 384             tx               = _mm_mul_pd(fscal,dx10);
 385             ty               = _mm_mul_pd(fscal,dy10);
 386             tz               = _mm_mul_pd(fscal,dz10);
 387
 388             /* Update vectorial force */
 389             fix1             = _mm_add_pd(fix1,tx);
 390             fiy1             = _mm_add_pd(fiy1,ty);
 391             fiz1             = _mm_add_pd(fiz1,tz);
 392
 393             fjx0             = _mm_add_pd(fjx0,tx);
 394             fjy0             = _mm_add_pd(fjy0,ty);
 395             fjz0             = _mm_add_pd(fjz0,tz);
 396
 397             /**************************
 398              * CALCULATE INTERACTIONS *
 399              **************************/
 400
 401             /* REACTION-FIELD ELECTROSTATICS */
 402             velec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_add_pd(rinv11,_mm_mul_pd(krf,rsq11)),crf));
 403             felec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_mul_pd(rinv11,rinvsq11),krf2));
 404
 405             /* Update potential sum for this i atom from the interaction with this j atom. */
 406             velecsum         = _mm_add_pd(velecsum,velec);
 407
 408             fscal            = felec;
 409
 410             /* Calculate temporary vectorial force */
 411             tx               = _mm_mul_pd(fscal,dx11);
 412             ty               = _mm_mul_pd(fscal,dy11);
 413             tz               = _mm_mul_pd(fscal,dz11);
 414
 415             /* Update vectorial force */
 416             fix1             = _mm_add_pd(fix1,tx);
 417             fiy1             = _mm_add_pd(fiy1,ty);
 418             fiz1             = _mm_add_pd(fiz1,tz);
 419
 420             fjx1             = _mm_add_pd(fjx1,tx);
 421             fjy1             = _mm_add_pd(fjy1,ty);
 422             fjz1             = _mm_add_pd(fjz1,tz);
 423
 424             /**************************
 425              * CALCULATE INTERACTIONS *
 426              **************************/
 427
 428             /* REACTION-FIELD ELECTROSTATICS */
 429             velec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_add_pd(rinv12,_mm_mul_pd(krf,rsq12)),crf));
 430             felec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_mul_pd(rinv12,rinvsq12),krf2));
 431
 432             /* Update potential sum for this i atom from the interaction with this j atom. */
 433             velecsum         = _mm_add_pd(velecsum,velec);
 434
 435             fscal            = felec;
 436
 437             /* Calculate temporary vectorial force */
 438             tx               = _mm_mul_pd(fscal,dx12);
 439             ty               = _mm_mul_pd(fscal,dy12);
 440             tz               = _mm_mul_pd(fscal,dz12);
 441
 442             /* Update vectorial force */
 443             fix1             = _mm_add_pd(fix1,tx);
 444             fiy1             = _mm_add_pd(fiy1,ty);
 445             fiz1             = _mm_add_pd(fiz1,tz);
 446
 447             fjx2             = _mm_add_pd(fjx2,tx);
 448             fjy2             = _mm_add_pd(fjy2,ty);
 449             fjz2             = _mm_add_pd(fjz2,tz);
 450
 451             /**************************
 452              * CALCULATE INTERACTIONS *
 453              **************************/
 454
 455             /* REACTION-FIELD ELECTROSTATICS */
 456             velec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_add_pd(rinv20,_mm_mul_pd(krf,rsq20)),crf));
 457             felec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_mul_pd(rinv20,rinvsq20),krf2));
 458
 459             /* Update potential sum for this i atom from the interaction with this j atom. */
 460             velecsum         = _mm_add_pd(velecsum,velec);
 461
 462             fscal            = felec;
 463
 464             /* Calculate temporary vectorial force */
 465             tx               = _mm_mul_pd(fscal,dx20);
 466             ty               = _mm_mul_pd(fscal,dy20);
 467             tz               = _mm_mul_pd(fscal,dz20);
 468
 469             /* Update vectorial force */
 470             fix2             = _mm_add_pd(fix2,tx);
 471             fiy2             = _mm_add_pd(fiy2,ty);
 472             fiz2             = _mm_add_pd(fiz2,tz);
 473
 474             fjx0             = _mm_add_pd(fjx0,tx);
 475             fjy0             = _mm_add_pd(fjy0,ty);
 476             fjz0             = _mm_add_pd(fjz0,tz);
 477
 478             /**************************
 479              * CALCULATE INTERACTIONS *
 480              **************************/
 481
 482             /* REACTION-FIELD ELECTROSTATICS */
 483             velec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_add_pd(rinv21,_mm_mul_pd(krf,rsq21)),crf));
 484             felec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_mul_pd(rinv21,rinvsq21),krf2));
 485
 486             /* Update potential sum for this i atom from the interaction with this j atom. */
 487             velecsum         = _mm_add_pd(velecsum,velec);
 488
 489             fscal            = felec;
 490
 491             /* Calculate temporary vectorial force */
 492             tx               = _mm_mul_pd(fscal,dx21);
 493             ty               = _mm_mul_pd(fscal,dy21);
 494             tz               = _mm_mul_pd(fscal,dz21);
 495
 496             /* Update vectorial force */
 497             fix2             = _mm_add_pd(fix2,tx);
 498             fiy2             = _mm_add_pd(fiy2,ty);
 499             fiz2             = _mm_add_pd(fiz2,tz);
 500
 501             fjx1             = _mm_add_pd(fjx1,tx);
 502             fjy1             = _mm_add_pd(fjy1,ty);
 503             fjz1             = _mm_add_pd(fjz1,tz);
 504
 505             /**************************
 506              * CALCULATE INTERACTIONS *
 507              **************************/
 508
 509             /* REACTION-FIELD ELECTROSTATICS */
 510             velec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_add_pd(rinv22,_mm_mul_pd(krf,rsq22)),crf));
 511             felec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_mul_pd(rinv22,rinvsq22),krf2));
 512
 513             /* Update potential sum for this i atom from the interaction with this j atom. */
 514             velecsum         = _mm_add_pd(velecsum,velec);
 515
 516             fscal            = felec;
 517
 518             /* Calculate temporary vectorial force */
 519             tx               = _mm_mul_pd(fscal,dx22);
 520             ty               = _mm_mul_pd(fscal,dy22);
 521             tz               = _mm_mul_pd(fscal,dz22);
 522
 523             /* Update vectorial force */
 524             fix2             = _mm_add_pd(fix2,tx);
 525             fiy2             = _mm_add_pd(fiy2,ty);
 526             fiz2             = _mm_add_pd(fiz2,tz);
 527
 528             fjx2             = _mm_add_pd(fjx2,tx);
 529             fjy2             = _mm_add_pd(fjy2,ty);
 530             fjz2             = _mm_add_pd(fjz2,tz);
 531
 532             gmx_mm_decrement_3rvec_2ptr_swizzle_pd(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
 533
 534             /* Inner loop uses 300 flops */
 535         }
 536
 537         if(jidx<j_index_end)
 538         {
 539
 540             jnrA             = jjnr[jidx];
 541             j_coord_offsetA  = DIM*jnrA;
 542
 543             /* load j atom coordinates */
 544             gmx_mm_load_3rvec_1ptr_swizzle_pd(x+j_coord_offsetA,
 545                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
 546
 547             /* Calculate displacement vector */
 548             dx00             = _mm_sub_pd(ix0,jx0);
 549             dy00             = _mm_sub_pd(iy0,jy0);
 550             dz00             = _mm_sub_pd(iz0,jz0);
 551             dx01             = _mm_sub_pd(ix0,jx1);
 552             dy01             = _mm_sub_pd(iy0,jy1);
 553             dz01             = _mm_sub_pd(iz0,jz1);
 554             dx02             = _mm_sub_pd(ix0,jx2);
 555             dy02             = _mm_sub_pd(iy0,jy2);
 556             dz02             = _mm_sub_pd(iz0,jz2);
 557             dx10             = _mm_sub_pd(ix1,jx0);
 558             dy10             = _mm_sub_pd(iy1,jy0);
 559             dz10             = _mm_sub_pd(iz1,jz0);
 560             dx11             = _mm_sub_pd(ix1,jx1);
 561             dy11             = _mm_sub_pd(iy1,jy1);
 562             dz11             = _mm_sub_pd(iz1,jz1);
 563             dx12             = _mm_sub_pd(ix1,jx2);
 564             dy12             = _mm_sub_pd(iy1,jy2);
 565             dz12             = _mm_sub_pd(iz1,jz2);
 566             dx20             = _mm_sub_pd(ix2,jx0);
 567             dy20             = _mm_sub_pd(iy2,jy0);
 568             dz20             = _mm_sub_pd(iz2,jz0);
 569             dx21             = _mm_sub_pd(ix2,jx1);
 570             dy21             = _mm_sub_pd(iy2,jy1);
 571             dz21             = _mm_sub_pd(iz2,jz1);
 572             dx22             = _mm_sub_pd(ix2,jx2);
 573             dy22             = _mm_sub_pd(iy2,jy2);
 574             dz22             = _mm_sub_pd(iz2,jz2);
 575
 576             /* Calculate squared distance and things based on it */
 577             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
 578             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
 579             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
 580             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
 581             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
 582             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
 583             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
 584             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
 585             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
 586
 587             rinv00           = gmx_mm_invsqrt_pd(rsq00);
 588             rinv01           = gmx_mm_invsqrt_pd(rsq01);
 589             rinv02           = gmx_mm_invsqrt_pd(rsq02);
 590             rinv10           = gmx_mm_invsqrt_pd(rsq10);
 591             rinv11           = gmx_mm_invsqrt_pd(rsq11);
 592             rinv12           = gmx_mm_invsqrt_pd(rsq12);
 593             rinv20           = gmx_mm_invsqrt_pd(rsq20);
 594             rinv21           = gmx_mm_invsqrt_pd(rsq21);
 595             rinv22           = gmx_mm_invsqrt_pd(rsq22);
 596
 597             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
 598             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
 599             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
 600             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
 601             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
 602             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
 603             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
 604             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
 605             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
 606
 607             fjx0             = _mm_setzero_pd();
 608             fjy0             = _mm_setzero_pd();
 609             fjz0             = _mm_setzero_pd();
 610             fjx1             = _mm_setzero_pd();
 611             fjy1             = _mm_setzero_pd();
 612             fjz1             = _mm_setzero_pd();
 613             fjx2             = _mm_setzero_pd();
 614             fjy2             = _mm_setzero_pd();
 615             fjz2             = _mm_setzero_pd();
 616
 617             /**************************
 618              * CALCULATE INTERACTIONS *
 619              **************************/
 620
 621             /* REACTION-FIELD ELECTROSTATICS */
 622             velec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_add_pd(rinv00,_mm_mul_pd(krf,rsq00)),crf));
 623             felec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_mul_pd(rinv00,rinvsq00),krf2));
 624
 625             /* LENNARD-JONES DISPERSION/REPULSION */
 626
 627             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
 628             vvdw6            = _mm_mul_pd(c6_00,rinvsix);
 629             vvdw12           = _mm_mul_pd(c12_00,_mm_mul_pd(rinvsix,rinvsix));
 630             vvdw             = _mm_sub_pd( _mm_mul_pd(vvdw12,one_twelfth) , _mm_mul_pd(vvdw6,one_sixth) );
 631             fvdw             = _mm_mul_pd(_mm_sub_pd(vvdw12,vvdw6),rinvsq00);
 632
 633             /* Update potential sum for this i atom from the interaction with this j atom. */
 634             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 635             velecsum         = _mm_add_pd(velecsum,velec);
 636             vvdw             = _mm_unpacklo_pd(vvdw,_mm_setzero_pd());
 637             vvdwsum          = _mm_add_pd(vvdwsum,vvdw);
 638
 639             fscal            = _mm_add_pd(felec,fvdw);
 640
 641             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 642
 643             /* Calculate temporary vectorial force */
 644             tx               = _mm_mul_pd(fscal,dx00);
 645             ty               = _mm_mul_pd(fscal,dy00);
 646             tz               = _mm_mul_pd(fscal,dz00);
 647
 648             /* Update vectorial force */
 649             fix0             = _mm_add_pd(fix0,tx);
 650             fiy0             = _mm_add_pd(fiy0,ty);
 651             fiz0             = _mm_add_pd(fiz0,tz);
 652
 653             fjx0             = _mm_add_pd(fjx0,tx);
 654             fjy0             = _mm_add_pd(fjy0,ty);
 655             fjz0             = _mm_add_pd(fjz0,tz);
 656
 657             /**************************
 658              * CALCULATE INTERACTIONS *
 659              **************************/
 660
 661             /* REACTION-FIELD ELECTROSTATICS */
 662             velec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_add_pd(rinv01,_mm_mul_pd(krf,rsq01)),crf));
 663             felec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_mul_pd(rinv01,rinvsq01),krf2));
 664
 665             /* Update potential sum for this i atom from the interaction with this j atom. */
 666             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 667             velecsum         = _mm_add_pd(velecsum,velec);
 668
 669             fscal            = felec;
 670
 671             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 672
 673             /* Calculate temporary vectorial force */
 674             tx               = _mm_mul_pd(fscal,dx01);
 675             ty               = _mm_mul_pd(fscal,dy01);
 676             tz               = _mm_mul_pd(fscal,dz01);
 677
 678             /* Update vectorial force */
 679             fix0             = _mm_add_pd(fix0,tx);
 680             fiy0             = _mm_add_pd(fiy0,ty);
 681             fiz0             = _mm_add_pd(fiz0,tz);
 682
 683             fjx1             = _mm_add_pd(fjx1,tx);
 684             fjy1             = _mm_add_pd(fjy1,ty);
 685             fjz1             = _mm_add_pd(fjz1,tz);
 686
 687             /**************************
 688              * CALCULATE INTERACTIONS *
 689              **************************/
 690
 691             /* REACTION-FIELD ELECTROSTATICS */
 692             velec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_add_pd(rinv02,_mm_mul_pd(krf,rsq02)),crf));
 693             felec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_mul_pd(rinv02,rinvsq02),krf2));
 694
 695             /* Update potential sum for this i atom from the interaction with this j atom. */
 696             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 697             velecsum         = _mm_add_pd(velecsum,velec);
 698
 699             fscal            = felec;
 700
 701             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 702
 703             /* Calculate temporary vectorial force */
 704             tx               = _mm_mul_pd(fscal,dx02);
 705             ty               = _mm_mul_pd(fscal,dy02);
 706             tz               = _mm_mul_pd(fscal,dz02);
 707
 708             /* Update vectorial force */
 709             fix0             = _mm_add_pd(fix0,tx);
 710             fiy0             = _mm_add_pd(fiy0,ty);
 711             fiz0             = _mm_add_pd(fiz0,tz);
 712
 713             fjx2             = _mm_add_pd(fjx2,tx);
 714             fjy2             = _mm_add_pd(fjy2,ty);
 715             fjz2             = _mm_add_pd(fjz2,tz);
 716
 717             /**************************
 718              * CALCULATE INTERACTIONS *
 719              **************************/
 720
 721             /* REACTION-FIELD ELECTROSTATICS */
 722             velec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_add_pd(rinv10,_mm_mul_pd(krf,rsq10)),crf));
 723             felec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_mul_pd(rinv10,rinvsq10),krf2));
 724
 725             /* Update potential sum for this i atom from the interaction with this j atom. */
 726             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 727             velecsum         = _mm_add_pd(velecsum,velec);
 728
 729             fscal            = felec;
 730
 731             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 732
 733             /* Calculate temporary vectorial force */
 734             tx               = _mm_mul_pd(fscal,dx10);
 735             ty               = _mm_mul_pd(fscal,dy10);
 736             tz               = _mm_mul_pd(fscal,dz10);
 737
 738             /* Update vectorial force */
 739             fix1             = _mm_add_pd(fix1,tx);
 740             fiy1             = _mm_add_pd(fiy1,ty);
 741             fiz1             = _mm_add_pd(fiz1,tz);
 742
 743             fjx0             = _mm_add_pd(fjx0,tx);
 744             fjy0             = _mm_add_pd(fjy0,ty);
 745             fjz0             = _mm_add_pd(fjz0,tz);
 746
 747             /**************************
 748              * CALCULATE INTERACTIONS *
 749              **************************/
 750
 751             /* REACTION-FIELD ELECTROSTATICS */
 752             velec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_add_pd(rinv11,_mm_mul_pd(krf,rsq11)),crf));
 753             felec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_mul_pd(rinv11,rinvsq11),krf2));
 754
 755             /* Update potential sum for this i atom from the interaction with this j atom. */
 756             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 757             velecsum         = _mm_add_pd(velecsum,velec);
 758
 759             fscal            = felec;
 760
 761             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 762
 763             /* Calculate temporary vectorial force */
 764             tx               = _mm_mul_pd(fscal,dx11);
 765             ty               = _mm_mul_pd(fscal,dy11);
 766             tz               = _mm_mul_pd(fscal,dz11);
 767
 768             /* Update vectorial force */
 769             fix1             = _mm_add_pd(fix1,tx);
 770             fiy1             = _mm_add_pd(fiy1,ty);
 771             fiz1             = _mm_add_pd(fiz1,tz);
 772
 773             fjx1             = _mm_add_pd(fjx1,tx);
 774             fjy1             = _mm_add_pd(fjy1,ty);
 775             fjz1             = _mm_add_pd(fjz1,tz);
 776
 777             /**************************
 778              * CALCULATE INTERACTIONS *
 779              **************************/
 780
 781             /* REACTION-FIELD ELECTROSTATICS */
 782             velec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_add_pd(rinv12,_mm_mul_pd(krf,rsq12)),crf));
 783             felec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_mul_pd(rinv12,rinvsq12),krf2));
 784
 785             /* Update potential sum for this i atom from the interaction with this j atom. */
 786             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 787             velecsum         = _mm_add_pd(velecsum,velec);
 788
 789             fscal            = felec;
 790
 791             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 792
 793             /* Calculate temporary vectorial force */
 794             tx               = _mm_mul_pd(fscal,dx12);
 795             ty               = _mm_mul_pd(fscal,dy12);
 796             tz               = _mm_mul_pd(fscal,dz12);
 797
 798             /* Update vectorial force */
 799             fix1             = _mm_add_pd(fix1,tx);
 800             fiy1             = _mm_add_pd(fiy1,ty);
 801             fiz1             = _mm_add_pd(fiz1,tz);
 802
 803             fjx2             = _mm_add_pd(fjx2,tx);
 804             fjy2             = _mm_add_pd(fjy2,ty);
 805             fjz2             = _mm_add_pd(fjz2,tz);
 806
 807             /**************************
 808              * CALCULATE INTERACTIONS *
 809              **************************/
 810
 811             /* REACTION-FIELD ELECTROSTATICS */
 812             velec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_add_pd(rinv20,_mm_mul_pd(krf,rsq20)),crf));
 813             felec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_mul_pd(rinv20,rinvsq20),krf2));
 814
 815             /* Update potential sum for this i atom from the interaction with this j atom. */
 816             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 817             velecsum         = _mm_add_pd(velecsum,velec);
 818
 819             fscal            = felec;
 820
 821             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 822
 823             /* Calculate temporary vectorial force */
 824             tx               = _mm_mul_pd(fscal,dx20);
 825             ty               = _mm_mul_pd(fscal,dy20);
 826             tz               = _mm_mul_pd(fscal,dz20);
 827
 828             /* Update vectorial force */
 829             fix2             = _mm_add_pd(fix2,tx);
 830             fiy2             = _mm_add_pd(fiy2,ty);
 831             fiz2             = _mm_add_pd(fiz2,tz);
 832
 833             fjx0             = _mm_add_pd(fjx0,tx);
 834             fjy0             = _mm_add_pd(fjy0,ty);
 835             fjz0             = _mm_add_pd(fjz0,tz);
 836
 837             /**************************
 838              * CALCULATE INTERACTIONS *
 839              **************************/
 840
 841             /* REACTION-FIELD ELECTROSTATICS */
 842             velec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_add_pd(rinv21,_mm_mul_pd(krf,rsq21)),crf));
 843             felec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_mul_pd(rinv21,rinvsq21),krf2));
 844
 845             /* Update potential sum for this i atom from the interaction with this j atom. */
 846             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 847             velecsum         = _mm_add_pd(velecsum,velec);
 848
 849             fscal            = felec;
 850
 851             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 852
 853             /* Calculate temporary vectorial force */
 854             tx               = _mm_mul_pd(fscal,dx21);
 855             ty               = _mm_mul_pd(fscal,dy21);
 856             tz               = _mm_mul_pd(fscal,dz21);
 857
 858             /* Update vectorial force */
 859             fix2             = _mm_add_pd(fix2,tx);
 860             fiy2             = _mm_add_pd(fiy2,ty);
 861             fiz2             = _mm_add_pd(fiz2,tz);
 862
 863             fjx1             = _mm_add_pd(fjx1,tx);
 864             fjy1             = _mm_add_pd(fjy1,ty);
 865             fjz1             = _mm_add_pd(fjz1,tz);
 866
 867             /**************************
 868              * CALCULATE INTERACTIONS *
 869              **************************/
 870
 871             /* REACTION-FIELD ELECTROSTATICS */
 872             velec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_add_pd(rinv22,_mm_mul_pd(krf,rsq22)),crf));
 873             felec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_mul_pd(rinv22,rinvsq22),krf2));
 874
 875             /* Update potential sum for this i atom from the interaction with this j atom. */
 876             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 877             velecsum         = _mm_add_pd(velecsum,velec);
 878
 879             fscal            = felec;
 880
 881             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 882
 883             /* Calculate temporary vectorial force */
 884             tx               = _mm_mul_pd(fscal,dx22);
 885             ty               = _mm_mul_pd(fscal,dy22);
 886             tz               = _mm_mul_pd(fscal,dz22);
 887
 888             /* Update vectorial force */
 889             fix2             = _mm_add_pd(fix2,tx);
 890             fiy2             = _mm_add_pd(fiy2,ty);
 891             fiz2             = _mm_add_pd(fiz2,tz);
 892
 893             fjx2             = _mm_add_pd(fjx2,tx);
 894             fjy2             = _mm_add_pd(fjy2,ty);
 895             fjz2             = _mm_add_pd(fjz2,tz);
 896
 897             gmx_mm_decrement_3rvec_1ptr_swizzle_pd(f+j_coord_offsetA,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
 898
 899             /* Inner loop uses 300 flops */
 900         }
 901
 902         /* End of innermost loop */
 903
 904         gmx_mm_update_iforce_3atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
 905                                               f+i_coord_offset,fshift+i_shift_offset);
 906
 907         ggid                        = gid[iidx];
 908         /* Update potential energies */
 909         gmx_mm_update_1pot_pd(velecsum,kernel_data->energygrp_elec+ggid);
 910         gmx_mm_update_1pot_pd(vvdwsum,kernel_data->energygrp_vdw+ggid);
 911
 912         /* Increment number of inner iterations */
 913         inneriter                  += j_index_end - j_index_start;
 914
 915         /* Outer loop uses 20 flops */
 916     }
 917
 918     /* Increment number of outer iterations */
 919     outeriter        += nri;
 920
 921     /* Update outer/inner flops */
 922
 923     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W3W3_VF,outeriter*20 + inneriter*300);
 924 }
 925 /*
 926  * Gromacs nonbonded kernel:   nb_kernel_ElecRF_VdwLJ_GeomW3W3_F_sse4_1_double
 927  * Electrostatics interaction: ReactionField
 928  * VdW interaction:            LennardJones
 929  * Geometry:                   Water3-Water3
 930  * Calculate force/pot:        Force
 931  */
 932 void
 933 nb_kernel_ElecRF_VdwLJ_GeomW3W3_F_sse4_1_double
 934                     (t_nblist                    * gmx_restrict       nlist,
 935                      rvec                        * gmx_restrict          xx,
 936                      rvec                        * gmx_restrict          ff,
 937                      t_forcerec                  * gmx_restrict          fr,
 938                      t_mdatoms                   * gmx_restrict     mdatoms,
 939                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
 940                      t_nrnb                      * gmx_restrict        nrnb)
 941 {
 942     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 943      * just 0 for non-waters.
 944      * Suffixes A,B refer to j loop unrolling done with SSE double precision, e.g. for the two different
 945      * jnr indices corresponding to data put in the four positions in the SIMD register.
 946      */
 947     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 948     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 949     int              jnrA,jnrB;
 950     int              j_coord_offsetA,j_coord_offsetB;
 951     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 952     real             rcutoff_scalar;
 953     real             *shiftvec,*fshift,*x,*f;
 954     __m128d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 955     int              vdwioffset0;
 956     __m128d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
 957     int              vdwioffset1;
 958     __m128d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 959     int              vdwioffset2;
 960     __m128d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 961     int              vdwjidx0A,vdwjidx0B;
 962     __m128d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
 963     int              vdwjidx1A,vdwjidx1B;
 964     __m128d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
 965     int              vdwjidx2A,vdwjidx2B;
 966     __m128d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
 967     __m128d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
 968     __m128d          dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
 969     __m128d          dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
 970     __m128d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
 971     __m128d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
 972     __m128d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
 973     __m128d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
 974     __m128d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 975     __m128d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 976     __m128d          velec,felec,velecsum,facel,crf,krf,krf2;
 977     real             *charge;
 978     int              nvdwtype;
 979     __m128d          rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
 980     int              *vdwtype;
 981     real             *vdwparam;
 982     __m128d          one_sixth   = _mm_set1_pd(1.0/6.0);
 983     __m128d          one_twelfth = _mm_set1_pd(1.0/12.0);
 984     __m128d          dummy_mask,cutoff_mask;
 985     __m128d          signbit   = gmx_mm_castsi128_pd( _mm_set_epi32(0x80000000,0x00000000,0x80000000,0x00000000) );
 986     __m128d          one     = _mm_set1_pd(1.0);
 987     __m128d          two     = _mm_set1_pd(2.0);
 988     x                = xx[0];
 989     f                = ff[0];
 990
 991     nri              = nlist->nri;
 992     iinr             = nlist->iinr;
 993     jindex           = nlist->jindex;
 994     jjnr             = nlist->jjnr;
 995     shiftidx         = nlist->shift;
 996     gid              = nlist->gid;
 997     shiftvec         = fr->shift_vec[0];
 998     fshift           = fr->fshift[0];
 999     facel            = _mm_set1_pd(fr->epsfac);
1000     charge           = mdatoms->chargeA;
1001     krf              = _mm_set1_pd(fr->ic->k_rf);
1002     krf2             = _mm_set1_pd(fr->ic->k_rf*2.0);
1003     crf              = _mm_set1_pd(fr->ic->c_rf);
1004     nvdwtype         = fr->ntype;
1005     vdwparam         = fr->nbfp;
1006     vdwtype          = mdatoms->typeA;
1007
1008     /* Setup water-specific parameters */
1009     inr              = nlist->iinr[0];
1010     iq0              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+0]));
1011     iq1              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+1]));
1012     iq2              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+2]));
1013     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
1014
1015     jq0              = _mm_set1_pd(charge[inr+0]);
1016     jq1              = _mm_set1_pd(charge[inr+1]);
1017     jq2              = _mm_set1_pd(charge[inr+2]);
1018     vdwjidx0A        = 2*vdwtype[inr+0];
1019     qq00             = _mm_mul_pd(iq0,jq0);
1020     c6_00            = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A]);
1021     c12_00           = _mm_set1_pd(vdwparam[vdwioffset0+vdwjidx0A+1]);
1022     qq01             = _mm_mul_pd(iq0,jq1);
1023     qq02             = _mm_mul_pd(iq0,jq2);
1024     qq10             = _mm_mul_pd(iq1,jq0);
1025     qq11             = _mm_mul_pd(iq1,jq1);
1026     qq12             = _mm_mul_pd(iq1,jq2);
1027     qq20             = _mm_mul_pd(iq2,jq0);
1028     qq21             = _mm_mul_pd(iq2,jq1);
1029     qq22             = _mm_mul_pd(iq2,jq2);
1030
1031     /* Avoid stupid compiler warnings */
1032     jnrA = jnrB = 0;
1033     j_coord_offsetA = 0;
1034     j_coord_offsetB = 0;
1035
1036     outeriter        = 0;
1037     inneriter        = 0;
1038
1039     /* Start outer loop over neighborlists */
1040     for(iidx=0; iidx<nri; iidx++)
1041     {
1042         /* Load shift vector for this list */
1043         i_shift_offset   = DIM*shiftidx[iidx];
1044
1045         /* Load limits for loop over neighbors */
1046         j_index_start    = jindex[iidx];
1047         j_index_end      = jindex[iidx+1];
1048
1049         /* Get outer coordinate index */
1050         inr              = iinr[iidx];
1051         i_coord_offset   = DIM*inr;
1052
1053         /* Load i particle coords and add shift vector */
1054         gmx_mm_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
1055                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
1056
1057         fix0             = _mm_setzero_pd();
1058         fiy0             = _mm_setzero_pd();
1059         fiz0             = _mm_setzero_pd();
1060         fix1             = _mm_setzero_pd();
1061         fiy1             = _mm_setzero_pd();
1062         fiz1             = _mm_setzero_pd();
1063         fix2             = _mm_setzero_pd();
1064         fiy2             = _mm_setzero_pd();
1065         fiz2             = _mm_setzero_pd();
1066
1067         /* Start inner kernel loop */
1068         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
1069         {
1070
1071             /* Get j neighbor index, and coordinate index */
1072             jnrA             = jjnr[jidx];
1073             jnrB             = jjnr[jidx+1];
1074             j_coord_offsetA  = DIM*jnrA;
1075             j_coord_offsetB  = DIM*jnrB;
1076
1077             /* load j atom coordinates */
1078             gmx_mm_load_3rvec_2ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
1079                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1080
1081             /* Calculate displacement vector */
1082             dx00             = _mm_sub_pd(ix0,jx0);
1083             dy00             = _mm_sub_pd(iy0,jy0);
1084             dz00             = _mm_sub_pd(iz0,jz0);
1085             dx01             = _mm_sub_pd(ix0,jx1);
1086             dy01             = _mm_sub_pd(iy0,jy1);
1087             dz01             = _mm_sub_pd(iz0,jz1);
1088             dx02             = _mm_sub_pd(ix0,jx2);
1089             dy02             = _mm_sub_pd(iy0,jy2);
1090             dz02             = _mm_sub_pd(iz0,jz2);
1091             dx10             = _mm_sub_pd(ix1,jx0);
1092             dy10             = _mm_sub_pd(iy1,jy0);
1093             dz10             = _mm_sub_pd(iz1,jz0);
1094             dx11             = _mm_sub_pd(ix1,jx1);
1095             dy11             = _mm_sub_pd(iy1,jy1);
1096             dz11             = _mm_sub_pd(iz1,jz1);
1097             dx12             = _mm_sub_pd(ix1,jx2);
1098             dy12             = _mm_sub_pd(iy1,jy2);
1099             dz12             = _mm_sub_pd(iz1,jz2);
1100             dx20             = _mm_sub_pd(ix2,jx0);
1101             dy20             = _mm_sub_pd(iy2,jy0);
1102             dz20             = _mm_sub_pd(iz2,jz0);
1103             dx21             = _mm_sub_pd(ix2,jx1);
1104             dy21             = _mm_sub_pd(iy2,jy1);
1105             dz21             = _mm_sub_pd(iz2,jz1);
1106             dx22             = _mm_sub_pd(ix2,jx2);
1107             dy22             = _mm_sub_pd(iy2,jy2);
1108             dz22             = _mm_sub_pd(iz2,jz2);
1109
1110             /* Calculate squared distance and things based on it */
1111             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
1112             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
1113             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
1114             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
1115             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
1116             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
1117             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
1118             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
1119             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
1120
1121             rinv00           = gmx_mm_invsqrt_pd(rsq00);
1122             rinv01           = gmx_mm_invsqrt_pd(rsq01);
1123             rinv02           = gmx_mm_invsqrt_pd(rsq02);
1124             rinv10           = gmx_mm_invsqrt_pd(rsq10);
1125             rinv11           = gmx_mm_invsqrt_pd(rsq11);
1126             rinv12           = gmx_mm_invsqrt_pd(rsq12);
1127             rinv20           = gmx_mm_invsqrt_pd(rsq20);
1128             rinv21           = gmx_mm_invsqrt_pd(rsq21);
1129             rinv22           = gmx_mm_invsqrt_pd(rsq22);
1130
1131             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
1132             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
1133             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
1134             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
1135             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
1136             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
1137             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
1138             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
1139             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
1140
1141             fjx0             = _mm_setzero_pd();
1142             fjy0             = _mm_setzero_pd();
1143             fjz0             = _mm_setzero_pd();
1144             fjx1             = _mm_setzero_pd();
1145             fjy1             = _mm_setzero_pd();
1146             fjz1             = _mm_setzero_pd();
1147             fjx2             = _mm_setzero_pd();
1148             fjy2             = _mm_setzero_pd();
1149             fjz2             = _mm_setzero_pd();
1150
1151             /**************************
1152              * CALCULATE INTERACTIONS *
1153              **************************/
1154
1155             /* REACTION-FIELD ELECTROSTATICS */
1156             felec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_mul_pd(rinv00,rinvsq00),krf2));
1157
1158             /* LENNARD-JONES DISPERSION/REPULSION */
1159
1160             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
1161             fvdw             = _mm_mul_pd(_mm_sub_pd(_mm_mul_pd(c12_00,rinvsix),c6_00),_mm_mul_pd(rinvsix,rinvsq00));
1162
1163             fscal            = _mm_add_pd(felec,fvdw);
1164
1165             /* Calculate temporary vectorial force */
1166             tx               = _mm_mul_pd(fscal,dx00);
1167             ty               = _mm_mul_pd(fscal,dy00);
1168             tz               = _mm_mul_pd(fscal,dz00);
1169
1170             /* Update vectorial force */
1171             fix0             = _mm_add_pd(fix0,tx);
1172             fiy0             = _mm_add_pd(fiy0,ty);
1173             fiz0             = _mm_add_pd(fiz0,tz);
1174
1175             fjx0             = _mm_add_pd(fjx0,tx);
1176             fjy0             = _mm_add_pd(fjy0,ty);
1177             fjz0             = _mm_add_pd(fjz0,tz);
1178
1179             /**************************
1180              * CALCULATE INTERACTIONS *
1181              **************************/
1182
1183             /* REACTION-FIELD ELECTROSTATICS */
1184             felec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_mul_pd(rinv01,rinvsq01),krf2));
1185
1186             fscal            = felec;
1187
1188             /* Calculate temporary vectorial force */
1189             tx               = _mm_mul_pd(fscal,dx01);
1190             ty               = _mm_mul_pd(fscal,dy01);
1191             tz               = _mm_mul_pd(fscal,dz01);
1192
1193             /* Update vectorial force */
1194             fix0             = _mm_add_pd(fix0,tx);
1195             fiy0             = _mm_add_pd(fiy0,ty);
1196             fiz0             = _mm_add_pd(fiz0,tz);
1197
1198             fjx1             = _mm_add_pd(fjx1,tx);
1199             fjy1             = _mm_add_pd(fjy1,ty);
1200             fjz1             = _mm_add_pd(fjz1,tz);
1201
1202             /**************************
1203              * CALCULATE INTERACTIONS *
1204              **************************/
1205
1206             /* REACTION-FIELD ELECTROSTATICS */
1207             felec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_mul_pd(rinv02,rinvsq02),krf2));
1208
1209             fscal            = felec;
1210
1211             /* Calculate temporary vectorial force */
1212             tx               = _mm_mul_pd(fscal,dx02);
1213             ty               = _mm_mul_pd(fscal,dy02);
1214             tz               = _mm_mul_pd(fscal,dz02);
1215
1216             /* Update vectorial force */
1217             fix0             = _mm_add_pd(fix0,tx);
1218             fiy0             = _mm_add_pd(fiy0,ty);
1219             fiz0             = _mm_add_pd(fiz0,tz);
1220
1221             fjx2             = _mm_add_pd(fjx2,tx);
1222             fjy2             = _mm_add_pd(fjy2,ty);
1223             fjz2             = _mm_add_pd(fjz2,tz);
1224
1225             /**************************
1226              * CALCULATE INTERACTIONS *
1227              **************************/
1228
1229             /* REACTION-FIELD ELECTROSTATICS */
1230             felec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_mul_pd(rinv10,rinvsq10),krf2));
1231
1232             fscal            = felec;
1233
1234             /* Calculate temporary vectorial force */
1235             tx               = _mm_mul_pd(fscal,dx10);
1236             ty               = _mm_mul_pd(fscal,dy10);
1237             tz               = _mm_mul_pd(fscal,dz10);
1238
1239             /* Update vectorial force */
1240             fix1             = _mm_add_pd(fix1,tx);
1241             fiy1             = _mm_add_pd(fiy1,ty);
1242             fiz1             = _mm_add_pd(fiz1,tz);
1243
1244             fjx0             = _mm_add_pd(fjx0,tx);
1245             fjy0             = _mm_add_pd(fjy0,ty);
1246             fjz0             = _mm_add_pd(fjz0,tz);
1247
1248             /**************************
1249              * CALCULATE INTERACTIONS *
1250              **************************/
1251
1252             /* REACTION-FIELD ELECTROSTATICS */
1253             felec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_mul_pd(rinv11,rinvsq11),krf2));
1254
1255             fscal            = felec;
1256
1257             /* Calculate temporary vectorial force */
1258             tx               = _mm_mul_pd(fscal,dx11);
1259             ty               = _mm_mul_pd(fscal,dy11);
1260             tz               = _mm_mul_pd(fscal,dz11);
1261
1262             /* Update vectorial force */
1263             fix1             = _mm_add_pd(fix1,tx);
1264             fiy1             = _mm_add_pd(fiy1,ty);
1265             fiz1             = _mm_add_pd(fiz1,tz);
1266
1267             fjx1             = _mm_add_pd(fjx1,tx);
1268             fjy1             = _mm_add_pd(fjy1,ty);
1269             fjz1             = _mm_add_pd(fjz1,tz);
1270
1271             /**************************
1272              * CALCULATE INTERACTIONS *
1273              **************************/
1274
1275             /* REACTION-FIELD ELECTROSTATICS */
1276             felec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_mul_pd(rinv12,rinvsq12),krf2));
1277
1278             fscal            = felec;
1279
1280             /* Calculate temporary vectorial force */
1281             tx               = _mm_mul_pd(fscal,dx12);
1282             ty               = _mm_mul_pd(fscal,dy12);
1283             tz               = _mm_mul_pd(fscal,dz12);
1284
1285             /* Update vectorial force */
1286             fix1             = _mm_add_pd(fix1,tx);
1287             fiy1             = _mm_add_pd(fiy1,ty);
1288             fiz1             = _mm_add_pd(fiz1,tz);
1289
1290             fjx2             = _mm_add_pd(fjx2,tx);
1291             fjy2             = _mm_add_pd(fjy2,ty);
1292             fjz2             = _mm_add_pd(fjz2,tz);
1293
1294             /**************************
1295              * CALCULATE INTERACTIONS *
1296              **************************/
1297
1298             /* REACTION-FIELD ELECTROSTATICS */
1299             felec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_mul_pd(rinv20,rinvsq20),krf2));
1300
1301             fscal            = felec;
1302
1303             /* Calculate temporary vectorial force */
1304             tx               = _mm_mul_pd(fscal,dx20);
1305             ty               = _mm_mul_pd(fscal,dy20);
1306             tz               = _mm_mul_pd(fscal,dz20);
1307
1308             /* Update vectorial force */
1309             fix2             = _mm_add_pd(fix2,tx);
1310             fiy2             = _mm_add_pd(fiy2,ty);
1311             fiz2             = _mm_add_pd(fiz2,tz);
1312
1313             fjx0             = _mm_add_pd(fjx0,tx);
1314             fjy0             = _mm_add_pd(fjy0,ty);
1315             fjz0             = _mm_add_pd(fjz0,tz);
1316
1317             /**************************
1318              * CALCULATE INTERACTIONS *
1319              **************************/
1320
1321             /* REACTION-FIELD ELECTROSTATICS */
1322             felec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_mul_pd(rinv21,rinvsq21),krf2));
1323
1324             fscal            = felec;
1325
1326             /* Calculate temporary vectorial force */
1327             tx               = _mm_mul_pd(fscal,dx21);
1328             ty               = _mm_mul_pd(fscal,dy21);
1329             tz               = _mm_mul_pd(fscal,dz21);
1330
1331             /* Update vectorial force */
1332             fix2             = _mm_add_pd(fix2,tx);
1333             fiy2             = _mm_add_pd(fiy2,ty);
1334             fiz2             = _mm_add_pd(fiz2,tz);
1335
1336             fjx1             = _mm_add_pd(fjx1,tx);
1337             fjy1             = _mm_add_pd(fjy1,ty);
1338             fjz1             = _mm_add_pd(fjz1,tz);
1339
1340             /**************************
1341              * CALCULATE INTERACTIONS *
1342              **************************/
1343
1344             /* REACTION-FIELD ELECTROSTATICS */
1345             felec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_mul_pd(rinv22,rinvsq22),krf2));
1346
1347             fscal            = felec;
1348
1349             /* Calculate temporary vectorial force */
1350             tx               = _mm_mul_pd(fscal,dx22);
1351             ty               = _mm_mul_pd(fscal,dy22);
1352             tz               = _mm_mul_pd(fscal,dz22);
1353
1354             /* Update vectorial force */
1355             fix2             = _mm_add_pd(fix2,tx);
1356             fiy2             = _mm_add_pd(fiy2,ty);
1357             fiz2             = _mm_add_pd(fiz2,tz);
1358
1359             fjx2             = _mm_add_pd(fjx2,tx);
1360             fjy2             = _mm_add_pd(fjy2,ty);
1361             fjz2             = _mm_add_pd(fjz2,tz);
1362
1363             gmx_mm_decrement_3rvec_2ptr_swizzle_pd(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1364
1365             /* Inner loop uses 250 flops */
1366         }
1367
1368         if(jidx<j_index_end)
1369         {
1370
1371             jnrA             = jjnr[jidx];
1372             j_coord_offsetA  = DIM*jnrA;
1373
1374             /* load j atom coordinates */
1375             gmx_mm_load_3rvec_1ptr_swizzle_pd(x+j_coord_offsetA,
1376                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1377
1378             /* Calculate displacement vector */
1379             dx00             = _mm_sub_pd(ix0,jx0);
1380             dy00             = _mm_sub_pd(iy0,jy0);
1381             dz00             = _mm_sub_pd(iz0,jz0);
1382             dx01             = _mm_sub_pd(ix0,jx1);
1383             dy01             = _mm_sub_pd(iy0,jy1);
1384             dz01             = _mm_sub_pd(iz0,jz1);
1385             dx02             = _mm_sub_pd(ix0,jx2);
1386             dy02             = _mm_sub_pd(iy0,jy2);
1387             dz02             = _mm_sub_pd(iz0,jz2);
1388             dx10             = _mm_sub_pd(ix1,jx0);
1389             dy10             = _mm_sub_pd(iy1,jy0);
1390             dz10             = _mm_sub_pd(iz1,jz0);
1391             dx11             = _mm_sub_pd(ix1,jx1);
1392             dy11             = _mm_sub_pd(iy1,jy1);
1393             dz11             = _mm_sub_pd(iz1,jz1);
1394             dx12             = _mm_sub_pd(ix1,jx2);
1395             dy12             = _mm_sub_pd(iy1,jy2);
1396             dz12             = _mm_sub_pd(iz1,jz2);
1397             dx20             = _mm_sub_pd(ix2,jx0);
1398             dy20             = _mm_sub_pd(iy2,jy0);
1399             dz20             = _mm_sub_pd(iz2,jz0);
1400             dx21             = _mm_sub_pd(ix2,jx1);
1401             dy21             = _mm_sub_pd(iy2,jy1);
1402             dz21             = _mm_sub_pd(iz2,jz1);
1403             dx22             = _mm_sub_pd(ix2,jx2);
1404             dy22             = _mm_sub_pd(iy2,jy2);
1405             dz22             = _mm_sub_pd(iz2,jz2);
1406
1407             /* Calculate squared distance and things based on it */
1408             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
1409             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
1410             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
1411             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
1412             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
1413             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
1414             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
1415             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
1416             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
1417
1418             rinv00           = gmx_mm_invsqrt_pd(rsq00);
1419             rinv01           = gmx_mm_invsqrt_pd(rsq01);
1420             rinv02           = gmx_mm_invsqrt_pd(rsq02);
1421             rinv10           = gmx_mm_invsqrt_pd(rsq10);
1422             rinv11           = gmx_mm_invsqrt_pd(rsq11);
1423             rinv12           = gmx_mm_invsqrt_pd(rsq12);
1424             rinv20           = gmx_mm_invsqrt_pd(rsq20);
1425             rinv21           = gmx_mm_invsqrt_pd(rsq21);
1426             rinv22           = gmx_mm_invsqrt_pd(rsq22);
1427
1428             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
1429             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
1430             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
1431             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
1432             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
1433             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
1434             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
1435             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
1436             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
1437
1438             fjx0             = _mm_setzero_pd();
1439             fjy0             = _mm_setzero_pd();
1440             fjz0             = _mm_setzero_pd();
1441             fjx1             = _mm_setzero_pd();
1442             fjy1             = _mm_setzero_pd();
1443             fjz1             = _mm_setzero_pd();
1444             fjx2             = _mm_setzero_pd();
1445             fjy2             = _mm_setzero_pd();
1446             fjz2             = _mm_setzero_pd();
1447
1448             /**************************
1449              * CALCULATE INTERACTIONS *
1450              **************************/
1451
1452             /* REACTION-FIELD ELECTROSTATICS */
1453             felec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_mul_pd(rinv00,rinvsq00),krf2));
1454
1455             /* LENNARD-JONES DISPERSION/REPULSION */
1456
1457             rinvsix          = _mm_mul_pd(_mm_mul_pd(rinvsq00,rinvsq00),rinvsq00);
1458             fvdw             = _mm_mul_pd(_mm_sub_pd(_mm_mul_pd(c12_00,rinvsix),c6_00),_mm_mul_pd(rinvsix,rinvsq00));
1459
1460             fscal            = _mm_add_pd(felec,fvdw);
1461
1462             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1463
1464             /* Calculate temporary vectorial force */
1465             tx               = _mm_mul_pd(fscal,dx00);
1466             ty               = _mm_mul_pd(fscal,dy00);
1467             tz               = _mm_mul_pd(fscal,dz00);
1468
1469             /* Update vectorial force */
1470             fix0             = _mm_add_pd(fix0,tx);
1471             fiy0             = _mm_add_pd(fiy0,ty);
1472             fiz0             = _mm_add_pd(fiz0,tz);
1473
1474             fjx0             = _mm_add_pd(fjx0,tx);
1475             fjy0             = _mm_add_pd(fjy0,ty);
1476             fjz0             = _mm_add_pd(fjz0,tz);
1477
1478             /**************************
1479              * CALCULATE INTERACTIONS *
1480              **************************/
1481
1482             /* REACTION-FIELD ELECTROSTATICS */
1483             felec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_mul_pd(rinv01,rinvsq01),krf2));
1484
1485             fscal            = felec;
1486
1487             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1488
1489             /* Calculate temporary vectorial force */
1490             tx               = _mm_mul_pd(fscal,dx01);
1491             ty               = _mm_mul_pd(fscal,dy01);
1492             tz               = _mm_mul_pd(fscal,dz01);
1493
1494             /* Update vectorial force */
1495             fix0             = _mm_add_pd(fix0,tx);
1496             fiy0             = _mm_add_pd(fiy0,ty);
1497             fiz0             = _mm_add_pd(fiz0,tz);
1498
1499             fjx1             = _mm_add_pd(fjx1,tx);
1500             fjy1             = _mm_add_pd(fjy1,ty);
1501             fjz1             = _mm_add_pd(fjz1,tz);
1502
1503             /**************************
1504              * CALCULATE INTERACTIONS *
1505              **************************/
1506
1507             /* REACTION-FIELD ELECTROSTATICS */
1508             felec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_mul_pd(rinv02,rinvsq02),krf2));
1509
1510             fscal            = felec;
1511
1512             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1513
1514             /* Calculate temporary vectorial force */
1515             tx               = _mm_mul_pd(fscal,dx02);
1516             ty               = _mm_mul_pd(fscal,dy02);
1517             tz               = _mm_mul_pd(fscal,dz02);
1518
1519             /* Update vectorial force */
1520             fix0             = _mm_add_pd(fix0,tx);
1521             fiy0             = _mm_add_pd(fiy0,ty);
1522             fiz0             = _mm_add_pd(fiz0,tz);
1523
1524             fjx2             = _mm_add_pd(fjx2,tx);
1525             fjy2             = _mm_add_pd(fjy2,ty);
1526             fjz2             = _mm_add_pd(fjz2,tz);
1527
1528             /**************************
1529              * CALCULATE INTERACTIONS *
1530              **************************/
1531
1532             /* REACTION-FIELD ELECTROSTATICS */
1533             felec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_mul_pd(rinv10,rinvsq10),krf2));
1534
1535             fscal            = felec;
1536
1537             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1538
1539             /* Calculate temporary vectorial force */
1540             tx               = _mm_mul_pd(fscal,dx10);
1541             ty               = _mm_mul_pd(fscal,dy10);
1542             tz               = _mm_mul_pd(fscal,dz10);
1543
1544             /* Update vectorial force */
1545             fix1             = _mm_add_pd(fix1,tx);
1546             fiy1             = _mm_add_pd(fiy1,ty);
1547             fiz1             = _mm_add_pd(fiz1,tz);
1548
1549             fjx0             = _mm_add_pd(fjx0,tx);
1550             fjy0             = _mm_add_pd(fjy0,ty);
1551             fjz0             = _mm_add_pd(fjz0,tz);
1552
1553             /**************************
1554              * CALCULATE INTERACTIONS *
1555              **************************/
1556
1557             /* REACTION-FIELD ELECTROSTATICS */
1558             felec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_mul_pd(rinv11,rinvsq11),krf2));
1559
1560             fscal            = felec;
1561
1562             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1563
1564             /* Calculate temporary vectorial force */
1565             tx               = _mm_mul_pd(fscal,dx11);
1566             ty               = _mm_mul_pd(fscal,dy11);
1567             tz               = _mm_mul_pd(fscal,dz11);
1568
1569             /* Update vectorial force */
1570             fix1             = _mm_add_pd(fix1,tx);
1571             fiy1             = _mm_add_pd(fiy1,ty);
1572             fiz1             = _mm_add_pd(fiz1,tz);
1573
1574             fjx1             = _mm_add_pd(fjx1,tx);
1575             fjy1             = _mm_add_pd(fjy1,ty);
1576             fjz1             = _mm_add_pd(fjz1,tz);
1577
1578             /**************************
1579              * CALCULATE INTERACTIONS *
1580              **************************/
1581
1582             /* REACTION-FIELD ELECTROSTATICS */
1583             felec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_mul_pd(rinv12,rinvsq12),krf2));
1584
1585             fscal            = felec;
1586
1587             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1588
1589             /* Calculate temporary vectorial force */
1590             tx               = _mm_mul_pd(fscal,dx12);
1591             ty               = _mm_mul_pd(fscal,dy12);
1592             tz               = _mm_mul_pd(fscal,dz12);
1593
1594             /* Update vectorial force */
1595             fix1             = _mm_add_pd(fix1,tx);
1596             fiy1             = _mm_add_pd(fiy1,ty);
1597             fiz1             = _mm_add_pd(fiz1,tz);
1598
1599             fjx2             = _mm_add_pd(fjx2,tx);
1600             fjy2             = _mm_add_pd(fjy2,ty);
1601             fjz2             = _mm_add_pd(fjz2,tz);
1602
1603             /**************************
1604              * CALCULATE INTERACTIONS *
1605              **************************/
1606
1607             /* REACTION-FIELD ELECTROSTATICS */
1608             felec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_mul_pd(rinv20,rinvsq20),krf2));
1609
1610             fscal            = felec;
1611
1612             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1613
1614             /* Calculate temporary vectorial force */
1615             tx               = _mm_mul_pd(fscal,dx20);
1616             ty               = _mm_mul_pd(fscal,dy20);
1617             tz               = _mm_mul_pd(fscal,dz20);
1618
1619             /* Update vectorial force */
1620             fix2             = _mm_add_pd(fix2,tx);
1621             fiy2             = _mm_add_pd(fiy2,ty);
1622             fiz2             = _mm_add_pd(fiz2,tz);
1623
1624             fjx0             = _mm_add_pd(fjx0,tx);
1625             fjy0             = _mm_add_pd(fjy0,ty);
1626             fjz0             = _mm_add_pd(fjz0,tz);
1627
1628             /**************************
1629              * CALCULATE INTERACTIONS *
1630              **************************/
1631
1632             /* REACTION-FIELD ELECTROSTATICS */
1633             felec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_mul_pd(rinv21,rinvsq21),krf2));
1634
1635             fscal            = felec;
1636
1637             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1638
1639             /* Calculate temporary vectorial force */
1640             tx               = _mm_mul_pd(fscal,dx21);
1641             ty               = _mm_mul_pd(fscal,dy21);
1642             tz               = _mm_mul_pd(fscal,dz21);
1643
1644             /* Update vectorial force */
1645             fix2             = _mm_add_pd(fix2,tx);
1646             fiy2             = _mm_add_pd(fiy2,ty);
1647             fiz2             = _mm_add_pd(fiz2,tz);
1648
1649             fjx1             = _mm_add_pd(fjx1,tx);
1650             fjy1             = _mm_add_pd(fjy1,ty);
1651             fjz1             = _mm_add_pd(fjz1,tz);
1652
1653             /**************************
1654              * CALCULATE INTERACTIONS *
1655              **************************/
1656
1657             /* REACTION-FIELD ELECTROSTATICS */
1658             felec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_mul_pd(rinv22,rinvsq22),krf2));
1659
1660             fscal            = felec;
1661
1662             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1663
1664             /* Calculate temporary vectorial force */
1665             tx               = _mm_mul_pd(fscal,dx22);
1666             ty               = _mm_mul_pd(fscal,dy22);
1667             tz               = _mm_mul_pd(fscal,dz22);
1668
1669             /* Update vectorial force */
1670             fix2             = _mm_add_pd(fix2,tx);
1671             fiy2             = _mm_add_pd(fiy2,ty);
1672             fiz2             = _mm_add_pd(fiz2,tz);
1673
1674             fjx2             = _mm_add_pd(fjx2,tx);
1675             fjy2             = _mm_add_pd(fjy2,ty);
1676             fjz2             = _mm_add_pd(fjz2,tz);
1677
1678             gmx_mm_decrement_3rvec_1ptr_swizzle_pd(f+j_coord_offsetA,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1679
1680             /* Inner loop uses 250 flops */
1681         }
1682
1683         /* End of innermost loop */
1684
1685         gmx_mm_update_iforce_3atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1686                                               f+i_coord_offset,fshift+i_shift_offset);
1687
1688         /* Increment number of inner iterations */
1689         inneriter                  += j_index_end - j_index_start;
1690
1691         /* Outer loop uses 18 flops */
1692     }
1693
1694     /* Increment number of outer iterations */
1695     outeriter        += nri;
1696
1697     /* Update outer/inner flops */
1698
1699     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W3W3_F,outeriter*18 + inneriter*250);
1700 }