src/gromacs/gmxlib/nonbonded/nb_kernel_sse2_double/nb_kernel_ElecEwSh_VdwNone_GeomW3W3_sse2_double.c

   1 /*
   2  * This file is part of the GROMACS molecular simulation package.
   3  *
   4  * Copyright (c) 2012,2013,2014,2015,2017, by the GROMACS development team, led by
   5  * Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
   6  * and including many others, as listed in the AUTHORS file in the
   7  * top-level source directory and at http://www.gromacs.org.
   8  *
   9  * GROMACS is free software; you can redistribute it and/or
  10  * modify it under the terms of the GNU Lesser General Public License
  11  * as published by the Free Software Foundation; either version 2.1
  12  * of the License, or (at your option) any later version.
  13  *
  14  * GROMACS is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17  * Lesser General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU Lesser General Public
  20  * License along with GROMACS; if not, see
  21  * http://www.gnu.org/licenses, or write to the Free Software Foundation,
  22  * Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA.
  23  *
  24  * If you want to redistribute modifications to GROMACS, please
  25  * consider that scientific software is very special. Version
  26  * control is crucial - bugs must be traceable. We will be happy to
  27  * consider code for inclusion in the official distribution, but
  28  * derived work must not be called official GROMACS. Details are found
  29  * in the README & COPYING files - if they are missing, get the
  30  * official version at http://www.gromacs.org.
  31  *
  32  * To help us fund GROMACS development, we humbly ask that you cite
  33  * the research papers on the package. Check out http://www.gromacs.org.
  34  */
  35 /*
  36  * Note: this file was generated by the GROMACS sse2_double kernel generator.
  37  */
  38 #include "gmxpre.h"
  39
  40 #include "config.h"
  41
  42 #include <math.h>
  43
  44 #include "../nb_kernel.h"
  45 #include "gromacs/gmxlib/nrnb.h"
  46
  47 #include "kernelutil_x86_sse2_double.h"
  48
  49 /*
  50  * Gromacs nonbonded kernel:   nb_kernel_ElecEwSh_VdwNone_GeomW3W3_VF_sse2_double
  51  * Electrostatics interaction: Ewald
  52  * VdW interaction:            None
  53  * Geometry:                   Water3-Water3
  54  * Calculate force/pot:        PotentialAndForce
  55  */
  56 void
  57 nb_kernel_ElecEwSh_VdwNone_GeomW3W3_VF_sse2_double
  58                     (t_nblist                    * gmx_restrict       nlist,
  59                      rvec                        * gmx_restrict          xx,
  60                      rvec                        * gmx_restrict          ff,
  61                      struct t_forcerec           * gmx_restrict          fr,
  62                      t_mdatoms                   * gmx_restrict     mdatoms,
  63                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
  64                      t_nrnb                      * gmx_restrict        nrnb)
  65 {
  66     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  67      * just 0 for non-waters.
  68      * Suffixes A,B refer to j loop unrolling done with SSE double precision, e.g. for the two different
  69      * jnr indices corresponding to data put in the four positions in the SIMD register.
  70      */
  71     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  72     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  73     int              jnrA,jnrB;
  74     int              j_coord_offsetA,j_coord_offsetB;
  75     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  76     real             rcutoff_scalar;
  77     real             *shiftvec,*fshift,*x,*f;
  78     __m128d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  79     int              vdwioffset0;
  80     __m128d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
  81     int              vdwioffset1;
  82     __m128d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  83     int              vdwioffset2;
  84     __m128d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  85     int              vdwjidx0A,vdwjidx0B;
  86     __m128d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  87     int              vdwjidx1A,vdwjidx1B;
  88     __m128d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
  89     int              vdwjidx2A,vdwjidx2B;
  90     __m128d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
  91     __m128d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
  92     __m128d          dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
  93     __m128d          dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
  94     __m128d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
  95     __m128d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
  96     __m128d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
  97     __m128d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
  98     __m128d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
  99     __m128d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 100     __m128d          velec,felec,velecsum,facel,crf,krf,krf2;
 101     real             *charge;
 102     __m128i          ewitab;
 103     __m128d          ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
 104     real             *ewtab;
 105     __m128d          dummy_mask,cutoff_mask;
 106     __m128d          signbit   = gmx_mm_castsi128_pd( _mm_set_epi32(0x80000000,0x00000000,0x80000000,0x00000000) );
 107     __m128d          one     = _mm_set1_pd(1.0);
 108     __m128d          two     = _mm_set1_pd(2.0);
 109     x                = xx[0];
 110     f                = ff[0];
 111
 112     nri              = nlist->nri;
 113     iinr             = nlist->iinr;
 114     jindex           = nlist->jindex;
 115     jjnr             = nlist->jjnr;
 116     shiftidx         = nlist->shift;
 117     gid              = nlist->gid;
 118     shiftvec         = fr->shift_vec[0];
 119     fshift           = fr->fshift[0];
 120     facel            = _mm_set1_pd(fr->ic->epsfac);
 121     charge           = mdatoms->chargeA;
 122
 123     sh_ewald         = _mm_set1_pd(fr->ic->sh_ewald);
 124     ewtab            = fr->ic->tabq_coul_FDV0;
 125     ewtabscale       = _mm_set1_pd(fr->ic->tabq_scale);
 126     ewtabhalfspace   = _mm_set1_pd(0.5/fr->ic->tabq_scale);
 127
 128     /* Setup water-specific parameters */
 129     inr              = nlist->iinr[0];
 130     iq0              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+0]));
 131     iq1              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+1]));
 132     iq2              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+2]));
 133
 134     jq0              = _mm_set1_pd(charge[inr+0]);
 135     jq1              = _mm_set1_pd(charge[inr+1]);
 136     jq2              = _mm_set1_pd(charge[inr+2]);
 137     qq00             = _mm_mul_pd(iq0,jq0);
 138     qq01             = _mm_mul_pd(iq0,jq1);
 139     qq02             = _mm_mul_pd(iq0,jq2);
 140     qq10             = _mm_mul_pd(iq1,jq0);
 141     qq11             = _mm_mul_pd(iq1,jq1);
 142     qq12             = _mm_mul_pd(iq1,jq2);
 143     qq20             = _mm_mul_pd(iq2,jq0);
 144     qq21             = _mm_mul_pd(iq2,jq1);
 145     qq22             = _mm_mul_pd(iq2,jq2);
 146
 147     /* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
 148     rcutoff_scalar   = fr->ic->rcoulomb;
 149     rcutoff          = _mm_set1_pd(rcutoff_scalar);
 150     rcutoff2         = _mm_mul_pd(rcutoff,rcutoff);
 151
 152     /* Avoid stupid compiler warnings */
 153     jnrA = jnrB = 0;
 154     j_coord_offsetA = 0;
 155     j_coord_offsetB = 0;
 156
 157     outeriter        = 0;
 158     inneriter        = 0;
 159
 160     /* Start outer loop over neighborlists */
 161     for(iidx=0; iidx<nri; iidx++)
 162     {
 163         /* Load shift vector for this list */
 164         i_shift_offset   = DIM*shiftidx[iidx];
 165
 166         /* Load limits for loop over neighbors */
 167         j_index_start    = jindex[iidx];
 168         j_index_end      = jindex[iidx+1];
 169
 170         /* Get outer coordinate index */
 171         inr              = iinr[iidx];
 172         i_coord_offset   = DIM*inr;
 173
 174         /* Load i particle coords and add shift vector */
 175         gmx_mm_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
 176                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
 177
 178         fix0             = _mm_setzero_pd();
 179         fiy0             = _mm_setzero_pd();
 180         fiz0             = _mm_setzero_pd();
 181         fix1             = _mm_setzero_pd();
 182         fiy1             = _mm_setzero_pd();
 183         fiz1             = _mm_setzero_pd();
 184         fix2             = _mm_setzero_pd();
 185         fiy2             = _mm_setzero_pd();
 186         fiz2             = _mm_setzero_pd();
 187
 188         /* Reset potential sums */
 189         velecsum         = _mm_setzero_pd();
 190
 191         /* Start inner kernel loop */
 192         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
 193         {
 194
 195             /* Get j neighbor index, and coordinate index */
 196             jnrA             = jjnr[jidx];
 197             jnrB             = jjnr[jidx+1];
 198             j_coord_offsetA  = DIM*jnrA;
 199             j_coord_offsetB  = DIM*jnrB;
 200
 201             /* load j atom coordinates */
 202             gmx_mm_load_3rvec_2ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 203                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
 204
 205             /* Calculate displacement vector */
 206             dx00             = _mm_sub_pd(ix0,jx0);
 207             dy00             = _mm_sub_pd(iy0,jy0);
 208             dz00             = _mm_sub_pd(iz0,jz0);
 209             dx01             = _mm_sub_pd(ix0,jx1);
 210             dy01             = _mm_sub_pd(iy0,jy1);
 211             dz01             = _mm_sub_pd(iz0,jz1);
 212             dx02             = _mm_sub_pd(ix0,jx2);
 213             dy02             = _mm_sub_pd(iy0,jy2);
 214             dz02             = _mm_sub_pd(iz0,jz2);
 215             dx10             = _mm_sub_pd(ix1,jx0);
 216             dy10             = _mm_sub_pd(iy1,jy0);
 217             dz10             = _mm_sub_pd(iz1,jz0);
 218             dx11             = _mm_sub_pd(ix1,jx1);
 219             dy11             = _mm_sub_pd(iy1,jy1);
 220             dz11             = _mm_sub_pd(iz1,jz1);
 221             dx12             = _mm_sub_pd(ix1,jx2);
 222             dy12             = _mm_sub_pd(iy1,jy2);
 223             dz12             = _mm_sub_pd(iz1,jz2);
 224             dx20             = _mm_sub_pd(ix2,jx0);
 225             dy20             = _mm_sub_pd(iy2,jy0);
 226             dz20             = _mm_sub_pd(iz2,jz0);
 227             dx21             = _mm_sub_pd(ix2,jx1);
 228             dy21             = _mm_sub_pd(iy2,jy1);
 229             dz21             = _mm_sub_pd(iz2,jz1);
 230             dx22             = _mm_sub_pd(ix2,jx2);
 231             dy22             = _mm_sub_pd(iy2,jy2);
 232             dz22             = _mm_sub_pd(iz2,jz2);
 233
 234             /* Calculate squared distance and things based on it */
 235             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
 236             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
 237             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
 238             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
 239             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
 240             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
 241             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
 242             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
 243             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
 244
 245             rinv00           = sse2_invsqrt_d(rsq00);
 246             rinv01           = sse2_invsqrt_d(rsq01);
 247             rinv02           = sse2_invsqrt_d(rsq02);
 248             rinv10           = sse2_invsqrt_d(rsq10);
 249             rinv11           = sse2_invsqrt_d(rsq11);
 250             rinv12           = sse2_invsqrt_d(rsq12);
 251             rinv20           = sse2_invsqrt_d(rsq20);
 252             rinv21           = sse2_invsqrt_d(rsq21);
 253             rinv22           = sse2_invsqrt_d(rsq22);
 254
 255             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
 256             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
 257             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
 258             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
 259             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
 260             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
 261             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
 262             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
 263             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
 264
 265             fjx0             = _mm_setzero_pd();
 266             fjy0             = _mm_setzero_pd();
 267             fjz0             = _mm_setzero_pd();
 268             fjx1             = _mm_setzero_pd();
 269             fjy1             = _mm_setzero_pd();
 270             fjz1             = _mm_setzero_pd();
 271             fjx2             = _mm_setzero_pd();
 272             fjy2             = _mm_setzero_pd();
 273             fjz2             = _mm_setzero_pd();
 274
 275             /**************************
 276              * CALCULATE INTERACTIONS *
 277              **************************/
 278
 279             if (gmx_mm_any_lt(rsq00,rcutoff2))
 280             {
 281
 282             r00              = _mm_mul_pd(rsq00,rinv00);
 283
 284             /* EWALD ELECTROSTATICS */
 285
 286             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 287             ewrt             = _mm_mul_pd(r00,ewtabscale);
 288             ewitab           = _mm_cvttpd_epi32(ewrt);
 289             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 290             ewitab           = _mm_slli_epi32(ewitab,2);
 291             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 292             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 293             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 294             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 295             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 296             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 297             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 298             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 299             velec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_sub_pd(rinv00,sh_ewald),velec));
 300             felec            = _mm_mul_pd(_mm_mul_pd(qq00,rinv00),_mm_sub_pd(rinvsq00,felec));
 301
 302             cutoff_mask      = _mm_cmplt_pd(rsq00,rcutoff2);
 303
 304             /* Update potential sum for this i atom from the interaction with this j atom. */
 305             velec            = _mm_and_pd(velec,cutoff_mask);
 306             velecsum         = _mm_add_pd(velecsum,velec);
 307
 308             fscal            = felec;
 309
 310             fscal            = _mm_and_pd(fscal,cutoff_mask);
 311
 312             /* Calculate temporary vectorial force */
 313             tx               = _mm_mul_pd(fscal,dx00);
 314             ty               = _mm_mul_pd(fscal,dy00);
 315             tz               = _mm_mul_pd(fscal,dz00);
 316
 317             /* Update vectorial force */
 318             fix0             = _mm_add_pd(fix0,tx);
 319             fiy0             = _mm_add_pd(fiy0,ty);
 320             fiz0             = _mm_add_pd(fiz0,tz);
 321
 322             fjx0             = _mm_add_pd(fjx0,tx);
 323             fjy0             = _mm_add_pd(fjy0,ty);
 324             fjz0             = _mm_add_pd(fjz0,tz);
 325
 326             }
 327
 328             /**************************
 329              * CALCULATE INTERACTIONS *
 330              **************************/
 331
 332             if (gmx_mm_any_lt(rsq01,rcutoff2))
 333             {
 334
 335             r01              = _mm_mul_pd(rsq01,rinv01);
 336
 337             /* EWALD ELECTROSTATICS */
 338
 339             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 340             ewrt             = _mm_mul_pd(r01,ewtabscale);
 341             ewitab           = _mm_cvttpd_epi32(ewrt);
 342             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 343             ewitab           = _mm_slli_epi32(ewitab,2);
 344             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 345             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 346             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 347             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 348             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 349             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 350             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 351             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 352             velec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_sub_pd(rinv01,sh_ewald),velec));
 353             felec            = _mm_mul_pd(_mm_mul_pd(qq01,rinv01),_mm_sub_pd(rinvsq01,felec));
 354
 355             cutoff_mask      = _mm_cmplt_pd(rsq01,rcutoff2);
 356
 357             /* Update potential sum for this i atom from the interaction with this j atom. */
 358             velec            = _mm_and_pd(velec,cutoff_mask);
 359             velecsum         = _mm_add_pd(velecsum,velec);
 360
 361             fscal            = felec;
 362
 363             fscal            = _mm_and_pd(fscal,cutoff_mask);
 364
 365             /* Calculate temporary vectorial force */
 366             tx               = _mm_mul_pd(fscal,dx01);
 367             ty               = _mm_mul_pd(fscal,dy01);
 368             tz               = _mm_mul_pd(fscal,dz01);
 369
 370             /* Update vectorial force */
 371             fix0             = _mm_add_pd(fix0,tx);
 372             fiy0             = _mm_add_pd(fiy0,ty);
 373             fiz0             = _mm_add_pd(fiz0,tz);
 374
 375             fjx1             = _mm_add_pd(fjx1,tx);
 376             fjy1             = _mm_add_pd(fjy1,ty);
 377             fjz1             = _mm_add_pd(fjz1,tz);
 378
 379             }
 380
 381             /**************************
 382              * CALCULATE INTERACTIONS *
 383              **************************/
 384
 385             if (gmx_mm_any_lt(rsq02,rcutoff2))
 386             {
 387
 388             r02              = _mm_mul_pd(rsq02,rinv02);
 389
 390             /* EWALD ELECTROSTATICS */
 391
 392             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 393             ewrt             = _mm_mul_pd(r02,ewtabscale);
 394             ewitab           = _mm_cvttpd_epi32(ewrt);
 395             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 396             ewitab           = _mm_slli_epi32(ewitab,2);
 397             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 398             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 399             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 400             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 401             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 402             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 403             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 404             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 405             velec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_sub_pd(rinv02,sh_ewald),velec));
 406             felec            = _mm_mul_pd(_mm_mul_pd(qq02,rinv02),_mm_sub_pd(rinvsq02,felec));
 407
 408             cutoff_mask      = _mm_cmplt_pd(rsq02,rcutoff2);
 409
 410             /* Update potential sum for this i atom from the interaction with this j atom. */
 411             velec            = _mm_and_pd(velec,cutoff_mask);
 412             velecsum         = _mm_add_pd(velecsum,velec);
 413
 414             fscal            = felec;
 415
 416             fscal            = _mm_and_pd(fscal,cutoff_mask);
 417
 418             /* Calculate temporary vectorial force */
 419             tx               = _mm_mul_pd(fscal,dx02);
 420             ty               = _mm_mul_pd(fscal,dy02);
 421             tz               = _mm_mul_pd(fscal,dz02);
 422
 423             /* Update vectorial force */
 424             fix0             = _mm_add_pd(fix0,tx);
 425             fiy0             = _mm_add_pd(fiy0,ty);
 426             fiz0             = _mm_add_pd(fiz0,tz);
 427
 428             fjx2             = _mm_add_pd(fjx2,tx);
 429             fjy2             = _mm_add_pd(fjy2,ty);
 430             fjz2             = _mm_add_pd(fjz2,tz);
 431
 432             }
 433
 434             /**************************
 435              * CALCULATE INTERACTIONS *
 436              **************************/
 437
 438             if (gmx_mm_any_lt(rsq10,rcutoff2))
 439             {
 440
 441             r10              = _mm_mul_pd(rsq10,rinv10);
 442
 443             /* EWALD ELECTROSTATICS */
 444
 445             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 446             ewrt             = _mm_mul_pd(r10,ewtabscale);
 447             ewitab           = _mm_cvttpd_epi32(ewrt);
 448             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 449             ewitab           = _mm_slli_epi32(ewitab,2);
 450             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 451             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 452             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 453             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 454             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 455             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 456             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 457             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 458             velec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_sub_pd(rinv10,sh_ewald),velec));
 459             felec            = _mm_mul_pd(_mm_mul_pd(qq10,rinv10),_mm_sub_pd(rinvsq10,felec));
 460
 461             cutoff_mask      = _mm_cmplt_pd(rsq10,rcutoff2);
 462
 463             /* Update potential sum for this i atom from the interaction with this j atom. */
 464             velec            = _mm_and_pd(velec,cutoff_mask);
 465             velecsum         = _mm_add_pd(velecsum,velec);
 466
 467             fscal            = felec;
 468
 469             fscal            = _mm_and_pd(fscal,cutoff_mask);
 470
 471             /* Calculate temporary vectorial force */
 472             tx               = _mm_mul_pd(fscal,dx10);
 473             ty               = _mm_mul_pd(fscal,dy10);
 474             tz               = _mm_mul_pd(fscal,dz10);
 475
 476             /* Update vectorial force */
 477             fix1             = _mm_add_pd(fix1,tx);
 478             fiy1             = _mm_add_pd(fiy1,ty);
 479             fiz1             = _mm_add_pd(fiz1,tz);
 480
 481             fjx0             = _mm_add_pd(fjx0,tx);
 482             fjy0             = _mm_add_pd(fjy0,ty);
 483             fjz0             = _mm_add_pd(fjz0,tz);
 484
 485             }
 486
 487             /**************************
 488              * CALCULATE INTERACTIONS *
 489              **************************/
 490
 491             if (gmx_mm_any_lt(rsq11,rcutoff2))
 492             {
 493
 494             r11              = _mm_mul_pd(rsq11,rinv11);
 495
 496             /* EWALD ELECTROSTATICS */
 497
 498             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 499             ewrt             = _mm_mul_pd(r11,ewtabscale);
 500             ewitab           = _mm_cvttpd_epi32(ewrt);
 501             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 502             ewitab           = _mm_slli_epi32(ewitab,2);
 503             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 504             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 505             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 506             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 507             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 508             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 509             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 510             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 511             velec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_sub_pd(rinv11,sh_ewald),velec));
 512             felec            = _mm_mul_pd(_mm_mul_pd(qq11,rinv11),_mm_sub_pd(rinvsq11,felec));
 513
 514             cutoff_mask      = _mm_cmplt_pd(rsq11,rcutoff2);
 515
 516             /* Update potential sum for this i atom from the interaction with this j atom. */
 517             velec            = _mm_and_pd(velec,cutoff_mask);
 518             velecsum         = _mm_add_pd(velecsum,velec);
 519
 520             fscal            = felec;
 521
 522             fscal            = _mm_and_pd(fscal,cutoff_mask);
 523
 524             /* Calculate temporary vectorial force */
 525             tx               = _mm_mul_pd(fscal,dx11);
 526             ty               = _mm_mul_pd(fscal,dy11);
 527             tz               = _mm_mul_pd(fscal,dz11);
 528
 529             /* Update vectorial force */
 530             fix1             = _mm_add_pd(fix1,tx);
 531             fiy1             = _mm_add_pd(fiy1,ty);
 532             fiz1             = _mm_add_pd(fiz1,tz);
 533
 534             fjx1             = _mm_add_pd(fjx1,tx);
 535             fjy1             = _mm_add_pd(fjy1,ty);
 536             fjz1             = _mm_add_pd(fjz1,tz);
 537
 538             }
 539
 540             /**************************
 541              * CALCULATE INTERACTIONS *
 542              **************************/
 543
 544             if (gmx_mm_any_lt(rsq12,rcutoff2))
 545             {
 546
 547             r12              = _mm_mul_pd(rsq12,rinv12);
 548
 549             /* EWALD ELECTROSTATICS */
 550
 551             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 552             ewrt             = _mm_mul_pd(r12,ewtabscale);
 553             ewitab           = _mm_cvttpd_epi32(ewrt);
 554             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 555             ewitab           = _mm_slli_epi32(ewitab,2);
 556             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 557             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 558             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 559             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 560             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 561             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 562             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 563             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 564             velec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_sub_pd(rinv12,sh_ewald),velec));
 565             felec            = _mm_mul_pd(_mm_mul_pd(qq12,rinv12),_mm_sub_pd(rinvsq12,felec));
 566
 567             cutoff_mask      = _mm_cmplt_pd(rsq12,rcutoff2);
 568
 569             /* Update potential sum for this i atom from the interaction with this j atom. */
 570             velec            = _mm_and_pd(velec,cutoff_mask);
 571             velecsum         = _mm_add_pd(velecsum,velec);
 572
 573             fscal            = felec;
 574
 575             fscal            = _mm_and_pd(fscal,cutoff_mask);
 576
 577             /* Calculate temporary vectorial force */
 578             tx               = _mm_mul_pd(fscal,dx12);
 579             ty               = _mm_mul_pd(fscal,dy12);
 580             tz               = _mm_mul_pd(fscal,dz12);
 581
 582             /* Update vectorial force */
 583             fix1             = _mm_add_pd(fix1,tx);
 584             fiy1             = _mm_add_pd(fiy1,ty);
 585             fiz1             = _mm_add_pd(fiz1,tz);
 586
 587             fjx2             = _mm_add_pd(fjx2,tx);
 588             fjy2             = _mm_add_pd(fjy2,ty);
 589             fjz2             = _mm_add_pd(fjz2,tz);
 590
 591             }
 592
 593             /**************************
 594              * CALCULATE INTERACTIONS *
 595              **************************/
 596
 597             if (gmx_mm_any_lt(rsq20,rcutoff2))
 598             {
 599
 600             r20              = _mm_mul_pd(rsq20,rinv20);
 601
 602             /* EWALD ELECTROSTATICS */
 603
 604             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 605             ewrt             = _mm_mul_pd(r20,ewtabscale);
 606             ewitab           = _mm_cvttpd_epi32(ewrt);
 607             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 608             ewitab           = _mm_slli_epi32(ewitab,2);
 609             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 610             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 611             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 612             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 613             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 614             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 615             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 616             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 617             velec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_sub_pd(rinv20,sh_ewald),velec));
 618             felec            = _mm_mul_pd(_mm_mul_pd(qq20,rinv20),_mm_sub_pd(rinvsq20,felec));
 619
 620             cutoff_mask      = _mm_cmplt_pd(rsq20,rcutoff2);
 621
 622             /* Update potential sum for this i atom from the interaction with this j atom. */
 623             velec            = _mm_and_pd(velec,cutoff_mask);
 624             velecsum         = _mm_add_pd(velecsum,velec);
 625
 626             fscal            = felec;
 627
 628             fscal            = _mm_and_pd(fscal,cutoff_mask);
 629
 630             /* Calculate temporary vectorial force */
 631             tx               = _mm_mul_pd(fscal,dx20);
 632             ty               = _mm_mul_pd(fscal,dy20);
 633             tz               = _mm_mul_pd(fscal,dz20);
 634
 635             /* Update vectorial force */
 636             fix2             = _mm_add_pd(fix2,tx);
 637             fiy2             = _mm_add_pd(fiy2,ty);
 638             fiz2             = _mm_add_pd(fiz2,tz);
 639
 640             fjx0             = _mm_add_pd(fjx0,tx);
 641             fjy0             = _mm_add_pd(fjy0,ty);
 642             fjz0             = _mm_add_pd(fjz0,tz);
 643
 644             }
 645
 646             /**************************
 647              * CALCULATE INTERACTIONS *
 648              **************************/
 649
 650             if (gmx_mm_any_lt(rsq21,rcutoff2))
 651             {
 652
 653             r21              = _mm_mul_pd(rsq21,rinv21);
 654
 655             /* EWALD ELECTROSTATICS */
 656
 657             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 658             ewrt             = _mm_mul_pd(r21,ewtabscale);
 659             ewitab           = _mm_cvttpd_epi32(ewrt);
 660             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 661             ewitab           = _mm_slli_epi32(ewitab,2);
 662             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 663             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 664             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 665             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 666             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 667             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 668             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 669             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 670             velec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_sub_pd(rinv21,sh_ewald),velec));
 671             felec            = _mm_mul_pd(_mm_mul_pd(qq21,rinv21),_mm_sub_pd(rinvsq21,felec));
 672
 673             cutoff_mask      = _mm_cmplt_pd(rsq21,rcutoff2);
 674
 675             /* Update potential sum for this i atom from the interaction with this j atom. */
 676             velec            = _mm_and_pd(velec,cutoff_mask);
 677             velecsum         = _mm_add_pd(velecsum,velec);
 678
 679             fscal            = felec;
 680
 681             fscal            = _mm_and_pd(fscal,cutoff_mask);
 682
 683             /* Calculate temporary vectorial force */
 684             tx               = _mm_mul_pd(fscal,dx21);
 685             ty               = _mm_mul_pd(fscal,dy21);
 686             tz               = _mm_mul_pd(fscal,dz21);
 687
 688             /* Update vectorial force */
 689             fix2             = _mm_add_pd(fix2,tx);
 690             fiy2             = _mm_add_pd(fiy2,ty);
 691             fiz2             = _mm_add_pd(fiz2,tz);
 692
 693             fjx1             = _mm_add_pd(fjx1,tx);
 694             fjy1             = _mm_add_pd(fjy1,ty);
 695             fjz1             = _mm_add_pd(fjz1,tz);
 696
 697             }
 698
 699             /**************************
 700              * CALCULATE INTERACTIONS *
 701              **************************/
 702
 703             if (gmx_mm_any_lt(rsq22,rcutoff2))
 704             {
 705
 706             r22              = _mm_mul_pd(rsq22,rinv22);
 707
 708             /* EWALD ELECTROSTATICS */
 709
 710             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 711             ewrt             = _mm_mul_pd(r22,ewtabscale);
 712             ewitab           = _mm_cvttpd_epi32(ewrt);
 713             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 714             ewitab           = _mm_slli_epi32(ewitab,2);
 715             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 716             ewtabD           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,1) );
 717             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 718             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 719             ewtabFn          = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,1) +2);
 720             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 721             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 722             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 723             velec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_sub_pd(rinv22,sh_ewald),velec));
 724             felec            = _mm_mul_pd(_mm_mul_pd(qq22,rinv22),_mm_sub_pd(rinvsq22,felec));
 725
 726             cutoff_mask      = _mm_cmplt_pd(rsq22,rcutoff2);
 727
 728             /* Update potential sum for this i atom from the interaction with this j atom. */
 729             velec            = _mm_and_pd(velec,cutoff_mask);
 730             velecsum         = _mm_add_pd(velecsum,velec);
 731
 732             fscal            = felec;
 733
 734             fscal            = _mm_and_pd(fscal,cutoff_mask);
 735
 736             /* Calculate temporary vectorial force */
 737             tx               = _mm_mul_pd(fscal,dx22);
 738             ty               = _mm_mul_pd(fscal,dy22);
 739             tz               = _mm_mul_pd(fscal,dz22);
 740
 741             /* Update vectorial force */
 742             fix2             = _mm_add_pd(fix2,tx);
 743             fiy2             = _mm_add_pd(fiy2,ty);
 744             fiz2             = _mm_add_pd(fiz2,tz);
 745
 746             fjx2             = _mm_add_pd(fjx2,tx);
 747             fjy2             = _mm_add_pd(fjy2,ty);
 748             fjz2             = _mm_add_pd(fjz2,tz);
 749
 750             }
 751
 752             gmx_mm_decrement_3rvec_2ptr_swizzle_pd(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
 753
 754             /* Inner loop uses 414 flops */
 755         }
 756
 757         if(jidx<j_index_end)
 758         {
 759
 760             jnrA             = jjnr[jidx];
 761             j_coord_offsetA  = DIM*jnrA;
 762
 763             /* load j atom coordinates */
 764             gmx_mm_load_3rvec_1ptr_swizzle_pd(x+j_coord_offsetA,
 765                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
 766
 767             /* Calculate displacement vector */
 768             dx00             = _mm_sub_pd(ix0,jx0);
 769             dy00             = _mm_sub_pd(iy0,jy0);
 770             dz00             = _mm_sub_pd(iz0,jz0);
 771             dx01             = _mm_sub_pd(ix0,jx1);
 772             dy01             = _mm_sub_pd(iy0,jy1);
 773             dz01             = _mm_sub_pd(iz0,jz1);
 774             dx02             = _mm_sub_pd(ix0,jx2);
 775             dy02             = _mm_sub_pd(iy0,jy2);
 776             dz02             = _mm_sub_pd(iz0,jz2);
 777             dx10             = _mm_sub_pd(ix1,jx0);
 778             dy10             = _mm_sub_pd(iy1,jy0);
 779             dz10             = _mm_sub_pd(iz1,jz0);
 780             dx11             = _mm_sub_pd(ix1,jx1);
 781             dy11             = _mm_sub_pd(iy1,jy1);
 782             dz11             = _mm_sub_pd(iz1,jz1);
 783             dx12             = _mm_sub_pd(ix1,jx2);
 784             dy12             = _mm_sub_pd(iy1,jy2);
 785             dz12             = _mm_sub_pd(iz1,jz2);
 786             dx20             = _mm_sub_pd(ix2,jx0);
 787             dy20             = _mm_sub_pd(iy2,jy0);
 788             dz20             = _mm_sub_pd(iz2,jz0);
 789             dx21             = _mm_sub_pd(ix2,jx1);
 790             dy21             = _mm_sub_pd(iy2,jy1);
 791             dz21             = _mm_sub_pd(iz2,jz1);
 792             dx22             = _mm_sub_pd(ix2,jx2);
 793             dy22             = _mm_sub_pd(iy2,jy2);
 794             dz22             = _mm_sub_pd(iz2,jz2);
 795
 796             /* Calculate squared distance and things based on it */
 797             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
 798             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
 799             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
 800             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
 801             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
 802             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
 803             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
 804             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
 805             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
 806
 807             rinv00           = sse2_invsqrt_d(rsq00);
 808             rinv01           = sse2_invsqrt_d(rsq01);
 809             rinv02           = sse2_invsqrt_d(rsq02);
 810             rinv10           = sse2_invsqrt_d(rsq10);
 811             rinv11           = sse2_invsqrt_d(rsq11);
 812             rinv12           = sse2_invsqrt_d(rsq12);
 813             rinv20           = sse2_invsqrt_d(rsq20);
 814             rinv21           = sse2_invsqrt_d(rsq21);
 815             rinv22           = sse2_invsqrt_d(rsq22);
 816
 817             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
 818             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
 819             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
 820             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
 821             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
 822             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
 823             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
 824             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
 825             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
 826
 827             fjx0             = _mm_setzero_pd();
 828             fjy0             = _mm_setzero_pd();
 829             fjz0             = _mm_setzero_pd();
 830             fjx1             = _mm_setzero_pd();
 831             fjy1             = _mm_setzero_pd();
 832             fjz1             = _mm_setzero_pd();
 833             fjx2             = _mm_setzero_pd();
 834             fjy2             = _mm_setzero_pd();
 835             fjz2             = _mm_setzero_pd();
 836
 837             /**************************
 838              * CALCULATE INTERACTIONS *
 839              **************************/
 840
 841             if (gmx_mm_any_lt(rsq00,rcutoff2))
 842             {
 843
 844             r00              = _mm_mul_pd(rsq00,rinv00);
 845
 846             /* EWALD ELECTROSTATICS */
 847
 848             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 849             ewrt             = _mm_mul_pd(r00,ewtabscale);
 850             ewitab           = _mm_cvttpd_epi32(ewrt);
 851             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 852             ewitab           = _mm_slli_epi32(ewitab,2);
 853             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 854             ewtabD           = _mm_setzero_pd();
 855             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 856             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 857             ewtabFn          = _mm_setzero_pd();
 858             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 859             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 860             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 861             velec            = _mm_mul_pd(qq00,_mm_sub_pd(_mm_sub_pd(rinv00,sh_ewald),velec));
 862             felec            = _mm_mul_pd(_mm_mul_pd(qq00,rinv00),_mm_sub_pd(rinvsq00,felec));
 863
 864             cutoff_mask      = _mm_cmplt_pd(rsq00,rcutoff2);
 865
 866             /* Update potential sum for this i atom from the interaction with this j atom. */
 867             velec            = _mm_and_pd(velec,cutoff_mask);
 868             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 869             velecsum         = _mm_add_pd(velecsum,velec);
 870
 871             fscal            = felec;
 872
 873             fscal            = _mm_and_pd(fscal,cutoff_mask);
 874
 875             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 876
 877             /* Calculate temporary vectorial force */
 878             tx               = _mm_mul_pd(fscal,dx00);
 879             ty               = _mm_mul_pd(fscal,dy00);
 880             tz               = _mm_mul_pd(fscal,dz00);
 881
 882             /* Update vectorial force */
 883             fix0             = _mm_add_pd(fix0,tx);
 884             fiy0             = _mm_add_pd(fiy0,ty);
 885             fiz0             = _mm_add_pd(fiz0,tz);
 886
 887             fjx0             = _mm_add_pd(fjx0,tx);
 888             fjy0             = _mm_add_pd(fjy0,ty);
 889             fjz0             = _mm_add_pd(fjz0,tz);
 890
 891             }
 892
 893             /**************************
 894              * CALCULATE INTERACTIONS *
 895              **************************/
 896
 897             if (gmx_mm_any_lt(rsq01,rcutoff2))
 898             {
 899
 900             r01              = _mm_mul_pd(rsq01,rinv01);
 901
 902             /* EWALD ELECTROSTATICS */
 903
 904             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 905             ewrt             = _mm_mul_pd(r01,ewtabscale);
 906             ewitab           = _mm_cvttpd_epi32(ewrt);
 907             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 908             ewitab           = _mm_slli_epi32(ewitab,2);
 909             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 910             ewtabD           = _mm_setzero_pd();
 911             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 912             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 913             ewtabFn          = _mm_setzero_pd();
 914             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 915             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 916             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 917             velec            = _mm_mul_pd(qq01,_mm_sub_pd(_mm_sub_pd(rinv01,sh_ewald),velec));
 918             felec            = _mm_mul_pd(_mm_mul_pd(qq01,rinv01),_mm_sub_pd(rinvsq01,felec));
 919
 920             cutoff_mask      = _mm_cmplt_pd(rsq01,rcutoff2);
 921
 922             /* Update potential sum for this i atom from the interaction with this j atom. */
 923             velec            = _mm_and_pd(velec,cutoff_mask);
 924             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 925             velecsum         = _mm_add_pd(velecsum,velec);
 926
 927             fscal            = felec;
 928
 929             fscal            = _mm_and_pd(fscal,cutoff_mask);
 930
 931             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 932
 933             /* Calculate temporary vectorial force */
 934             tx               = _mm_mul_pd(fscal,dx01);
 935             ty               = _mm_mul_pd(fscal,dy01);
 936             tz               = _mm_mul_pd(fscal,dz01);
 937
 938             /* Update vectorial force */
 939             fix0             = _mm_add_pd(fix0,tx);
 940             fiy0             = _mm_add_pd(fiy0,ty);
 941             fiz0             = _mm_add_pd(fiz0,tz);
 942
 943             fjx1             = _mm_add_pd(fjx1,tx);
 944             fjy1             = _mm_add_pd(fjy1,ty);
 945             fjz1             = _mm_add_pd(fjz1,tz);
 946
 947             }
 948
 949             /**************************
 950              * CALCULATE INTERACTIONS *
 951              **************************/
 952
 953             if (gmx_mm_any_lt(rsq02,rcutoff2))
 954             {
 955
 956             r02              = _mm_mul_pd(rsq02,rinv02);
 957
 958             /* EWALD ELECTROSTATICS */
 959
 960             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 961             ewrt             = _mm_mul_pd(r02,ewtabscale);
 962             ewitab           = _mm_cvttpd_epi32(ewrt);
 963             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
 964             ewitab           = _mm_slli_epi32(ewitab,2);
 965             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
 966             ewtabD           = _mm_setzero_pd();
 967             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
 968             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
 969             ewtabFn          = _mm_setzero_pd();
 970             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
 971             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
 972             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
 973             velec            = _mm_mul_pd(qq02,_mm_sub_pd(_mm_sub_pd(rinv02,sh_ewald),velec));
 974             felec            = _mm_mul_pd(_mm_mul_pd(qq02,rinv02),_mm_sub_pd(rinvsq02,felec));
 975
 976             cutoff_mask      = _mm_cmplt_pd(rsq02,rcutoff2);
 977
 978             /* Update potential sum for this i atom from the interaction with this j atom. */
 979             velec            = _mm_and_pd(velec,cutoff_mask);
 980             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
 981             velecsum         = _mm_add_pd(velecsum,velec);
 982
 983             fscal            = felec;
 984
 985             fscal            = _mm_and_pd(fscal,cutoff_mask);
 986
 987             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
 988
 989             /* Calculate temporary vectorial force */
 990             tx               = _mm_mul_pd(fscal,dx02);
 991             ty               = _mm_mul_pd(fscal,dy02);
 992             tz               = _mm_mul_pd(fscal,dz02);
 993
 994             /* Update vectorial force */
 995             fix0             = _mm_add_pd(fix0,tx);
 996             fiy0             = _mm_add_pd(fiy0,ty);
 997             fiz0             = _mm_add_pd(fiz0,tz);
 998
 999             fjx2             = _mm_add_pd(fjx2,tx);
1000             fjy2             = _mm_add_pd(fjy2,ty);
1001             fjz2             = _mm_add_pd(fjz2,tz);
1002
1003             }
1004
1005             /**************************
1006              * CALCULATE INTERACTIONS *
1007              **************************/
1008
1009             if (gmx_mm_any_lt(rsq10,rcutoff2))
1010             {
1011
1012             r10              = _mm_mul_pd(rsq10,rinv10);
1013
1014             /* EWALD ELECTROSTATICS */
1015
1016             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1017             ewrt             = _mm_mul_pd(r10,ewtabscale);
1018             ewitab           = _mm_cvttpd_epi32(ewrt);
1019             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1020             ewitab           = _mm_slli_epi32(ewitab,2);
1021             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
1022             ewtabD           = _mm_setzero_pd();
1023             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
1024             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
1025             ewtabFn          = _mm_setzero_pd();
1026             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
1027             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
1028             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
1029             velec            = _mm_mul_pd(qq10,_mm_sub_pd(_mm_sub_pd(rinv10,sh_ewald),velec));
1030             felec            = _mm_mul_pd(_mm_mul_pd(qq10,rinv10),_mm_sub_pd(rinvsq10,felec));
1031
1032             cutoff_mask      = _mm_cmplt_pd(rsq10,rcutoff2);
1033
1034             /* Update potential sum for this i atom from the interaction with this j atom. */
1035             velec            = _mm_and_pd(velec,cutoff_mask);
1036             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
1037             velecsum         = _mm_add_pd(velecsum,velec);
1038
1039             fscal            = felec;
1040
1041             fscal            = _mm_and_pd(fscal,cutoff_mask);
1042
1043             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1044
1045             /* Calculate temporary vectorial force */
1046             tx               = _mm_mul_pd(fscal,dx10);
1047             ty               = _mm_mul_pd(fscal,dy10);
1048             tz               = _mm_mul_pd(fscal,dz10);
1049
1050             /* Update vectorial force */
1051             fix1             = _mm_add_pd(fix1,tx);
1052             fiy1             = _mm_add_pd(fiy1,ty);
1053             fiz1             = _mm_add_pd(fiz1,tz);
1054
1055             fjx0             = _mm_add_pd(fjx0,tx);
1056             fjy0             = _mm_add_pd(fjy0,ty);
1057             fjz0             = _mm_add_pd(fjz0,tz);
1058
1059             }
1060
1061             /**************************
1062              * CALCULATE INTERACTIONS *
1063              **************************/
1064
1065             if (gmx_mm_any_lt(rsq11,rcutoff2))
1066             {
1067
1068             r11              = _mm_mul_pd(rsq11,rinv11);
1069
1070             /* EWALD ELECTROSTATICS */
1071
1072             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1073             ewrt             = _mm_mul_pd(r11,ewtabscale);
1074             ewitab           = _mm_cvttpd_epi32(ewrt);
1075             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1076             ewitab           = _mm_slli_epi32(ewitab,2);
1077             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
1078             ewtabD           = _mm_setzero_pd();
1079             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
1080             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
1081             ewtabFn          = _mm_setzero_pd();
1082             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
1083             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
1084             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
1085             velec            = _mm_mul_pd(qq11,_mm_sub_pd(_mm_sub_pd(rinv11,sh_ewald),velec));
1086             felec            = _mm_mul_pd(_mm_mul_pd(qq11,rinv11),_mm_sub_pd(rinvsq11,felec));
1087
1088             cutoff_mask      = _mm_cmplt_pd(rsq11,rcutoff2);
1089
1090             /* Update potential sum for this i atom from the interaction with this j atom. */
1091             velec            = _mm_and_pd(velec,cutoff_mask);
1092             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
1093             velecsum         = _mm_add_pd(velecsum,velec);
1094
1095             fscal            = felec;
1096
1097             fscal            = _mm_and_pd(fscal,cutoff_mask);
1098
1099             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1100
1101             /* Calculate temporary vectorial force */
1102             tx               = _mm_mul_pd(fscal,dx11);
1103             ty               = _mm_mul_pd(fscal,dy11);
1104             tz               = _mm_mul_pd(fscal,dz11);
1105
1106             /* Update vectorial force */
1107             fix1             = _mm_add_pd(fix1,tx);
1108             fiy1             = _mm_add_pd(fiy1,ty);
1109             fiz1             = _mm_add_pd(fiz1,tz);
1110
1111             fjx1             = _mm_add_pd(fjx1,tx);
1112             fjy1             = _mm_add_pd(fjy1,ty);
1113             fjz1             = _mm_add_pd(fjz1,tz);
1114
1115             }
1116
1117             /**************************
1118              * CALCULATE INTERACTIONS *
1119              **************************/
1120
1121             if (gmx_mm_any_lt(rsq12,rcutoff2))
1122             {
1123
1124             r12              = _mm_mul_pd(rsq12,rinv12);
1125
1126             /* EWALD ELECTROSTATICS */
1127
1128             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1129             ewrt             = _mm_mul_pd(r12,ewtabscale);
1130             ewitab           = _mm_cvttpd_epi32(ewrt);
1131             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1132             ewitab           = _mm_slli_epi32(ewitab,2);
1133             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
1134             ewtabD           = _mm_setzero_pd();
1135             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
1136             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
1137             ewtabFn          = _mm_setzero_pd();
1138             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
1139             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
1140             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
1141             velec            = _mm_mul_pd(qq12,_mm_sub_pd(_mm_sub_pd(rinv12,sh_ewald),velec));
1142             felec            = _mm_mul_pd(_mm_mul_pd(qq12,rinv12),_mm_sub_pd(rinvsq12,felec));
1143
1144             cutoff_mask      = _mm_cmplt_pd(rsq12,rcutoff2);
1145
1146             /* Update potential sum for this i atom from the interaction with this j atom. */
1147             velec            = _mm_and_pd(velec,cutoff_mask);
1148             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
1149             velecsum         = _mm_add_pd(velecsum,velec);
1150
1151             fscal            = felec;
1152
1153             fscal            = _mm_and_pd(fscal,cutoff_mask);
1154
1155             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1156
1157             /* Calculate temporary vectorial force */
1158             tx               = _mm_mul_pd(fscal,dx12);
1159             ty               = _mm_mul_pd(fscal,dy12);
1160             tz               = _mm_mul_pd(fscal,dz12);
1161
1162             /* Update vectorial force */
1163             fix1             = _mm_add_pd(fix1,tx);
1164             fiy1             = _mm_add_pd(fiy1,ty);
1165             fiz1             = _mm_add_pd(fiz1,tz);
1166
1167             fjx2             = _mm_add_pd(fjx2,tx);
1168             fjy2             = _mm_add_pd(fjy2,ty);
1169             fjz2             = _mm_add_pd(fjz2,tz);
1170
1171             }
1172
1173             /**************************
1174              * CALCULATE INTERACTIONS *
1175              **************************/
1176
1177             if (gmx_mm_any_lt(rsq20,rcutoff2))
1178             {
1179
1180             r20              = _mm_mul_pd(rsq20,rinv20);
1181
1182             /* EWALD ELECTROSTATICS */
1183
1184             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1185             ewrt             = _mm_mul_pd(r20,ewtabscale);
1186             ewitab           = _mm_cvttpd_epi32(ewrt);
1187             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1188             ewitab           = _mm_slli_epi32(ewitab,2);
1189             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
1190             ewtabD           = _mm_setzero_pd();
1191             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
1192             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
1193             ewtabFn          = _mm_setzero_pd();
1194             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
1195             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
1196             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
1197             velec            = _mm_mul_pd(qq20,_mm_sub_pd(_mm_sub_pd(rinv20,sh_ewald),velec));
1198             felec            = _mm_mul_pd(_mm_mul_pd(qq20,rinv20),_mm_sub_pd(rinvsq20,felec));
1199
1200             cutoff_mask      = _mm_cmplt_pd(rsq20,rcutoff2);
1201
1202             /* Update potential sum for this i atom from the interaction with this j atom. */
1203             velec            = _mm_and_pd(velec,cutoff_mask);
1204             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
1205             velecsum         = _mm_add_pd(velecsum,velec);
1206
1207             fscal            = felec;
1208
1209             fscal            = _mm_and_pd(fscal,cutoff_mask);
1210
1211             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1212
1213             /* Calculate temporary vectorial force */
1214             tx               = _mm_mul_pd(fscal,dx20);
1215             ty               = _mm_mul_pd(fscal,dy20);
1216             tz               = _mm_mul_pd(fscal,dz20);
1217
1218             /* Update vectorial force */
1219             fix2             = _mm_add_pd(fix2,tx);
1220             fiy2             = _mm_add_pd(fiy2,ty);
1221             fiz2             = _mm_add_pd(fiz2,tz);
1222
1223             fjx0             = _mm_add_pd(fjx0,tx);
1224             fjy0             = _mm_add_pd(fjy0,ty);
1225             fjz0             = _mm_add_pd(fjz0,tz);
1226
1227             }
1228
1229             /**************************
1230              * CALCULATE INTERACTIONS *
1231              **************************/
1232
1233             if (gmx_mm_any_lt(rsq21,rcutoff2))
1234             {
1235
1236             r21              = _mm_mul_pd(rsq21,rinv21);
1237
1238             /* EWALD ELECTROSTATICS */
1239
1240             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1241             ewrt             = _mm_mul_pd(r21,ewtabscale);
1242             ewitab           = _mm_cvttpd_epi32(ewrt);
1243             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1244             ewitab           = _mm_slli_epi32(ewitab,2);
1245             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
1246             ewtabD           = _mm_setzero_pd();
1247             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
1248             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
1249             ewtabFn          = _mm_setzero_pd();
1250             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
1251             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
1252             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
1253             velec            = _mm_mul_pd(qq21,_mm_sub_pd(_mm_sub_pd(rinv21,sh_ewald),velec));
1254             felec            = _mm_mul_pd(_mm_mul_pd(qq21,rinv21),_mm_sub_pd(rinvsq21,felec));
1255
1256             cutoff_mask      = _mm_cmplt_pd(rsq21,rcutoff2);
1257
1258             /* Update potential sum for this i atom from the interaction with this j atom. */
1259             velec            = _mm_and_pd(velec,cutoff_mask);
1260             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
1261             velecsum         = _mm_add_pd(velecsum,velec);
1262
1263             fscal            = felec;
1264
1265             fscal            = _mm_and_pd(fscal,cutoff_mask);
1266
1267             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1268
1269             /* Calculate temporary vectorial force */
1270             tx               = _mm_mul_pd(fscal,dx21);
1271             ty               = _mm_mul_pd(fscal,dy21);
1272             tz               = _mm_mul_pd(fscal,dz21);
1273
1274             /* Update vectorial force */
1275             fix2             = _mm_add_pd(fix2,tx);
1276             fiy2             = _mm_add_pd(fiy2,ty);
1277             fiz2             = _mm_add_pd(fiz2,tz);
1278
1279             fjx1             = _mm_add_pd(fjx1,tx);
1280             fjy1             = _mm_add_pd(fjy1,ty);
1281             fjz1             = _mm_add_pd(fjz1,tz);
1282
1283             }
1284
1285             /**************************
1286              * CALCULATE INTERACTIONS *
1287              **************************/
1288
1289             if (gmx_mm_any_lt(rsq22,rcutoff2))
1290             {
1291
1292             r22              = _mm_mul_pd(rsq22,rinv22);
1293
1294             /* EWALD ELECTROSTATICS */
1295
1296             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1297             ewrt             = _mm_mul_pd(r22,ewtabscale);
1298             ewitab           = _mm_cvttpd_epi32(ewrt);
1299             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1300             ewitab           = _mm_slli_epi32(ewitab,2);
1301             ewtabF           = _mm_load_pd( ewtab + gmx_mm_extract_epi32(ewitab,0) );
1302             ewtabD           = _mm_setzero_pd();
1303             GMX_MM_TRANSPOSE2_PD(ewtabF,ewtabD);
1304             ewtabV           = _mm_load_sd( ewtab + gmx_mm_extract_epi32(ewitab,0) +2);
1305             ewtabFn          = _mm_setzero_pd();
1306             GMX_MM_TRANSPOSE2_PD(ewtabV,ewtabFn);
1307             felec            = _mm_add_pd(ewtabF,_mm_mul_pd(eweps,ewtabD));
1308             velec            = _mm_sub_pd(ewtabV,_mm_mul_pd(_mm_mul_pd(ewtabhalfspace,eweps),_mm_add_pd(ewtabF,felec)));
1309             velec            = _mm_mul_pd(qq22,_mm_sub_pd(_mm_sub_pd(rinv22,sh_ewald),velec));
1310             felec            = _mm_mul_pd(_mm_mul_pd(qq22,rinv22),_mm_sub_pd(rinvsq22,felec));
1311
1312             cutoff_mask      = _mm_cmplt_pd(rsq22,rcutoff2);
1313
1314             /* Update potential sum for this i atom from the interaction with this j atom. */
1315             velec            = _mm_and_pd(velec,cutoff_mask);
1316             velec            = _mm_unpacklo_pd(velec,_mm_setzero_pd());
1317             velecsum         = _mm_add_pd(velecsum,velec);
1318
1319             fscal            = felec;
1320
1321             fscal            = _mm_and_pd(fscal,cutoff_mask);
1322
1323             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
1324
1325             /* Calculate temporary vectorial force */
1326             tx               = _mm_mul_pd(fscal,dx22);
1327             ty               = _mm_mul_pd(fscal,dy22);
1328             tz               = _mm_mul_pd(fscal,dz22);
1329
1330             /* Update vectorial force */
1331             fix2             = _mm_add_pd(fix2,tx);
1332             fiy2             = _mm_add_pd(fiy2,ty);
1333             fiz2             = _mm_add_pd(fiz2,tz);
1334
1335             fjx2             = _mm_add_pd(fjx2,tx);
1336             fjy2             = _mm_add_pd(fjy2,ty);
1337             fjz2             = _mm_add_pd(fjz2,tz);
1338
1339             }
1340
1341             gmx_mm_decrement_3rvec_1ptr_swizzle_pd(f+j_coord_offsetA,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1342
1343             /* Inner loop uses 414 flops */
1344         }
1345
1346         /* End of innermost loop */
1347
1348         gmx_mm_update_iforce_3atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1349                                               f+i_coord_offset,fshift+i_shift_offset);
1350
1351         ggid                        = gid[iidx];
1352         /* Update potential energies */
1353         gmx_mm_update_1pot_pd(velecsum,kernel_data->energygrp_elec+ggid);
1354
1355         /* Increment number of inner iterations */
1356         inneriter                  += j_index_end - j_index_start;
1357
1358         /* Outer loop uses 19 flops */
1359     }
1360
1361     /* Increment number of outer iterations */
1362     outeriter        += nri;
1363
1364     /* Update outer/inner flops */
1365
1366     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3W3_VF,outeriter*19 + inneriter*414);
1367 }
1368 /*
1369  * Gromacs nonbonded kernel:   nb_kernel_ElecEwSh_VdwNone_GeomW3W3_F_sse2_double
1370  * Electrostatics interaction: Ewald
1371  * VdW interaction:            None
1372  * Geometry:                   Water3-Water3
1373  * Calculate force/pot:        Force
1374  */
1375 void
1376 nb_kernel_ElecEwSh_VdwNone_GeomW3W3_F_sse2_double
1377                     (t_nblist                    * gmx_restrict       nlist,
1378                      rvec                        * gmx_restrict          xx,
1379                      rvec                        * gmx_restrict          ff,
1380                      struct t_forcerec           * gmx_restrict          fr,
1381                      t_mdatoms                   * gmx_restrict     mdatoms,
1382                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
1383                      t_nrnb                      * gmx_restrict        nrnb)
1384 {
1385     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
1386      * just 0 for non-waters.
1387      * Suffixes A,B refer to j loop unrolling done with SSE double precision, e.g. for the two different
1388      * jnr indices corresponding to data put in the four positions in the SIMD register.
1389      */
1390     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
1391     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
1392     int              jnrA,jnrB;
1393     int              j_coord_offsetA,j_coord_offsetB;
1394     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
1395     real             rcutoff_scalar;
1396     real             *shiftvec,*fshift,*x,*f;
1397     __m128d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
1398     int              vdwioffset0;
1399     __m128d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
1400     int              vdwioffset1;
1401     __m128d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
1402     int              vdwioffset2;
1403     __m128d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
1404     int              vdwjidx0A,vdwjidx0B;
1405     __m128d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
1406     int              vdwjidx1A,vdwjidx1B;
1407     __m128d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
1408     int              vdwjidx2A,vdwjidx2B;
1409     __m128d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
1410     __m128d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
1411     __m128d          dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
1412     __m128d          dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
1413     __m128d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
1414     __m128d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
1415     __m128d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
1416     __m128d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
1417     __m128d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
1418     __m128d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
1419     __m128d          velec,felec,velecsum,facel,crf,krf,krf2;
1420     real             *charge;
1421     __m128i          ewitab;
1422     __m128d          ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
1423     real             *ewtab;
1424     __m128d          dummy_mask,cutoff_mask;
1425     __m128d          signbit   = gmx_mm_castsi128_pd( _mm_set_epi32(0x80000000,0x00000000,0x80000000,0x00000000) );
1426     __m128d          one     = _mm_set1_pd(1.0);
1427     __m128d          two     = _mm_set1_pd(2.0);
1428     x                = xx[0];
1429     f                = ff[0];
1430
1431     nri              = nlist->nri;
1432     iinr             = nlist->iinr;
1433     jindex           = nlist->jindex;
1434     jjnr             = nlist->jjnr;
1435     shiftidx         = nlist->shift;
1436     gid              = nlist->gid;
1437     shiftvec         = fr->shift_vec[0];
1438     fshift           = fr->fshift[0];
1439     facel            = _mm_set1_pd(fr->ic->epsfac);
1440     charge           = mdatoms->chargeA;
1441
1442     sh_ewald         = _mm_set1_pd(fr->ic->sh_ewald);
1443     ewtab            = fr->ic->tabq_coul_F;
1444     ewtabscale       = _mm_set1_pd(fr->ic->tabq_scale);
1445     ewtabhalfspace   = _mm_set1_pd(0.5/fr->ic->tabq_scale);
1446
1447     /* Setup water-specific parameters */
1448     inr              = nlist->iinr[0];
1449     iq0              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+0]));
1450     iq1              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+1]));
1451     iq2              = _mm_mul_pd(facel,_mm_set1_pd(charge[inr+2]));
1452
1453     jq0              = _mm_set1_pd(charge[inr+0]);
1454     jq1              = _mm_set1_pd(charge[inr+1]);
1455     jq2              = _mm_set1_pd(charge[inr+2]);
1456     qq00             = _mm_mul_pd(iq0,jq0);
1457     qq01             = _mm_mul_pd(iq0,jq1);
1458     qq02             = _mm_mul_pd(iq0,jq2);
1459     qq10             = _mm_mul_pd(iq1,jq0);
1460     qq11             = _mm_mul_pd(iq1,jq1);
1461     qq12             = _mm_mul_pd(iq1,jq2);
1462     qq20             = _mm_mul_pd(iq2,jq0);
1463     qq21             = _mm_mul_pd(iq2,jq1);
1464     qq22             = _mm_mul_pd(iq2,jq2);
1465
1466     /* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
1467     rcutoff_scalar   = fr->ic->rcoulomb;
1468     rcutoff          = _mm_set1_pd(rcutoff_scalar);
1469     rcutoff2         = _mm_mul_pd(rcutoff,rcutoff);
1470
1471     /* Avoid stupid compiler warnings */
1472     jnrA = jnrB = 0;
1473     j_coord_offsetA = 0;
1474     j_coord_offsetB = 0;
1475
1476     outeriter        = 0;
1477     inneriter        = 0;
1478
1479     /* Start outer loop over neighborlists */
1480     for(iidx=0; iidx<nri; iidx++)
1481     {
1482         /* Load shift vector for this list */
1483         i_shift_offset   = DIM*shiftidx[iidx];
1484
1485         /* Load limits for loop over neighbors */
1486         j_index_start    = jindex[iidx];
1487         j_index_end      = jindex[iidx+1];
1488
1489         /* Get outer coordinate index */
1490         inr              = iinr[iidx];
1491         i_coord_offset   = DIM*inr;
1492
1493         /* Load i particle coords and add shift vector */
1494         gmx_mm_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
1495                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
1496
1497         fix0             = _mm_setzero_pd();
1498         fiy0             = _mm_setzero_pd();
1499         fiz0             = _mm_setzero_pd();
1500         fix1             = _mm_setzero_pd();
1501         fiy1             = _mm_setzero_pd();
1502         fiz1             = _mm_setzero_pd();
1503         fix2             = _mm_setzero_pd();
1504         fiy2             = _mm_setzero_pd();
1505         fiz2             = _mm_setzero_pd();
1506
1507         /* Start inner kernel loop */
1508         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
1509         {
1510
1511             /* Get j neighbor index, and coordinate index */
1512             jnrA             = jjnr[jidx];
1513             jnrB             = jjnr[jidx+1];
1514             j_coord_offsetA  = DIM*jnrA;
1515             j_coord_offsetB  = DIM*jnrB;
1516
1517             /* load j atom coordinates */
1518             gmx_mm_load_3rvec_2ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
1519                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1520
1521             /* Calculate displacement vector */
1522             dx00             = _mm_sub_pd(ix0,jx0);
1523             dy00             = _mm_sub_pd(iy0,jy0);
1524             dz00             = _mm_sub_pd(iz0,jz0);
1525             dx01             = _mm_sub_pd(ix0,jx1);
1526             dy01             = _mm_sub_pd(iy0,jy1);
1527             dz01             = _mm_sub_pd(iz0,jz1);
1528             dx02             = _mm_sub_pd(ix0,jx2);
1529             dy02             = _mm_sub_pd(iy0,jy2);
1530             dz02             = _mm_sub_pd(iz0,jz2);
1531             dx10             = _mm_sub_pd(ix1,jx0);
1532             dy10             = _mm_sub_pd(iy1,jy0);
1533             dz10             = _mm_sub_pd(iz1,jz0);
1534             dx11             = _mm_sub_pd(ix1,jx1);
1535             dy11             = _mm_sub_pd(iy1,jy1);
1536             dz11             = _mm_sub_pd(iz1,jz1);
1537             dx12             = _mm_sub_pd(ix1,jx2);
1538             dy12             = _mm_sub_pd(iy1,jy2);
1539             dz12             = _mm_sub_pd(iz1,jz2);
1540             dx20             = _mm_sub_pd(ix2,jx0);
1541             dy20             = _mm_sub_pd(iy2,jy0);
1542             dz20             = _mm_sub_pd(iz2,jz0);
1543             dx21             = _mm_sub_pd(ix2,jx1);
1544             dy21             = _mm_sub_pd(iy2,jy1);
1545             dz21             = _mm_sub_pd(iz2,jz1);
1546             dx22             = _mm_sub_pd(ix2,jx2);
1547             dy22             = _mm_sub_pd(iy2,jy2);
1548             dz22             = _mm_sub_pd(iz2,jz2);
1549
1550             /* Calculate squared distance and things based on it */
1551             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
1552             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
1553             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
1554             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
1555             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
1556             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
1557             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
1558             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
1559             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
1560
1561             rinv00           = sse2_invsqrt_d(rsq00);
1562             rinv01           = sse2_invsqrt_d(rsq01);
1563             rinv02           = sse2_invsqrt_d(rsq02);
1564             rinv10           = sse2_invsqrt_d(rsq10);
1565             rinv11           = sse2_invsqrt_d(rsq11);
1566             rinv12           = sse2_invsqrt_d(rsq12);
1567             rinv20           = sse2_invsqrt_d(rsq20);
1568             rinv21           = sse2_invsqrt_d(rsq21);
1569             rinv22           = sse2_invsqrt_d(rsq22);
1570
1571             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
1572             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
1573             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
1574             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
1575             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
1576             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
1577             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
1578             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
1579             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
1580
1581             fjx0             = _mm_setzero_pd();
1582             fjy0             = _mm_setzero_pd();
1583             fjz0             = _mm_setzero_pd();
1584             fjx1             = _mm_setzero_pd();
1585             fjy1             = _mm_setzero_pd();
1586             fjz1             = _mm_setzero_pd();
1587             fjx2             = _mm_setzero_pd();
1588             fjy2             = _mm_setzero_pd();
1589             fjz2             = _mm_setzero_pd();
1590
1591             /**************************
1592              * CALCULATE INTERACTIONS *
1593              **************************/
1594
1595             if (gmx_mm_any_lt(rsq00,rcutoff2))
1596             {
1597
1598             r00              = _mm_mul_pd(rsq00,rinv00);
1599
1600             /* EWALD ELECTROSTATICS */
1601
1602             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1603             ewrt             = _mm_mul_pd(r00,ewtabscale);
1604             ewitab           = _mm_cvttpd_epi32(ewrt);
1605             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1606             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1607                                          &ewtabF,&ewtabFn);
1608             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1609             felec            = _mm_mul_pd(_mm_mul_pd(qq00,rinv00),_mm_sub_pd(rinvsq00,felec));
1610
1611             cutoff_mask      = _mm_cmplt_pd(rsq00,rcutoff2);
1612
1613             fscal            = felec;
1614
1615             fscal            = _mm_and_pd(fscal,cutoff_mask);
1616
1617             /* Calculate temporary vectorial force */
1618             tx               = _mm_mul_pd(fscal,dx00);
1619             ty               = _mm_mul_pd(fscal,dy00);
1620             tz               = _mm_mul_pd(fscal,dz00);
1621
1622             /* Update vectorial force */
1623             fix0             = _mm_add_pd(fix0,tx);
1624             fiy0             = _mm_add_pd(fiy0,ty);
1625             fiz0             = _mm_add_pd(fiz0,tz);
1626
1627             fjx0             = _mm_add_pd(fjx0,tx);
1628             fjy0             = _mm_add_pd(fjy0,ty);
1629             fjz0             = _mm_add_pd(fjz0,tz);
1630
1631             }
1632
1633             /**************************
1634              * CALCULATE INTERACTIONS *
1635              **************************/
1636
1637             if (gmx_mm_any_lt(rsq01,rcutoff2))
1638             {
1639
1640             r01              = _mm_mul_pd(rsq01,rinv01);
1641
1642             /* EWALD ELECTROSTATICS */
1643
1644             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1645             ewrt             = _mm_mul_pd(r01,ewtabscale);
1646             ewitab           = _mm_cvttpd_epi32(ewrt);
1647             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1648             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1649                                          &ewtabF,&ewtabFn);
1650             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1651             felec            = _mm_mul_pd(_mm_mul_pd(qq01,rinv01),_mm_sub_pd(rinvsq01,felec));
1652
1653             cutoff_mask      = _mm_cmplt_pd(rsq01,rcutoff2);
1654
1655             fscal            = felec;
1656
1657             fscal            = _mm_and_pd(fscal,cutoff_mask);
1658
1659             /* Calculate temporary vectorial force */
1660             tx               = _mm_mul_pd(fscal,dx01);
1661             ty               = _mm_mul_pd(fscal,dy01);
1662             tz               = _mm_mul_pd(fscal,dz01);
1663
1664             /* Update vectorial force */
1665             fix0             = _mm_add_pd(fix0,tx);
1666             fiy0             = _mm_add_pd(fiy0,ty);
1667             fiz0             = _mm_add_pd(fiz0,tz);
1668
1669             fjx1             = _mm_add_pd(fjx1,tx);
1670             fjy1             = _mm_add_pd(fjy1,ty);
1671             fjz1             = _mm_add_pd(fjz1,tz);
1672
1673             }
1674
1675             /**************************
1676              * CALCULATE INTERACTIONS *
1677              **************************/
1678
1679             if (gmx_mm_any_lt(rsq02,rcutoff2))
1680             {
1681
1682             r02              = _mm_mul_pd(rsq02,rinv02);
1683
1684             /* EWALD ELECTROSTATICS */
1685
1686             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1687             ewrt             = _mm_mul_pd(r02,ewtabscale);
1688             ewitab           = _mm_cvttpd_epi32(ewrt);
1689             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1690             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1691                                          &ewtabF,&ewtabFn);
1692             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1693             felec            = _mm_mul_pd(_mm_mul_pd(qq02,rinv02),_mm_sub_pd(rinvsq02,felec));
1694
1695             cutoff_mask      = _mm_cmplt_pd(rsq02,rcutoff2);
1696
1697             fscal            = felec;
1698
1699             fscal            = _mm_and_pd(fscal,cutoff_mask);
1700
1701             /* Calculate temporary vectorial force */
1702             tx               = _mm_mul_pd(fscal,dx02);
1703             ty               = _mm_mul_pd(fscal,dy02);
1704             tz               = _mm_mul_pd(fscal,dz02);
1705
1706             /* Update vectorial force */
1707             fix0             = _mm_add_pd(fix0,tx);
1708             fiy0             = _mm_add_pd(fiy0,ty);
1709             fiz0             = _mm_add_pd(fiz0,tz);
1710
1711             fjx2             = _mm_add_pd(fjx2,tx);
1712             fjy2             = _mm_add_pd(fjy2,ty);
1713             fjz2             = _mm_add_pd(fjz2,tz);
1714
1715             }
1716
1717             /**************************
1718              * CALCULATE INTERACTIONS *
1719              **************************/
1720
1721             if (gmx_mm_any_lt(rsq10,rcutoff2))
1722             {
1723
1724             r10              = _mm_mul_pd(rsq10,rinv10);
1725
1726             /* EWALD ELECTROSTATICS */
1727
1728             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1729             ewrt             = _mm_mul_pd(r10,ewtabscale);
1730             ewitab           = _mm_cvttpd_epi32(ewrt);
1731             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1732             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1733                                          &ewtabF,&ewtabFn);
1734             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1735             felec            = _mm_mul_pd(_mm_mul_pd(qq10,rinv10),_mm_sub_pd(rinvsq10,felec));
1736
1737             cutoff_mask      = _mm_cmplt_pd(rsq10,rcutoff2);
1738
1739             fscal            = felec;
1740
1741             fscal            = _mm_and_pd(fscal,cutoff_mask);
1742
1743             /* Calculate temporary vectorial force */
1744             tx               = _mm_mul_pd(fscal,dx10);
1745             ty               = _mm_mul_pd(fscal,dy10);
1746             tz               = _mm_mul_pd(fscal,dz10);
1747
1748             /* Update vectorial force */
1749             fix1             = _mm_add_pd(fix1,tx);
1750             fiy1             = _mm_add_pd(fiy1,ty);
1751             fiz1             = _mm_add_pd(fiz1,tz);
1752
1753             fjx0             = _mm_add_pd(fjx0,tx);
1754             fjy0             = _mm_add_pd(fjy0,ty);
1755             fjz0             = _mm_add_pd(fjz0,tz);
1756
1757             }
1758
1759             /**************************
1760              * CALCULATE INTERACTIONS *
1761              **************************/
1762
1763             if (gmx_mm_any_lt(rsq11,rcutoff2))
1764             {
1765
1766             r11              = _mm_mul_pd(rsq11,rinv11);
1767
1768             /* EWALD ELECTROSTATICS */
1769
1770             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1771             ewrt             = _mm_mul_pd(r11,ewtabscale);
1772             ewitab           = _mm_cvttpd_epi32(ewrt);
1773             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1774             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1775                                          &ewtabF,&ewtabFn);
1776             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1777             felec            = _mm_mul_pd(_mm_mul_pd(qq11,rinv11),_mm_sub_pd(rinvsq11,felec));
1778
1779             cutoff_mask      = _mm_cmplt_pd(rsq11,rcutoff2);
1780
1781             fscal            = felec;
1782
1783             fscal            = _mm_and_pd(fscal,cutoff_mask);
1784
1785             /* Calculate temporary vectorial force */
1786             tx               = _mm_mul_pd(fscal,dx11);
1787             ty               = _mm_mul_pd(fscal,dy11);
1788             tz               = _mm_mul_pd(fscal,dz11);
1789
1790             /* Update vectorial force */
1791             fix1             = _mm_add_pd(fix1,tx);
1792             fiy1             = _mm_add_pd(fiy1,ty);
1793             fiz1             = _mm_add_pd(fiz1,tz);
1794
1795             fjx1             = _mm_add_pd(fjx1,tx);
1796             fjy1             = _mm_add_pd(fjy1,ty);
1797             fjz1             = _mm_add_pd(fjz1,tz);
1798
1799             }
1800
1801             /**************************
1802              * CALCULATE INTERACTIONS *
1803              **************************/
1804
1805             if (gmx_mm_any_lt(rsq12,rcutoff2))
1806             {
1807
1808             r12              = _mm_mul_pd(rsq12,rinv12);
1809
1810             /* EWALD ELECTROSTATICS */
1811
1812             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1813             ewrt             = _mm_mul_pd(r12,ewtabscale);
1814             ewitab           = _mm_cvttpd_epi32(ewrt);
1815             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1816             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1817                                          &ewtabF,&ewtabFn);
1818             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1819             felec            = _mm_mul_pd(_mm_mul_pd(qq12,rinv12),_mm_sub_pd(rinvsq12,felec));
1820
1821             cutoff_mask      = _mm_cmplt_pd(rsq12,rcutoff2);
1822
1823             fscal            = felec;
1824
1825             fscal            = _mm_and_pd(fscal,cutoff_mask);
1826
1827             /* Calculate temporary vectorial force */
1828             tx               = _mm_mul_pd(fscal,dx12);
1829             ty               = _mm_mul_pd(fscal,dy12);
1830             tz               = _mm_mul_pd(fscal,dz12);
1831
1832             /* Update vectorial force */
1833             fix1             = _mm_add_pd(fix1,tx);
1834             fiy1             = _mm_add_pd(fiy1,ty);
1835             fiz1             = _mm_add_pd(fiz1,tz);
1836
1837             fjx2             = _mm_add_pd(fjx2,tx);
1838             fjy2             = _mm_add_pd(fjy2,ty);
1839             fjz2             = _mm_add_pd(fjz2,tz);
1840
1841             }
1842
1843             /**************************
1844              * CALCULATE INTERACTIONS *
1845              **************************/
1846
1847             if (gmx_mm_any_lt(rsq20,rcutoff2))
1848             {
1849
1850             r20              = _mm_mul_pd(rsq20,rinv20);
1851
1852             /* EWALD ELECTROSTATICS */
1853
1854             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1855             ewrt             = _mm_mul_pd(r20,ewtabscale);
1856             ewitab           = _mm_cvttpd_epi32(ewrt);
1857             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1858             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1859                                          &ewtabF,&ewtabFn);
1860             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1861             felec            = _mm_mul_pd(_mm_mul_pd(qq20,rinv20),_mm_sub_pd(rinvsq20,felec));
1862
1863             cutoff_mask      = _mm_cmplt_pd(rsq20,rcutoff2);
1864
1865             fscal            = felec;
1866
1867             fscal            = _mm_and_pd(fscal,cutoff_mask);
1868
1869             /* Calculate temporary vectorial force */
1870             tx               = _mm_mul_pd(fscal,dx20);
1871             ty               = _mm_mul_pd(fscal,dy20);
1872             tz               = _mm_mul_pd(fscal,dz20);
1873
1874             /* Update vectorial force */
1875             fix2             = _mm_add_pd(fix2,tx);
1876             fiy2             = _mm_add_pd(fiy2,ty);
1877             fiz2             = _mm_add_pd(fiz2,tz);
1878
1879             fjx0             = _mm_add_pd(fjx0,tx);
1880             fjy0             = _mm_add_pd(fjy0,ty);
1881             fjz0             = _mm_add_pd(fjz0,tz);
1882
1883             }
1884
1885             /**************************
1886              * CALCULATE INTERACTIONS *
1887              **************************/
1888
1889             if (gmx_mm_any_lt(rsq21,rcutoff2))
1890             {
1891
1892             r21              = _mm_mul_pd(rsq21,rinv21);
1893
1894             /* EWALD ELECTROSTATICS */
1895
1896             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1897             ewrt             = _mm_mul_pd(r21,ewtabscale);
1898             ewitab           = _mm_cvttpd_epi32(ewrt);
1899             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1900             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1901                                          &ewtabF,&ewtabFn);
1902             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1903             felec            = _mm_mul_pd(_mm_mul_pd(qq21,rinv21),_mm_sub_pd(rinvsq21,felec));
1904
1905             cutoff_mask      = _mm_cmplt_pd(rsq21,rcutoff2);
1906
1907             fscal            = felec;
1908
1909             fscal            = _mm_and_pd(fscal,cutoff_mask);
1910
1911             /* Calculate temporary vectorial force */
1912             tx               = _mm_mul_pd(fscal,dx21);
1913             ty               = _mm_mul_pd(fscal,dy21);
1914             tz               = _mm_mul_pd(fscal,dz21);
1915
1916             /* Update vectorial force */
1917             fix2             = _mm_add_pd(fix2,tx);
1918             fiy2             = _mm_add_pd(fiy2,ty);
1919             fiz2             = _mm_add_pd(fiz2,tz);
1920
1921             fjx1             = _mm_add_pd(fjx1,tx);
1922             fjy1             = _mm_add_pd(fjy1,ty);
1923             fjz1             = _mm_add_pd(fjz1,tz);
1924
1925             }
1926
1927             /**************************
1928              * CALCULATE INTERACTIONS *
1929              **************************/
1930
1931             if (gmx_mm_any_lt(rsq22,rcutoff2))
1932             {
1933
1934             r22              = _mm_mul_pd(rsq22,rinv22);
1935
1936             /* EWALD ELECTROSTATICS */
1937
1938             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1939             ewrt             = _mm_mul_pd(r22,ewtabscale);
1940             ewitab           = _mm_cvttpd_epi32(ewrt);
1941             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
1942             gmx_mm_load_2pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),ewtab+gmx_mm_extract_epi32(ewitab,1),
1943                                          &ewtabF,&ewtabFn);
1944             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
1945             felec            = _mm_mul_pd(_mm_mul_pd(qq22,rinv22),_mm_sub_pd(rinvsq22,felec));
1946
1947             cutoff_mask      = _mm_cmplt_pd(rsq22,rcutoff2);
1948
1949             fscal            = felec;
1950
1951             fscal            = _mm_and_pd(fscal,cutoff_mask);
1952
1953             /* Calculate temporary vectorial force */
1954             tx               = _mm_mul_pd(fscal,dx22);
1955             ty               = _mm_mul_pd(fscal,dy22);
1956             tz               = _mm_mul_pd(fscal,dz22);
1957
1958             /* Update vectorial force */
1959             fix2             = _mm_add_pd(fix2,tx);
1960             fiy2             = _mm_add_pd(fiy2,ty);
1961             fiz2             = _mm_add_pd(fiz2,tz);
1962
1963             fjx2             = _mm_add_pd(fjx2,tx);
1964             fjy2             = _mm_add_pd(fjy2,ty);
1965             fjz2             = _mm_add_pd(fjz2,tz);
1966
1967             }
1968
1969             gmx_mm_decrement_3rvec_2ptr_swizzle_pd(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1970
1971             /* Inner loop uses 351 flops */
1972         }
1973
1974         if(jidx<j_index_end)
1975         {
1976
1977             jnrA             = jjnr[jidx];
1978             j_coord_offsetA  = DIM*jnrA;
1979
1980             /* load j atom coordinates */
1981             gmx_mm_load_3rvec_1ptr_swizzle_pd(x+j_coord_offsetA,
1982                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1983
1984             /* Calculate displacement vector */
1985             dx00             = _mm_sub_pd(ix0,jx0);
1986             dy00             = _mm_sub_pd(iy0,jy0);
1987             dz00             = _mm_sub_pd(iz0,jz0);
1988             dx01             = _mm_sub_pd(ix0,jx1);
1989             dy01             = _mm_sub_pd(iy0,jy1);
1990             dz01             = _mm_sub_pd(iz0,jz1);
1991             dx02             = _mm_sub_pd(ix0,jx2);
1992             dy02             = _mm_sub_pd(iy0,jy2);
1993             dz02             = _mm_sub_pd(iz0,jz2);
1994             dx10             = _mm_sub_pd(ix1,jx0);
1995             dy10             = _mm_sub_pd(iy1,jy0);
1996             dz10             = _mm_sub_pd(iz1,jz0);
1997             dx11             = _mm_sub_pd(ix1,jx1);
1998             dy11             = _mm_sub_pd(iy1,jy1);
1999             dz11             = _mm_sub_pd(iz1,jz1);
2000             dx12             = _mm_sub_pd(ix1,jx2);
2001             dy12             = _mm_sub_pd(iy1,jy2);
2002             dz12             = _mm_sub_pd(iz1,jz2);
2003             dx20             = _mm_sub_pd(ix2,jx0);
2004             dy20             = _mm_sub_pd(iy2,jy0);
2005             dz20             = _mm_sub_pd(iz2,jz0);
2006             dx21             = _mm_sub_pd(ix2,jx1);
2007             dy21             = _mm_sub_pd(iy2,jy1);
2008             dz21             = _mm_sub_pd(iz2,jz1);
2009             dx22             = _mm_sub_pd(ix2,jx2);
2010             dy22             = _mm_sub_pd(iy2,jy2);
2011             dz22             = _mm_sub_pd(iz2,jz2);
2012
2013             /* Calculate squared distance and things based on it */
2014             rsq00            = gmx_mm_calc_rsq_pd(dx00,dy00,dz00);
2015             rsq01            = gmx_mm_calc_rsq_pd(dx01,dy01,dz01);
2016             rsq02            = gmx_mm_calc_rsq_pd(dx02,dy02,dz02);
2017             rsq10            = gmx_mm_calc_rsq_pd(dx10,dy10,dz10);
2018             rsq11            = gmx_mm_calc_rsq_pd(dx11,dy11,dz11);
2019             rsq12            = gmx_mm_calc_rsq_pd(dx12,dy12,dz12);
2020             rsq20            = gmx_mm_calc_rsq_pd(dx20,dy20,dz20);
2021             rsq21            = gmx_mm_calc_rsq_pd(dx21,dy21,dz21);
2022             rsq22            = gmx_mm_calc_rsq_pd(dx22,dy22,dz22);
2023
2024             rinv00           = sse2_invsqrt_d(rsq00);
2025             rinv01           = sse2_invsqrt_d(rsq01);
2026             rinv02           = sse2_invsqrt_d(rsq02);
2027             rinv10           = sse2_invsqrt_d(rsq10);
2028             rinv11           = sse2_invsqrt_d(rsq11);
2029             rinv12           = sse2_invsqrt_d(rsq12);
2030             rinv20           = sse2_invsqrt_d(rsq20);
2031             rinv21           = sse2_invsqrt_d(rsq21);
2032             rinv22           = sse2_invsqrt_d(rsq22);
2033
2034             rinvsq00         = _mm_mul_pd(rinv00,rinv00);
2035             rinvsq01         = _mm_mul_pd(rinv01,rinv01);
2036             rinvsq02         = _mm_mul_pd(rinv02,rinv02);
2037             rinvsq10         = _mm_mul_pd(rinv10,rinv10);
2038             rinvsq11         = _mm_mul_pd(rinv11,rinv11);
2039             rinvsq12         = _mm_mul_pd(rinv12,rinv12);
2040             rinvsq20         = _mm_mul_pd(rinv20,rinv20);
2041             rinvsq21         = _mm_mul_pd(rinv21,rinv21);
2042             rinvsq22         = _mm_mul_pd(rinv22,rinv22);
2043
2044             fjx0             = _mm_setzero_pd();
2045             fjy0             = _mm_setzero_pd();
2046             fjz0             = _mm_setzero_pd();
2047             fjx1             = _mm_setzero_pd();
2048             fjy1             = _mm_setzero_pd();
2049             fjz1             = _mm_setzero_pd();
2050             fjx2             = _mm_setzero_pd();
2051             fjy2             = _mm_setzero_pd();
2052             fjz2             = _mm_setzero_pd();
2053
2054             /**************************
2055              * CALCULATE INTERACTIONS *
2056              **************************/
2057
2058             if (gmx_mm_any_lt(rsq00,rcutoff2))
2059             {
2060
2061             r00              = _mm_mul_pd(rsq00,rinv00);
2062
2063             /* EWALD ELECTROSTATICS */
2064
2065             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2066             ewrt             = _mm_mul_pd(r00,ewtabscale);
2067             ewitab           = _mm_cvttpd_epi32(ewrt);
2068             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2069             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2070             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2071             felec            = _mm_mul_pd(_mm_mul_pd(qq00,rinv00),_mm_sub_pd(rinvsq00,felec));
2072
2073             cutoff_mask      = _mm_cmplt_pd(rsq00,rcutoff2);
2074
2075             fscal            = felec;
2076
2077             fscal            = _mm_and_pd(fscal,cutoff_mask);
2078
2079             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2080
2081             /* Calculate temporary vectorial force */
2082             tx               = _mm_mul_pd(fscal,dx00);
2083             ty               = _mm_mul_pd(fscal,dy00);
2084             tz               = _mm_mul_pd(fscal,dz00);
2085
2086             /* Update vectorial force */
2087             fix0             = _mm_add_pd(fix0,tx);
2088             fiy0             = _mm_add_pd(fiy0,ty);
2089             fiz0             = _mm_add_pd(fiz0,tz);
2090
2091             fjx0             = _mm_add_pd(fjx0,tx);
2092             fjy0             = _mm_add_pd(fjy0,ty);
2093             fjz0             = _mm_add_pd(fjz0,tz);
2094
2095             }
2096
2097             /**************************
2098              * CALCULATE INTERACTIONS *
2099              **************************/
2100
2101             if (gmx_mm_any_lt(rsq01,rcutoff2))
2102             {
2103
2104             r01              = _mm_mul_pd(rsq01,rinv01);
2105
2106             /* EWALD ELECTROSTATICS */
2107
2108             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2109             ewrt             = _mm_mul_pd(r01,ewtabscale);
2110             ewitab           = _mm_cvttpd_epi32(ewrt);
2111             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2112             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2113             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2114             felec            = _mm_mul_pd(_mm_mul_pd(qq01,rinv01),_mm_sub_pd(rinvsq01,felec));
2115
2116             cutoff_mask      = _mm_cmplt_pd(rsq01,rcutoff2);
2117
2118             fscal            = felec;
2119
2120             fscal            = _mm_and_pd(fscal,cutoff_mask);
2121
2122             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2123
2124             /* Calculate temporary vectorial force */
2125             tx               = _mm_mul_pd(fscal,dx01);
2126             ty               = _mm_mul_pd(fscal,dy01);
2127             tz               = _mm_mul_pd(fscal,dz01);
2128
2129             /* Update vectorial force */
2130             fix0             = _mm_add_pd(fix0,tx);
2131             fiy0             = _mm_add_pd(fiy0,ty);
2132             fiz0             = _mm_add_pd(fiz0,tz);
2133
2134             fjx1             = _mm_add_pd(fjx1,tx);
2135             fjy1             = _mm_add_pd(fjy1,ty);
2136             fjz1             = _mm_add_pd(fjz1,tz);
2137
2138             }
2139
2140             /**************************
2141              * CALCULATE INTERACTIONS *
2142              **************************/
2143
2144             if (gmx_mm_any_lt(rsq02,rcutoff2))
2145             {
2146
2147             r02              = _mm_mul_pd(rsq02,rinv02);
2148
2149             /* EWALD ELECTROSTATICS */
2150
2151             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2152             ewrt             = _mm_mul_pd(r02,ewtabscale);
2153             ewitab           = _mm_cvttpd_epi32(ewrt);
2154             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2155             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2156             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2157             felec            = _mm_mul_pd(_mm_mul_pd(qq02,rinv02),_mm_sub_pd(rinvsq02,felec));
2158
2159             cutoff_mask      = _mm_cmplt_pd(rsq02,rcutoff2);
2160
2161             fscal            = felec;
2162
2163             fscal            = _mm_and_pd(fscal,cutoff_mask);
2164
2165             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2166
2167             /* Calculate temporary vectorial force */
2168             tx               = _mm_mul_pd(fscal,dx02);
2169             ty               = _mm_mul_pd(fscal,dy02);
2170             tz               = _mm_mul_pd(fscal,dz02);
2171
2172             /* Update vectorial force */
2173             fix0             = _mm_add_pd(fix0,tx);
2174             fiy0             = _mm_add_pd(fiy0,ty);
2175             fiz0             = _mm_add_pd(fiz0,tz);
2176
2177             fjx2             = _mm_add_pd(fjx2,tx);
2178             fjy2             = _mm_add_pd(fjy2,ty);
2179             fjz2             = _mm_add_pd(fjz2,tz);
2180
2181             }
2182
2183             /**************************
2184              * CALCULATE INTERACTIONS *
2185              **************************/
2186
2187             if (gmx_mm_any_lt(rsq10,rcutoff2))
2188             {
2189
2190             r10              = _mm_mul_pd(rsq10,rinv10);
2191
2192             /* EWALD ELECTROSTATICS */
2193
2194             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2195             ewrt             = _mm_mul_pd(r10,ewtabscale);
2196             ewitab           = _mm_cvttpd_epi32(ewrt);
2197             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2198             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2199             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2200             felec            = _mm_mul_pd(_mm_mul_pd(qq10,rinv10),_mm_sub_pd(rinvsq10,felec));
2201
2202             cutoff_mask      = _mm_cmplt_pd(rsq10,rcutoff2);
2203
2204             fscal            = felec;
2205
2206             fscal            = _mm_and_pd(fscal,cutoff_mask);
2207
2208             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2209
2210             /* Calculate temporary vectorial force */
2211             tx               = _mm_mul_pd(fscal,dx10);
2212             ty               = _mm_mul_pd(fscal,dy10);
2213             tz               = _mm_mul_pd(fscal,dz10);
2214
2215             /* Update vectorial force */
2216             fix1             = _mm_add_pd(fix1,tx);
2217             fiy1             = _mm_add_pd(fiy1,ty);
2218             fiz1             = _mm_add_pd(fiz1,tz);
2219
2220             fjx0             = _mm_add_pd(fjx0,tx);
2221             fjy0             = _mm_add_pd(fjy0,ty);
2222             fjz0             = _mm_add_pd(fjz0,tz);
2223
2224             }
2225
2226             /**************************
2227              * CALCULATE INTERACTIONS *
2228              **************************/
2229
2230             if (gmx_mm_any_lt(rsq11,rcutoff2))
2231             {
2232
2233             r11              = _mm_mul_pd(rsq11,rinv11);
2234
2235             /* EWALD ELECTROSTATICS */
2236
2237             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2238             ewrt             = _mm_mul_pd(r11,ewtabscale);
2239             ewitab           = _mm_cvttpd_epi32(ewrt);
2240             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2241             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2242             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2243             felec            = _mm_mul_pd(_mm_mul_pd(qq11,rinv11),_mm_sub_pd(rinvsq11,felec));
2244
2245             cutoff_mask      = _mm_cmplt_pd(rsq11,rcutoff2);
2246
2247             fscal            = felec;
2248
2249             fscal            = _mm_and_pd(fscal,cutoff_mask);
2250
2251             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2252
2253             /* Calculate temporary vectorial force */
2254             tx               = _mm_mul_pd(fscal,dx11);
2255             ty               = _mm_mul_pd(fscal,dy11);
2256             tz               = _mm_mul_pd(fscal,dz11);
2257
2258             /* Update vectorial force */
2259             fix1             = _mm_add_pd(fix1,tx);
2260             fiy1             = _mm_add_pd(fiy1,ty);
2261             fiz1             = _mm_add_pd(fiz1,tz);
2262
2263             fjx1             = _mm_add_pd(fjx1,tx);
2264             fjy1             = _mm_add_pd(fjy1,ty);
2265             fjz1             = _mm_add_pd(fjz1,tz);
2266
2267             }
2268
2269             /**************************
2270              * CALCULATE INTERACTIONS *
2271              **************************/
2272
2273             if (gmx_mm_any_lt(rsq12,rcutoff2))
2274             {
2275
2276             r12              = _mm_mul_pd(rsq12,rinv12);
2277
2278             /* EWALD ELECTROSTATICS */
2279
2280             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2281             ewrt             = _mm_mul_pd(r12,ewtabscale);
2282             ewitab           = _mm_cvttpd_epi32(ewrt);
2283             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2284             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2285             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2286             felec            = _mm_mul_pd(_mm_mul_pd(qq12,rinv12),_mm_sub_pd(rinvsq12,felec));
2287
2288             cutoff_mask      = _mm_cmplt_pd(rsq12,rcutoff2);
2289
2290             fscal            = felec;
2291
2292             fscal            = _mm_and_pd(fscal,cutoff_mask);
2293
2294             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2295
2296             /* Calculate temporary vectorial force */
2297             tx               = _mm_mul_pd(fscal,dx12);
2298             ty               = _mm_mul_pd(fscal,dy12);
2299             tz               = _mm_mul_pd(fscal,dz12);
2300
2301             /* Update vectorial force */
2302             fix1             = _mm_add_pd(fix1,tx);
2303             fiy1             = _mm_add_pd(fiy1,ty);
2304             fiz1             = _mm_add_pd(fiz1,tz);
2305
2306             fjx2             = _mm_add_pd(fjx2,tx);
2307             fjy2             = _mm_add_pd(fjy2,ty);
2308             fjz2             = _mm_add_pd(fjz2,tz);
2309
2310             }
2311
2312             /**************************
2313              * CALCULATE INTERACTIONS *
2314              **************************/
2315
2316             if (gmx_mm_any_lt(rsq20,rcutoff2))
2317             {
2318
2319             r20              = _mm_mul_pd(rsq20,rinv20);
2320
2321             /* EWALD ELECTROSTATICS */
2322
2323             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2324             ewrt             = _mm_mul_pd(r20,ewtabscale);
2325             ewitab           = _mm_cvttpd_epi32(ewrt);
2326             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2327             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2328             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2329             felec            = _mm_mul_pd(_mm_mul_pd(qq20,rinv20),_mm_sub_pd(rinvsq20,felec));
2330
2331             cutoff_mask      = _mm_cmplt_pd(rsq20,rcutoff2);
2332
2333             fscal            = felec;
2334
2335             fscal            = _mm_and_pd(fscal,cutoff_mask);
2336
2337             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2338
2339             /* Calculate temporary vectorial force */
2340             tx               = _mm_mul_pd(fscal,dx20);
2341             ty               = _mm_mul_pd(fscal,dy20);
2342             tz               = _mm_mul_pd(fscal,dz20);
2343
2344             /* Update vectorial force */
2345             fix2             = _mm_add_pd(fix2,tx);
2346             fiy2             = _mm_add_pd(fiy2,ty);
2347             fiz2             = _mm_add_pd(fiz2,tz);
2348
2349             fjx0             = _mm_add_pd(fjx0,tx);
2350             fjy0             = _mm_add_pd(fjy0,ty);
2351             fjz0             = _mm_add_pd(fjz0,tz);
2352
2353             }
2354
2355             /**************************
2356              * CALCULATE INTERACTIONS *
2357              **************************/
2358
2359             if (gmx_mm_any_lt(rsq21,rcutoff2))
2360             {
2361
2362             r21              = _mm_mul_pd(rsq21,rinv21);
2363
2364             /* EWALD ELECTROSTATICS */
2365
2366             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2367             ewrt             = _mm_mul_pd(r21,ewtabscale);
2368             ewitab           = _mm_cvttpd_epi32(ewrt);
2369             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2370             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2371             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2372             felec            = _mm_mul_pd(_mm_mul_pd(qq21,rinv21),_mm_sub_pd(rinvsq21,felec));
2373
2374             cutoff_mask      = _mm_cmplt_pd(rsq21,rcutoff2);
2375
2376             fscal            = felec;
2377
2378             fscal            = _mm_and_pd(fscal,cutoff_mask);
2379
2380             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2381
2382             /* Calculate temporary vectorial force */
2383             tx               = _mm_mul_pd(fscal,dx21);
2384             ty               = _mm_mul_pd(fscal,dy21);
2385             tz               = _mm_mul_pd(fscal,dz21);
2386
2387             /* Update vectorial force */
2388             fix2             = _mm_add_pd(fix2,tx);
2389             fiy2             = _mm_add_pd(fiy2,ty);
2390             fiz2             = _mm_add_pd(fiz2,tz);
2391
2392             fjx1             = _mm_add_pd(fjx1,tx);
2393             fjy1             = _mm_add_pd(fjy1,ty);
2394             fjz1             = _mm_add_pd(fjz1,tz);
2395
2396             }
2397
2398             /**************************
2399              * CALCULATE INTERACTIONS *
2400              **************************/
2401
2402             if (gmx_mm_any_lt(rsq22,rcutoff2))
2403             {
2404
2405             r22              = _mm_mul_pd(rsq22,rinv22);
2406
2407             /* EWALD ELECTROSTATICS */
2408
2409             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2410             ewrt             = _mm_mul_pd(r22,ewtabscale);
2411             ewitab           = _mm_cvttpd_epi32(ewrt);
2412             eweps            = _mm_sub_pd(ewrt,_mm_cvtepi32_pd(ewitab));
2413             gmx_mm_load_1pair_swizzle_pd(ewtab+gmx_mm_extract_epi32(ewitab,0),&ewtabF,&ewtabFn);
2414             felec            = _mm_add_pd(_mm_mul_pd( _mm_sub_pd(one,eweps),ewtabF),_mm_mul_pd(eweps,ewtabFn));
2415             felec            = _mm_mul_pd(_mm_mul_pd(qq22,rinv22),_mm_sub_pd(rinvsq22,felec));
2416
2417             cutoff_mask      = _mm_cmplt_pd(rsq22,rcutoff2);
2418
2419             fscal            = felec;
2420
2421             fscal            = _mm_and_pd(fscal,cutoff_mask);
2422
2423             fscal            = _mm_unpacklo_pd(fscal,_mm_setzero_pd());
2424
2425             /* Calculate temporary vectorial force */
2426             tx               = _mm_mul_pd(fscal,dx22);
2427             ty               = _mm_mul_pd(fscal,dy22);
2428             tz               = _mm_mul_pd(fscal,dz22);
2429
2430             /* Update vectorial force */
2431             fix2             = _mm_add_pd(fix2,tx);
2432             fiy2             = _mm_add_pd(fiy2,ty);
2433             fiz2             = _mm_add_pd(fiz2,tz);
2434
2435             fjx2             = _mm_add_pd(fjx2,tx);
2436             fjy2             = _mm_add_pd(fjy2,ty);
2437             fjz2             = _mm_add_pd(fjz2,tz);
2438
2439             }
2440
2441             gmx_mm_decrement_3rvec_1ptr_swizzle_pd(f+j_coord_offsetA,fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
2442
2443             /* Inner loop uses 351 flops */
2444         }
2445
2446         /* End of innermost loop */
2447
2448         gmx_mm_update_iforce_3atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
2449                                               f+i_coord_offset,fshift+i_shift_offset);
2450
2451         /* Increment number of inner iterations */
2452         inneriter                  += j_index_end - j_index_start;
2453
2454         /* Outer loop uses 18 flops */
2455     }
2456
2457     /* Increment number of outer iterations */
2458     outeriter        += nri;
2459
2460     /* Update outer/inner flops */
2461
2462     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3W3_F,outeriter*18 + inneriter*351);
2463 }