src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecCoul_VdwCSTab_GeomW3P1_sse4_1_single.c

   1 /*
   2  * Note: this file was generated by the Gromacs sse4_1_single kernel generator.
   3  *
   4  *                This source code is part of
   5  *
   6  *                 G   R   O   M   A   C   S
   7  *
   8  * Copyright (c) 2001-2012, The GROMACS Development Team
   9  *
  10  * Gromacs is a library for molecular simulation and trajectory analysis,
  11  * written by Erik Lindahl, David van der Spoel, Berk Hess, and others - for
  12  * a full list of developers and information, check out http://www.gromacs.org
  13  *
  14  * This program is free software; you can redistribute it and/or modify it under
  15  * the terms of the GNU Lesser General Public License as published by the Free
  16  * Software Foundation; either version 2 of the License, or (at your option) any
  17  * later version.
  18  *
  19  * To help fund GROMACS development, we humbly ask that you cite
  20  * the papers people have written on it - you can find them on the website.
  21  */
  22 #ifdef HAVE_CONFIG_H
  23 #include <config.h>
  24 #endif
  25
  26 #include <math.h>
  27
  28 #include "../nb_kernel.h"
  29 #include "types/simple.h"
  30 #include "vec.h"
  31 #include "nrnb.h"
  32
  33 #include "gmx_math_x86_sse4_1_single.h"
  34 #include "kernelutil_x86_sse4_1_single.h"
  35
  36 /*
  37  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwCSTab_GeomW3P1_VF_sse4_1_single
  38  * Electrostatics interaction: Coulomb
  39  * VdW interaction:            CubicSplineTable
  40  * Geometry:                   Water3-Particle
  41  * Calculate force/pot:        PotentialAndForce
  42  */
  43 void
  44 nb_kernel_ElecCoul_VdwCSTab_GeomW3P1_VF_sse4_1_single
  45                     (t_nblist * gmx_restrict                nlist,
  46                      rvec * gmx_restrict                    xx,
  47                      rvec * gmx_restrict                    ff,
  48                      t_forcerec * gmx_restrict              fr,
  49                      t_mdatoms * gmx_restrict               mdatoms,
  50                      nb_kernel_data_t * gmx_restrict        kernel_data,
  51                      t_nrnb * gmx_restrict                  nrnb)
  52 {
  53     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  54      * just 0 for non-waters.
  55      * Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
  56      * jnr indices corresponding to data put in the four positions in the SIMD register.
  57      */
  58     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  59     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  60     int              jnrA,jnrB,jnrC,jnrD;
  61     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
  62     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
  63     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  64     real             rcutoff_scalar;
  65     real             *shiftvec,*fshift,*x,*f;
  66     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
  67     real             scratch[4*DIM];
  68     __m128           tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  69     int              vdwioffset0;
  70     __m128           ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
  71     int              vdwioffset1;
  72     __m128           ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  73     int              vdwioffset2;
  74     __m128           ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  75     int              vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
  76     __m128           jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  77     __m128           dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
  78     __m128           dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
  79     __m128           dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
  80     __m128           velec,felec,velecsum,facel,crf,krf,krf2;
  81     real             *charge;
  82     int              nvdwtype;
  83     __m128           rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
  84     int              *vdwtype;
  85     real             *vdwparam;
  86     __m128           one_sixth   = _mm_set1_ps(1.0/6.0);
  87     __m128           one_twelfth = _mm_set1_ps(1.0/12.0);
  88     __m128i          vfitab;
  89     __m128i          ifour       = _mm_set1_epi32(4);
  90     __m128           rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
  91     real             *vftab;
  92     __m128           dummy_mask,cutoff_mask;
  93     __m128           signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
  94     __m128           one     = _mm_set1_ps(1.0);
  95     __m128           two     = _mm_set1_ps(2.0);
  96     x                = xx[0];
  97     f                = ff[0];
  98
  99     nri              = nlist->nri;
 100     iinr             = nlist->iinr;
 101     jindex           = nlist->jindex;
 102     jjnr             = nlist->jjnr;
 103     shiftidx         = nlist->shift;
 104     gid              = nlist->gid;
 105     shiftvec         = fr->shift_vec[0];
 106     fshift           = fr->fshift[0];
 107     facel            = _mm_set1_ps(fr->epsfac);
 108     charge           = mdatoms->chargeA;
 109     nvdwtype         = fr->ntype;
 110     vdwparam         = fr->nbfp;
 111     vdwtype          = mdatoms->typeA;
 112
 113     vftab            = kernel_data->table_vdw->data;
 114     vftabscale       = _mm_set1_ps(kernel_data->table_vdw->scale);
 115
 116     /* Setup water-specific parameters */
 117     inr              = nlist->iinr[0];
 118     iq0              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
 119     iq1              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
 120     iq2              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
 121     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 122
 123     /* Avoid stupid compiler warnings */
 124     jnrA = jnrB = jnrC = jnrD = 0;
 125     j_coord_offsetA = 0;
 126     j_coord_offsetB = 0;
 127     j_coord_offsetC = 0;
 128     j_coord_offsetD = 0;
 129
 130     outeriter        = 0;
 131     inneriter        = 0;
 132
 133     for(iidx=0;iidx<4*DIM;iidx++)
 134     {
 135         scratch[iidx] = 0.0;
 136     }
 137
 138     /* Start outer loop over neighborlists */
 139     for(iidx=0; iidx<nri; iidx++)
 140     {
 141         /* Load shift vector for this list */
 142         i_shift_offset   = DIM*shiftidx[iidx];
 143
 144         /* Load limits for loop over neighbors */
 145         j_index_start    = jindex[iidx];
 146         j_index_end      = jindex[iidx+1];
 147
 148         /* Get outer coordinate index */
 149         inr              = iinr[iidx];
 150         i_coord_offset   = DIM*inr;
 151
 152         /* Load i particle coords and add shift vector */
 153         gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
 154                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
 155
 156         fix0             = _mm_setzero_ps();
 157         fiy0             = _mm_setzero_ps();
 158         fiz0             = _mm_setzero_ps();
 159         fix1             = _mm_setzero_ps();
 160         fiy1             = _mm_setzero_ps();
 161         fiz1             = _mm_setzero_ps();
 162         fix2             = _mm_setzero_ps();
 163         fiy2             = _mm_setzero_ps();
 164         fiz2             = _mm_setzero_ps();
 165
 166         /* Reset potential sums */
 167         velecsum         = _mm_setzero_ps();
 168         vvdwsum          = _mm_setzero_ps();
 169
 170         /* Start inner kernel loop */
 171         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
 172         {
 173
 174             /* Get j neighbor index, and coordinate index */
 175             jnrA             = jjnr[jidx];
 176             jnrB             = jjnr[jidx+1];
 177             jnrC             = jjnr[jidx+2];
 178             jnrD             = jjnr[jidx+3];
 179             j_coord_offsetA  = DIM*jnrA;
 180             j_coord_offsetB  = DIM*jnrB;
 181             j_coord_offsetC  = DIM*jnrC;
 182             j_coord_offsetD  = DIM*jnrD;
 183
 184             /* load j atom coordinates */
 185             gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
 186                                               x+j_coord_offsetC,x+j_coord_offsetD,
 187                                               &jx0,&jy0,&jz0);
 188
 189             /* Calculate displacement vector */
 190             dx00             = _mm_sub_ps(ix0,jx0);
 191             dy00             = _mm_sub_ps(iy0,jy0);
 192             dz00             = _mm_sub_ps(iz0,jz0);
 193             dx10             = _mm_sub_ps(ix1,jx0);
 194             dy10             = _mm_sub_ps(iy1,jy0);
 195             dz10             = _mm_sub_ps(iz1,jz0);
 196             dx20             = _mm_sub_ps(ix2,jx0);
 197             dy20             = _mm_sub_ps(iy2,jy0);
 198             dz20             = _mm_sub_ps(iz2,jz0);
 199
 200             /* Calculate squared distance and things based on it */
 201             rsq00            = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
 202             rsq10            = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
 203             rsq20            = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
 204
 205             rinv00           = gmx_mm_invsqrt_ps(rsq00);
 206             rinv10           = gmx_mm_invsqrt_ps(rsq10);
 207             rinv20           = gmx_mm_invsqrt_ps(rsq20);
 208
 209             rinvsq00         = _mm_mul_ps(rinv00,rinv00);
 210             rinvsq10         = _mm_mul_ps(rinv10,rinv10);
 211             rinvsq20         = _mm_mul_ps(rinv20,rinv20);
 212
 213             /* Load parameters for j particles */
 214             jq0              = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
 215                                                               charge+jnrC+0,charge+jnrD+0);
 216             vdwjidx0A        = 2*vdwtype[jnrA+0];
 217             vdwjidx0B        = 2*vdwtype[jnrB+0];
 218             vdwjidx0C        = 2*vdwtype[jnrC+0];
 219             vdwjidx0D        = 2*vdwtype[jnrD+0];
 220
 221             fjx0             = _mm_setzero_ps();
 222             fjy0             = _mm_setzero_ps();
 223             fjz0             = _mm_setzero_ps();
 224
 225             /**************************
 226              * CALCULATE INTERACTIONS *
 227              **************************/
 228
 229             r00              = _mm_mul_ps(rsq00,rinv00);
 230
 231             /* Compute parameters for interactions between i and j atoms */
 232             qq00             = _mm_mul_ps(iq0,jq0);
 233             gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
 234                                          vdwparam+vdwioffset0+vdwjidx0B,
 235                                          vdwparam+vdwioffset0+vdwjidx0C,
 236                                          vdwparam+vdwioffset0+vdwjidx0D,
 237                                          &c6_00,&c12_00);
 238
 239             /* Calculate table index by multiplying r with table scale and truncate to integer */
 240             rt               = _mm_mul_ps(r00,vftabscale);
 241             vfitab           = _mm_cvttps_epi32(rt);
 242             vfeps            = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR));
 243             vfitab           = _mm_slli_epi32(vfitab,3);
 244
 245             /* COULOMB ELECTROSTATICS */
 246             velec            = _mm_mul_ps(qq00,rinv00);
 247             felec            = _mm_mul_ps(velec,rinvsq00);
 248
 249             /* CUBIC SPLINE TABLE DISPERSION */
 250             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
 251             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
 252             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
 253             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
 254             _MM_TRANSPOSE4_PS(Y,F,G,H);
 255             Heps             = _mm_mul_ps(vfeps,H);
 256             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
 257             VV               = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
 258             vvdw6            = _mm_mul_ps(c6_00,VV);
 259             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
 260             fvdw6            = _mm_mul_ps(c6_00,FF);
 261
 262             /* CUBIC SPLINE TABLE REPULSION */
 263             vfitab           = _mm_add_epi32(vfitab,ifour);
 264             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
 265             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
 266             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
 267             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
 268             _MM_TRANSPOSE4_PS(Y,F,G,H);
 269             Heps             = _mm_mul_ps(vfeps,H);
 270             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
 271             VV               = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
 272             vvdw12           = _mm_mul_ps(c12_00,VV);
 273             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
 274             fvdw12           = _mm_mul_ps(c12_00,FF);
 275             vvdw             = _mm_add_ps(vvdw12,vvdw6);
 276             fvdw             = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
 277
 278             /* Update potential sum for this i atom from the interaction with this j atom. */
 279             velecsum         = _mm_add_ps(velecsum,velec);
 280             vvdwsum          = _mm_add_ps(vvdwsum,vvdw);
 281
 282             fscal            = _mm_add_ps(felec,fvdw);
 283
 284             /* Calculate temporary vectorial force */
 285             tx               = _mm_mul_ps(fscal,dx00);
 286             ty               = _mm_mul_ps(fscal,dy00);
 287             tz               = _mm_mul_ps(fscal,dz00);
 288
 289             /* Update vectorial force */
 290             fix0             = _mm_add_ps(fix0,tx);
 291             fiy0             = _mm_add_ps(fiy0,ty);
 292             fiz0             = _mm_add_ps(fiz0,tz);
 293
 294             fjx0             = _mm_add_ps(fjx0,tx);
 295             fjy0             = _mm_add_ps(fjy0,ty);
 296             fjz0             = _mm_add_ps(fjz0,tz);
 297
 298             /**************************
 299              * CALCULATE INTERACTIONS *
 300              **************************/
 301
 302             /* Compute parameters for interactions between i and j atoms */
 303             qq10             = _mm_mul_ps(iq1,jq0);
 304
 305             /* COULOMB ELECTROSTATICS */
 306             velec            = _mm_mul_ps(qq10,rinv10);
 307             felec            = _mm_mul_ps(velec,rinvsq10);
 308
 309             /* Update potential sum for this i atom from the interaction with this j atom. */
 310             velecsum         = _mm_add_ps(velecsum,velec);
 311
 312             fscal            = felec;
 313
 314             /* Calculate temporary vectorial force */
 315             tx               = _mm_mul_ps(fscal,dx10);
 316             ty               = _mm_mul_ps(fscal,dy10);
 317             tz               = _mm_mul_ps(fscal,dz10);
 318
 319             /* Update vectorial force */
 320             fix1             = _mm_add_ps(fix1,tx);
 321             fiy1             = _mm_add_ps(fiy1,ty);
 322             fiz1             = _mm_add_ps(fiz1,tz);
 323
 324             fjx0             = _mm_add_ps(fjx0,tx);
 325             fjy0             = _mm_add_ps(fjy0,ty);
 326             fjz0             = _mm_add_ps(fjz0,tz);
 327
 328             /**************************
 329              * CALCULATE INTERACTIONS *
 330              **************************/
 331
 332             /* Compute parameters for interactions between i and j atoms */
 333             qq20             = _mm_mul_ps(iq2,jq0);
 334
 335             /* COULOMB ELECTROSTATICS */
 336             velec            = _mm_mul_ps(qq20,rinv20);
 337             felec            = _mm_mul_ps(velec,rinvsq20);
 338
 339             /* Update potential sum for this i atom from the interaction with this j atom. */
 340             velecsum         = _mm_add_ps(velecsum,velec);
 341
 342             fscal            = felec;
 343
 344             /* Calculate temporary vectorial force */
 345             tx               = _mm_mul_ps(fscal,dx20);
 346             ty               = _mm_mul_ps(fscal,dy20);
 347             tz               = _mm_mul_ps(fscal,dz20);
 348
 349             /* Update vectorial force */
 350             fix2             = _mm_add_ps(fix2,tx);
 351             fiy2             = _mm_add_ps(fiy2,ty);
 352             fiz2             = _mm_add_ps(fiz2,tz);
 353
 354             fjx0             = _mm_add_ps(fjx0,tx);
 355             fjy0             = _mm_add_ps(fjy0,ty);
 356             fjz0             = _mm_add_ps(fjz0,tz);
 357
 358             fjptrA             = f+j_coord_offsetA;
 359             fjptrB             = f+j_coord_offsetB;
 360             fjptrC             = f+j_coord_offsetC;
 361             fjptrD             = f+j_coord_offsetD;
 362
 363             gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
 364
 365             /* Inner loop uses 119 flops */
 366         }
 367
 368         if(jidx<j_index_end)
 369         {
 370
 371             /* Get j neighbor index, and coordinate index */
 372             jnrlistA         = jjnr[jidx];
 373             jnrlistB         = jjnr[jidx+1];
 374             jnrlistC         = jjnr[jidx+2];
 375             jnrlistD         = jjnr[jidx+3];
 376             /* Sign of each element will be negative for non-real atoms.
 377              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
 378              * so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
 379              */
 380             dummy_mask = gmx_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
 381             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
 382             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
 383             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
 384             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
 385             j_coord_offsetA  = DIM*jnrA;
 386             j_coord_offsetB  = DIM*jnrB;
 387             j_coord_offsetC  = DIM*jnrC;
 388             j_coord_offsetD  = DIM*jnrD;
 389
 390             /* load j atom coordinates */
 391             gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
 392                                               x+j_coord_offsetC,x+j_coord_offsetD,
 393                                               &jx0,&jy0,&jz0);
 394
 395             /* Calculate displacement vector */
 396             dx00             = _mm_sub_ps(ix0,jx0);
 397             dy00             = _mm_sub_ps(iy0,jy0);
 398             dz00             = _mm_sub_ps(iz0,jz0);
 399             dx10             = _mm_sub_ps(ix1,jx0);
 400             dy10             = _mm_sub_ps(iy1,jy0);
 401             dz10             = _mm_sub_ps(iz1,jz0);
 402             dx20             = _mm_sub_ps(ix2,jx0);
 403             dy20             = _mm_sub_ps(iy2,jy0);
 404             dz20             = _mm_sub_ps(iz2,jz0);
 405
 406             /* Calculate squared distance and things based on it */
 407             rsq00            = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
 408             rsq10            = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
 409             rsq20            = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
 410
 411             rinv00           = gmx_mm_invsqrt_ps(rsq00);
 412             rinv10           = gmx_mm_invsqrt_ps(rsq10);
 413             rinv20           = gmx_mm_invsqrt_ps(rsq20);
 414
 415             rinvsq00         = _mm_mul_ps(rinv00,rinv00);
 416             rinvsq10         = _mm_mul_ps(rinv10,rinv10);
 417             rinvsq20         = _mm_mul_ps(rinv20,rinv20);
 418
 419             /* Load parameters for j particles */
 420             jq0              = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
 421                                                               charge+jnrC+0,charge+jnrD+0);
 422             vdwjidx0A        = 2*vdwtype[jnrA+0];
 423             vdwjidx0B        = 2*vdwtype[jnrB+0];
 424             vdwjidx0C        = 2*vdwtype[jnrC+0];
 425             vdwjidx0D        = 2*vdwtype[jnrD+0];
 426
 427             fjx0             = _mm_setzero_ps();
 428             fjy0             = _mm_setzero_ps();
 429             fjz0             = _mm_setzero_ps();
 430
 431             /**************************
 432              * CALCULATE INTERACTIONS *
 433              **************************/
 434
 435             r00              = _mm_mul_ps(rsq00,rinv00);
 436             r00              = _mm_andnot_ps(dummy_mask,r00);
 437
 438             /* Compute parameters for interactions between i and j atoms */
 439             qq00             = _mm_mul_ps(iq0,jq0);
 440             gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
 441                                          vdwparam+vdwioffset0+vdwjidx0B,
 442                                          vdwparam+vdwioffset0+vdwjidx0C,
 443                                          vdwparam+vdwioffset0+vdwjidx0D,
 444                                          &c6_00,&c12_00);
 445
 446             /* Calculate table index by multiplying r with table scale and truncate to integer */
 447             rt               = _mm_mul_ps(r00,vftabscale);
 448             vfitab           = _mm_cvttps_epi32(rt);
 449             vfeps            = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR));
 450             vfitab           = _mm_slli_epi32(vfitab,3);
 451
 452             /* COULOMB ELECTROSTATICS */
 453             velec            = _mm_mul_ps(qq00,rinv00);
 454             felec            = _mm_mul_ps(velec,rinvsq00);
 455
 456             /* CUBIC SPLINE TABLE DISPERSION */
 457             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
 458             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
 459             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
 460             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
 461             _MM_TRANSPOSE4_PS(Y,F,G,H);
 462             Heps             = _mm_mul_ps(vfeps,H);
 463             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
 464             VV               = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
 465             vvdw6            = _mm_mul_ps(c6_00,VV);
 466             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
 467             fvdw6            = _mm_mul_ps(c6_00,FF);
 468
 469             /* CUBIC SPLINE TABLE REPULSION */
 470             vfitab           = _mm_add_epi32(vfitab,ifour);
 471             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
 472             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
 473             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
 474             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
 475             _MM_TRANSPOSE4_PS(Y,F,G,H);
 476             Heps             = _mm_mul_ps(vfeps,H);
 477             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
 478             VV               = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
 479             vvdw12           = _mm_mul_ps(c12_00,VV);
 480             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
 481             fvdw12           = _mm_mul_ps(c12_00,FF);
 482             vvdw             = _mm_add_ps(vvdw12,vvdw6);
 483             fvdw             = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
 484
 485             /* Update potential sum for this i atom from the interaction with this j atom. */
 486             velec            = _mm_andnot_ps(dummy_mask,velec);
 487             velecsum         = _mm_add_ps(velecsum,velec);
 488             vvdw             = _mm_andnot_ps(dummy_mask,vvdw);
 489             vvdwsum          = _mm_add_ps(vvdwsum,vvdw);
 490
 491             fscal            = _mm_add_ps(felec,fvdw);
 492
 493             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 494
 495             /* Calculate temporary vectorial force */
 496             tx               = _mm_mul_ps(fscal,dx00);
 497             ty               = _mm_mul_ps(fscal,dy00);
 498             tz               = _mm_mul_ps(fscal,dz00);
 499
 500             /* Update vectorial force */
 501             fix0             = _mm_add_ps(fix0,tx);
 502             fiy0             = _mm_add_ps(fiy0,ty);
 503             fiz0             = _mm_add_ps(fiz0,tz);
 504
 505             fjx0             = _mm_add_ps(fjx0,tx);
 506             fjy0             = _mm_add_ps(fjy0,ty);
 507             fjz0             = _mm_add_ps(fjz0,tz);
 508
 509             /**************************
 510              * CALCULATE INTERACTIONS *
 511              **************************/
 512
 513             /* Compute parameters for interactions between i and j atoms */
 514             qq10             = _mm_mul_ps(iq1,jq0);
 515
 516             /* COULOMB ELECTROSTATICS */
 517             velec            = _mm_mul_ps(qq10,rinv10);
 518             felec            = _mm_mul_ps(velec,rinvsq10);
 519
 520             /* Update potential sum for this i atom from the interaction with this j atom. */
 521             velec            = _mm_andnot_ps(dummy_mask,velec);
 522             velecsum         = _mm_add_ps(velecsum,velec);
 523
 524             fscal            = felec;
 525
 526             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 527
 528             /* Calculate temporary vectorial force */
 529             tx               = _mm_mul_ps(fscal,dx10);
 530             ty               = _mm_mul_ps(fscal,dy10);
 531             tz               = _mm_mul_ps(fscal,dz10);
 532
 533             /* Update vectorial force */
 534             fix1             = _mm_add_ps(fix1,tx);
 535             fiy1             = _mm_add_ps(fiy1,ty);
 536             fiz1             = _mm_add_ps(fiz1,tz);
 537
 538             fjx0             = _mm_add_ps(fjx0,tx);
 539             fjy0             = _mm_add_ps(fjy0,ty);
 540             fjz0             = _mm_add_ps(fjz0,tz);
 541
 542             /**************************
 543              * CALCULATE INTERACTIONS *
 544              **************************/
 545
 546             /* Compute parameters for interactions between i and j atoms */
 547             qq20             = _mm_mul_ps(iq2,jq0);
 548
 549             /* COULOMB ELECTROSTATICS */
 550             velec            = _mm_mul_ps(qq20,rinv20);
 551             felec            = _mm_mul_ps(velec,rinvsq20);
 552
 553             /* Update potential sum for this i atom from the interaction with this j atom. */
 554             velec            = _mm_andnot_ps(dummy_mask,velec);
 555             velecsum         = _mm_add_ps(velecsum,velec);
 556
 557             fscal            = felec;
 558
 559             fscal            = _mm_andnot_ps(dummy_mask,fscal);
 560
 561             /* Calculate temporary vectorial force */
 562             tx               = _mm_mul_ps(fscal,dx20);
 563             ty               = _mm_mul_ps(fscal,dy20);
 564             tz               = _mm_mul_ps(fscal,dz20);
 565
 566             /* Update vectorial force */
 567             fix2             = _mm_add_ps(fix2,tx);
 568             fiy2             = _mm_add_ps(fiy2,ty);
 569             fiz2             = _mm_add_ps(fiz2,tz);
 570
 571             fjx0             = _mm_add_ps(fjx0,tx);
 572             fjy0             = _mm_add_ps(fjy0,ty);
 573             fjz0             = _mm_add_ps(fjz0,tz);
 574
 575             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
 576             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
 577             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
 578             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
 579
 580             gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
 581
 582             /* Inner loop uses 120 flops */
 583         }
 584
 585         /* End of innermost loop */
 586
 587         gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
 588                                               f+i_coord_offset,fshift+i_shift_offset);
 589
 590         ggid                        = gid[iidx];
 591         /* Update potential energies */
 592         gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
 593         gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
 594
 595         /* Increment number of inner iterations */
 596         inneriter                  += j_index_end - j_index_start;
 597
 598         /* Outer loop uses 20 flops */
 599     }
 600
 601     /* Increment number of outer iterations */
 602     outeriter        += nri;
 603
 604     /* Update outer/inner flops */
 605
 606     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W3_VF,outeriter*20 + inneriter*120);
 607 }
 608 /*
 609  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwCSTab_GeomW3P1_F_sse4_1_single
 610  * Electrostatics interaction: Coulomb
 611  * VdW interaction:            CubicSplineTable
 612  * Geometry:                   Water3-Particle
 613  * Calculate force/pot:        Force
 614  */
 615 void
 616 nb_kernel_ElecCoul_VdwCSTab_GeomW3P1_F_sse4_1_single
 617                     (t_nblist * gmx_restrict                nlist,
 618                      rvec * gmx_restrict                    xx,
 619                      rvec * gmx_restrict                    ff,
 620                      t_forcerec * gmx_restrict              fr,
 621                      t_mdatoms * gmx_restrict               mdatoms,
 622                      nb_kernel_data_t * gmx_restrict        kernel_data,
 623                      t_nrnb * gmx_restrict                  nrnb)
 624 {
 625     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 626      * just 0 for non-waters.
 627      * Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
 628      * jnr indices corresponding to data put in the four positions in the SIMD register.
 629      */
 630     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 631     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 632     int              jnrA,jnrB,jnrC,jnrD;
 633     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
 634     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
 635     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 636     real             rcutoff_scalar;
 637     real             *shiftvec,*fshift,*x,*f;
 638     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
 639     real             scratch[4*DIM];
 640     __m128           tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 641     int              vdwioffset0;
 642     __m128           ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
 643     int              vdwioffset1;
 644     __m128           ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 645     int              vdwioffset2;
 646     __m128           ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 647     int              vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
 648     __m128           jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
 649     __m128           dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
 650     __m128           dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
 651     __m128           dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
 652     __m128           velec,felec,velecsum,facel,crf,krf,krf2;
 653     real             *charge;
 654     int              nvdwtype;
 655     __m128           rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
 656     int              *vdwtype;
 657     real             *vdwparam;
 658     __m128           one_sixth   = _mm_set1_ps(1.0/6.0);
 659     __m128           one_twelfth = _mm_set1_ps(1.0/12.0);
 660     __m128i          vfitab;
 661     __m128i          ifour       = _mm_set1_epi32(4);
 662     __m128           rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
 663     real             *vftab;
 664     __m128           dummy_mask,cutoff_mask;
 665     __m128           signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
 666     __m128           one     = _mm_set1_ps(1.0);
 667     __m128           two     = _mm_set1_ps(2.0);
 668     x                = xx[0];
 669     f                = ff[0];
 670
 671     nri              = nlist->nri;
 672     iinr             = nlist->iinr;
 673     jindex           = nlist->jindex;
 674     jjnr             = nlist->jjnr;
 675     shiftidx         = nlist->shift;
 676     gid              = nlist->gid;
 677     shiftvec         = fr->shift_vec[0];
 678     fshift           = fr->fshift[0];
 679     facel            = _mm_set1_ps(fr->epsfac);
 680     charge           = mdatoms->chargeA;
 681     nvdwtype         = fr->ntype;
 682     vdwparam         = fr->nbfp;
 683     vdwtype          = mdatoms->typeA;
 684
 685     vftab            = kernel_data->table_vdw->data;
 686     vftabscale       = _mm_set1_ps(kernel_data->table_vdw->scale);
 687
 688     /* Setup water-specific parameters */
 689     inr              = nlist->iinr[0];
 690     iq0              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
 691     iq1              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
 692     iq2              = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
 693     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 694
 695     /* Avoid stupid compiler warnings */
 696     jnrA = jnrB = jnrC = jnrD = 0;
 697     j_coord_offsetA = 0;
 698     j_coord_offsetB = 0;
 699     j_coord_offsetC = 0;
 700     j_coord_offsetD = 0;
 701
 702     outeriter        = 0;
 703     inneriter        = 0;
 704
 705     for(iidx=0;iidx<4*DIM;iidx++)
 706     {
 707         scratch[iidx] = 0.0;
 708     }
 709
 710     /* Start outer loop over neighborlists */
 711     for(iidx=0; iidx<nri; iidx++)
 712     {
 713         /* Load shift vector for this list */
 714         i_shift_offset   = DIM*shiftidx[iidx];
 715
 716         /* Load limits for loop over neighbors */
 717         j_index_start    = jindex[iidx];
 718         j_index_end      = jindex[iidx+1];
 719
 720         /* Get outer coordinate index */
 721         inr              = iinr[iidx];
 722         i_coord_offset   = DIM*inr;
 723
 724         /* Load i particle coords and add shift vector */
 725         gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
 726                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
 727
 728         fix0             = _mm_setzero_ps();
 729         fiy0             = _mm_setzero_ps();
 730         fiz0             = _mm_setzero_ps();
 731         fix1             = _mm_setzero_ps();
 732         fiy1             = _mm_setzero_ps();
 733         fiz1             = _mm_setzero_ps();
 734         fix2             = _mm_setzero_ps();
 735         fiy2             = _mm_setzero_ps();
 736         fiz2             = _mm_setzero_ps();
 737
 738         /* Start inner kernel loop */
 739         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
 740         {
 741
 742             /* Get j neighbor index, and coordinate index */
 743             jnrA             = jjnr[jidx];
 744             jnrB             = jjnr[jidx+1];
 745             jnrC             = jjnr[jidx+2];
 746             jnrD             = jjnr[jidx+3];
 747             j_coord_offsetA  = DIM*jnrA;
 748             j_coord_offsetB  = DIM*jnrB;
 749             j_coord_offsetC  = DIM*jnrC;
 750             j_coord_offsetD  = DIM*jnrD;
 751
 752             /* load j atom coordinates */
 753             gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
 754                                               x+j_coord_offsetC,x+j_coord_offsetD,
 755                                               &jx0,&jy0,&jz0);
 756
 757             /* Calculate displacement vector */
 758             dx00             = _mm_sub_ps(ix0,jx0);
 759             dy00             = _mm_sub_ps(iy0,jy0);
 760             dz00             = _mm_sub_ps(iz0,jz0);
 761             dx10             = _mm_sub_ps(ix1,jx0);
 762             dy10             = _mm_sub_ps(iy1,jy0);
 763             dz10             = _mm_sub_ps(iz1,jz0);
 764             dx20             = _mm_sub_ps(ix2,jx0);
 765             dy20             = _mm_sub_ps(iy2,jy0);
 766             dz20             = _mm_sub_ps(iz2,jz0);
 767
 768             /* Calculate squared distance and things based on it */
 769             rsq00            = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
 770             rsq10            = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
 771             rsq20            = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
 772
 773             rinv00           = gmx_mm_invsqrt_ps(rsq00);
 774             rinv10           = gmx_mm_invsqrt_ps(rsq10);
 775             rinv20           = gmx_mm_invsqrt_ps(rsq20);
 776
 777             rinvsq00         = _mm_mul_ps(rinv00,rinv00);
 778             rinvsq10         = _mm_mul_ps(rinv10,rinv10);
 779             rinvsq20         = _mm_mul_ps(rinv20,rinv20);
 780
 781             /* Load parameters for j particles */
 782             jq0              = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
 783                                                               charge+jnrC+0,charge+jnrD+0);
 784             vdwjidx0A        = 2*vdwtype[jnrA+0];
 785             vdwjidx0B        = 2*vdwtype[jnrB+0];
 786             vdwjidx0C        = 2*vdwtype[jnrC+0];
 787             vdwjidx0D        = 2*vdwtype[jnrD+0];
 788
 789             fjx0             = _mm_setzero_ps();
 790             fjy0             = _mm_setzero_ps();
 791             fjz0             = _mm_setzero_ps();
 792
 793             /**************************
 794              * CALCULATE INTERACTIONS *
 795              **************************/
 796
 797             r00              = _mm_mul_ps(rsq00,rinv00);
 798
 799             /* Compute parameters for interactions between i and j atoms */
 800             qq00             = _mm_mul_ps(iq0,jq0);
 801             gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
 802                                          vdwparam+vdwioffset0+vdwjidx0B,
 803                                          vdwparam+vdwioffset0+vdwjidx0C,
 804                                          vdwparam+vdwioffset0+vdwjidx0D,
 805                                          &c6_00,&c12_00);
 806
 807             /* Calculate table index by multiplying r with table scale and truncate to integer */
 808             rt               = _mm_mul_ps(r00,vftabscale);
 809             vfitab           = _mm_cvttps_epi32(rt);
 810             vfeps            = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR));
 811             vfitab           = _mm_slli_epi32(vfitab,3);
 812
 813             /* COULOMB ELECTROSTATICS */
 814             velec            = _mm_mul_ps(qq00,rinv00);
 815             felec            = _mm_mul_ps(velec,rinvsq00);
 816
 817             /* CUBIC SPLINE TABLE DISPERSION */
 818             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
 819             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
 820             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
 821             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
 822             _MM_TRANSPOSE4_PS(Y,F,G,H);
 823             Heps             = _mm_mul_ps(vfeps,H);
 824             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
 825             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
 826             fvdw6            = _mm_mul_ps(c6_00,FF);
 827
 828             /* CUBIC SPLINE TABLE REPULSION */
 829             vfitab           = _mm_add_epi32(vfitab,ifour);
 830             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
 831             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
 832             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
 833             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
 834             _MM_TRANSPOSE4_PS(Y,F,G,H);
 835             Heps             = _mm_mul_ps(vfeps,H);
 836             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
 837             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
 838             fvdw12           = _mm_mul_ps(c12_00,FF);
 839             fvdw             = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
 840
 841             fscal            = _mm_add_ps(felec,fvdw);
 842
 843             /* Calculate temporary vectorial force */
 844             tx               = _mm_mul_ps(fscal,dx00);
 845             ty               = _mm_mul_ps(fscal,dy00);
 846             tz               = _mm_mul_ps(fscal,dz00);
 847
 848             /* Update vectorial force */
 849             fix0             = _mm_add_ps(fix0,tx);
 850             fiy0             = _mm_add_ps(fiy0,ty);
 851             fiz0             = _mm_add_ps(fiz0,tz);
 852
 853             fjx0             = _mm_add_ps(fjx0,tx);
 854             fjy0             = _mm_add_ps(fjy0,ty);
 855             fjz0             = _mm_add_ps(fjz0,tz);
 856
 857             /**************************
 858              * CALCULATE INTERACTIONS *
 859              **************************/
 860
 861             /* Compute parameters for interactions between i and j atoms */
 862             qq10             = _mm_mul_ps(iq1,jq0);
 863
 864             /* COULOMB ELECTROSTATICS */
 865             velec            = _mm_mul_ps(qq10,rinv10);
 866             felec            = _mm_mul_ps(velec,rinvsq10);
 867
 868             fscal            = felec;
 869
 870             /* Calculate temporary vectorial force */
 871             tx               = _mm_mul_ps(fscal,dx10);
 872             ty               = _mm_mul_ps(fscal,dy10);
 873             tz               = _mm_mul_ps(fscal,dz10);
 874
 875             /* Update vectorial force */
 876             fix1             = _mm_add_ps(fix1,tx);
 877             fiy1             = _mm_add_ps(fiy1,ty);
 878             fiz1             = _mm_add_ps(fiz1,tz);
 879
 880             fjx0             = _mm_add_ps(fjx0,tx);
 881             fjy0             = _mm_add_ps(fjy0,ty);
 882             fjz0             = _mm_add_ps(fjz0,tz);
 883
 884             /**************************
 885              * CALCULATE INTERACTIONS *
 886              **************************/
 887
 888             /* Compute parameters for interactions between i and j atoms */
 889             qq20             = _mm_mul_ps(iq2,jq0);
 890
 891             /* COULOMB ELECTROSTATICS */
 892             velec            = _mm_mul_ps(qq20,rinv20);
 893             felec            = _mm_mul_ps(velec,rinvsq20);
 894
 895             fscal            = felec;
 896
 897             /* Calculate temporary vectorial force */
 898             tx               = _mm_mul_ps(fscal,dx20);
 899             ty               = _mm_mul_ps(fscal,dy20);
 900             tz               = _mm_mul_ps(fscal,dz20);
 901
 902             /* Update vectorial force */
 903             fix2             = _mm_add_ps(fix2,tx);
 904             fiy2             = _mm_add_ps(fiy2,ty);
 905             fiz2             = _mm_add_ps(fiz2,tz);
 906
 907             fjx0             = _mm_add_ps(fjx0,tx);
 908             fjy0             = _mm_add_ps(fjy0,ty);
 909             fjz0             = _mm_add_ps(fjz0,tz);
 910
 911             fjptrA             = f+j_coord_offsetA;
 912             fjptrB             = f+j_coord_offsetB;
 913             fjptrC             = f+j_coord_offsetC;
 914             fjptrD             = f+j_coord_offsetD;
 915
 916             gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
 917
 918             /* Inner loop uses 108 flops */
 919         }
 920
 921         if(jidx<j_index_end)
 922         {
 923
 924             /* Get j neighbor index, and coordinate index */
 925             jnrlistA         = jjnr[jidx];
 926             jnrlistB         = jjnr[jidx+1];
 927             jnrlistC         = jjnr[jidx+2];
 928             jnrlistD         = jjnr[jidx+3];
 929             /* Sign of each element will be negative for non-real atoms.
 930              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
 931              * so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
 932              */
 933             dummy_mask = gmx_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
 934             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
 935             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
 936             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
 937             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
 938             j_coord_offsetA  = DIM*jnrA;
 939             j_coord_offsetB  = DIM*jnrB;
 940             j_coord_offsetC  = DIM*jnrC;
 941             j_coord_offsetD  = DIM*jnrD;
 942
 943             /* load j atom coordinates */
 944             gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
 945                                               x+j_coord_offsetC,x+j_coord_offsetD,
 946                                               &jx0,&jy0,&jz0);
 947
 948             /* Calculate displacement vector */
 949             dx00             = _mm_sub_ps(ix0,jx0);
 950             dy00             = _mm_sub_ps(iy0,jy0);
 951             dz00             = _mm_sub_ps(iz0,jz0);
 952             dx10             = _mm_sub_ps(ix1,jx0);
 953             dy10             = _mm_sub_ps(iy1,jy0);
 954             dz10             = _mm_sub_ps(iz1,jz0);
 955             dx20             = _mm_sub_ps(ix2,jx0);
 956             dy20             = _mm_sub_ps(iy2,jy0);
 957             dz20             = _mm_sub_ps(iz2,jz0);
 958
 959             /* Calculate squared distance and things based on it */
 960             rsq00            = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
 961             rsq10            = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
 962             rsq20            = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
 963
 964             rinv00           = gmx_mm_invsqrt_ps(rsq00);
 965             rinv10           = gmx_mm_invsqrt_ps(rsq10);
 966             rinv20           = gmx_mm_invsqrt_ps(rsq20);
 967
 968             rinvsq00         = _mm_mul_ps(rinv00,rinv00);
 969             rinvsq10         = _mm_mul_ps(rinv10,rinv10);
 970             rinvsq20         = _mm_mul_ps(rinv20,rinv20);
 971
 972             /* Load parameters for j particles */
 973             jq0              = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
 974                                                               charge+jnrC+0,charge+jnrD+0);
 975             vdwjidx0A        = 2*vdwtype[jnrA+0];
 976             vdwjidx0B        = 2*vdwtype[jnrB+0];
 977             vdwjidx0C        = 2*vdwtype[jnrC+0];
 978             vdwjidx0D        = 2*vdwtype[jnrD+0];
 979
 980             fjx0             = _mm_setzero_ps();
 981             fjy0             = _mm_setzero_ps();
 982             fjz0             = _mm_setzero_ps();
 983
 984             /**************************
 985              * CALCULATE INTERACTIONS *
 986              **************************/
 987
 988             r00              = _mm_mul_ps(rsq00,rinv00);
 989             r00              = _mm_andnot_ps(dummy_mask,r00);
 990
 991             /* Compute parameters for interactions between i and j atoms */
 992             qq00             = _mm_mul_ps(iq0,jq0);
 993             gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
 994                                          vdwparam+vdwioffset0+vdwjidx0B,
 995                                          vdwparam+vdwioffset0+vdwjidx0C,
 996                                          vdwparam+vdwioffset0+vdwjidx0D,
 997                                          &c6_00,&c12_00);
 998
 999             /* Calculate table index by multiplying r with table scale and truncate to integer */
1000             rt               = _mm_mul_ps(r00,vftabscale);
1001             vfitab           = _mm_cvttps_epi32(rt);
1002             vfeps            = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR));
1003             vfitab           = _mm_slli_epi32(vfitab,3);
1004
1005             /* COULOMB ELECTROSTATICS */
1006             velec            = _mm_mul_ps(qq00,rinv00);
1007             felec            = _mm_mul_ps(velec,rinvsq00);
1008
1009             /* CUBIC SPLINE TABLE DISPERSION */
1010             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
1011             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
1012             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
1013             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
1014             _MM_TRANSPOSE4_PS(Y,F,G,H);
1015             Heps             = _mm_mul_ps(vfeps,H);
1016             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1017             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1018             fvdw6            = _mm_mul_ps(c6_00,FF);
1019
1020             /* CUBIC SPLINE TABLE REPULSION */
1021             vfitab           = _mm_add_epi32(vfitab,ifour);
1022             Y                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0) );
1023             F                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1) );
1024             G                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2) );
1025             H                = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3) );
1026             _MM_TRANSPOSE4_PS(Y,F,G,H);
1027             Heps             = _mm_mul_ps(vfeps,H);
1028             Fp               = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1029             FF               = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1030             fvdw12           = _mm_mul_ps(c12_00,FF);
1031             fvdw             = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
1032
1033             fscal            = _mm_add_ps(felec,fvdw);
1034
1035             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1036
1037             /* Calculate temporary vectorial force */
1038             tx               = _mm_mul_ps(fscal,dx00);
1039             ty               = _mm_mul_ps(fscal,dy00);
1040             tz               = _mm_mul_ps(fscal,dz00);
1041
1042             /* Update vectorial force */
1043             fix0             = _mm_add_ps(fix0,tx);
1044             fiy0             = _mm_add_ps(fiy0,ty);
1045             fiz0             = _mm_add_ps(fiz0,tz);
1046
1047             fjx0             = _mm_add_ps(fjx0,tx);
1048             fjy0             = _mm_add_ps(fjy0,ty);
1049             fjz0             = _mm_add_ps(fjz0,tz);
1050
1051             /**************************
1052              * CALCULATE INTERACTIONS *
1053              **************************/
1054
1055             /* Compute parameters for interactions between i and j atoms */
1056             qq10             = _mm_mul_ps(iq1,jq0);
1057
1058             /* COULOMB ELECTROSTATICS */
1059             velec            = _mm_mul_ps(qq10,rinv10);
1060             felec            = _mm_mul_ps(velec,rinvsq10);
1061
1062             fscal            = felec;
1063
1064             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1065
1066             /* Calculate temporary vectorial force */
1067             tx               = _mm_mul_ps(fscal,dx10);
1068             ty               = _mm_mul_ps(fscal,dy10);
1069             tz               = _mm_mul_ps(fscal,dz10);
1070
1071             /* Update vectorial force */
1072             fix1             = _mm_add_ps(fix1,tx);
1073             fiy1             = _mm_add_ps(fiy1,ty);
1074             fiz1             = _mm_add_ps(fiz1,tz);
1075
1076             fjx0             = _mm_add_ps(fjx0,tx);
1077             fjy0             = _mm_add_ps(fjy0,ty);
1078             fjz0             = _mm_add_ps(fjz0,tz);
1079
1080             /**************************
1081              * CALCULATE INTERACTIONS *
1082              **************************/
1083
1084             /* Compute parameters for interactions between i and j atoms */
1085             qq20             = _mm_mul_ps(iq2,jq0);
1086
1087             /* COULOMB ELECTROSTATICS */
1088             velec            = _mm_mul_ps(qq20,rinv20);
1089             felec            = _mm_mul_ps(velec,rinvsq20);
1090
1091             fscal            = felec;
1092
1093             fscal            = _mm_andnot_ps(dummy_mask,fscal);
1094
1095             /* Calculate temporary vectorial force */
1096             tx               = _mm_mul_ps(fscal,dx20);
1097             ty               = _mm_mul_ps(fscal,dy20);
1098             tz               = _mm_mul_ps(fscal,dz20);
1099
1100             /* Update vectorial force */
1101             fix2             = _mm_add_ps(fix2,tx);
1102             fiy2             = _mm_add_ps(fiy2,ty);
1103             fiz2             = _mm_add_ps(fiz2,tz);
1104
1105             fjx0             = _mm_add_ps(fjx0,tx);
1106             fjy0             = _mm_add_ps(fjy0,ty);
1107             fjz0             = _mm_add_ps(fjz0,tz);
1108
1109             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1110             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1111             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1112             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1113
1114             gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1115
1116             /* Inner loop uses 109 flops */
1117         }
1118
1119         /* End of innermost loop */
1120
1121         gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1122                                               f+i_coord_offset,fshift+i_shift_offset);
1123
1124         /* Increment number of inner iterations */
1125         inneriter                  += j_index_end - j_index_start;
1126
1127         /* Outer loop uses 18 flops */
1128     }
1129
1130     /* Increment number of outer iterations */
1131     outeriter        += nri;
1132
1133     /* Update outer/inner flops */
1134
1135     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W3_F,outeriter*18 + inneriter*109);
1136 }