src/gromacs/gmxlib/nonbonded/nb_kernel_avx_256_double/nb_kernel_ElecCoul_VdwNone_GeomW3W3_avx_256_double.c

   1 /*
   2  * This file is part of the GROMACS molecular simulation package.
   3  *
   4  * Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
   5  * Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
   6  * and including many others, as listed in the AUTHORS file in the
   7  * top-level source directory and at http://www.gromacs.org.
   8  *
   9  * GROMACS is free software; you can redistribute it and/or
  10  * modify it under the terms of the GNU Lesser General Public License
  11  * as published by the Free Software Foundation; either version 2.1
  12  * of the License, or (at your option) any later version.
  13  *
  14  * GROMACS is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17  * Lesser General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU Lesser General Public
  20  * License along with GROMACS; if not, see
  21  * http://www.gnu.org/licenses, or write to the Free Software Foundation,
  22  * Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA.
  23  *
  24  * If you want to redistribute modifications to GROMACS, please
  25  * consider that scientific software is very special. Version
  26  * control is crucial - bugs must be traceable. We will be happy to
  27  * consider code for inclusion in the official distribution, but
  28  * derived work must not be called official GROMACS. Details are found
  29  * in the README & COPYING files - if they are missing, get the
  30  * official version at http://www.gromacs.org.
  31  *
  32  * To help us fund GROMACS development, we humbly ask that you cite
  33  * the research papers on the package. Check out http://www.gromacs.org.
  34  */
  35 /*
  36  * Note: this file was generated by the GROMACS avx_256_double kernel generator.
  37  */
  38 #include "config.h"
  39
  40 #include <math.h>
  41
  42 #include "../nb_kernel.h"
  43 #include "types/simple.h"
  44 #include "gromacs/math/vec.h"
  45 #include "nrnb.h"
  46
  47 #include "gromacs/simd/math_x86_avx_256_double.h"
  48 #include "kernelutil_x86_avx_256_double.h"
  49
  50 /*
  51  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwNone_GeomW3W3_VF_avx_256_double
  52  * Electrostatics interaction: Coulomb
  53  * VdW interaction:            None
  54  * Geometry:                   Water3-Water3
  55  * Calculate force/pot:        PotentialAndForce
  56  */
  57 void
  58 nb_kernel_ElecCoul_VdwNone_GeomW3W3_VF_avx_256_double
  59                     (t_nblist                    * gmx_restrict       nlist,
  60                      rvec                        * gmx_restrict          xx,
  61                      rvec                        * gmx_restrict          ff,
  62                      t_forcerec                  * gmx_restrict          fr,
  63                      t_mdatoms                   * gmx_restrict     mdatoms,
  64                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
  65                      t_nrnb                      * gmx_restrict        nrnb)
  66 {
  67     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  68      * just 0 for non-waters.
  69      * Suffixes A,B,C,D refer to j loop unrolling done with AVX, e.g. for the four different
  70      * jnr indices corresponding to data put in the four positions in the SIMD register.
  71      */
  72     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  73     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  74     int              jnrA,jnrB,jnrC,jnrD;
  75     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
  76     int              jnrlistE,jnrlistF,jnrlistG,jnrlistH;
  77     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
  78     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  79     real             rcutoff_scalar;
  80     real             *shiftvec,*fshift,*x,*f;
  81     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
  82     real             scratch[4*DIM];
  83     __m256d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  84     real *           vdwioffsetptr0;
  85     __m256d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
  86     real *           vdwioffsetptr1;
  87     __m256d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  88     real *           vdwioffsetptr2;
  89     __m256d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  90     int              vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
  91     __m256d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  92     int              vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
  93     __m256d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
  94     int              vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
  95     __m256d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
  96     __m256d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
  97     __m256d          dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
  98     __m256d          dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
  99     __m256d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
 100     __m256d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
 101     __m256d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
 102     __m256d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
 103     __m256d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 104     __m256d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 105     __m256d          velec,felec,velecsum,facel,crf,krf,krf2;
 106     real             *charge;
 107     __m256d          dummy_mask,cutoff_mask;
 108     __m128           tmpmask0,tmpmask1;
 109     __m256d          signbit = _mm256_castsi256_pd( _mm256_set1_epi32(0x80000000) );
 110     __m256d          one     = _mm256_set1_pd(1.0);
 111     __m256d          two     = _mm256_set1_pd(2.0);
 112     x                = xx[0];
 113     f                = ff[0];
 114
 115     nri              = nlist->nri;
 116     iinr             = nlist->iinr;
 117     jindex           = nlist->jindex;
 118     jjnr             = nlist->jjnr;
 119     shiftidx         = nlist->shift;
 120     gid              = nlist->gid;
 121     shiftvec         = fr->shift_vec[0];
 122     fshift           = fr->fshift[0];
 123     facel            = _mm256_set1_pd(fr->epsfac);
 124     charge           = mdatoms->chargeA;
 125
 126     /* Setup water-specific parameters */
 127     inr              = nlist->iinr[0];
 128     iq0              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+0]));
 129     iq1              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+1]));
 130     iq2              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+2]));
 131
 132     jq0              = _mm256_set1_pd(charge[inr+0]);
 133     jq1              = _mm256_set1_pd(charge[inr+1]);
 134     jq2              = _mm256_set1_pd(charge[inr+2]);
 135     qq00             = _mm256_mul_pd(iq0,jq0);
 136     qq01             = _mm256_mul_pd(iq0,jq1);
 137     qq02             = _mm256_mul_pd(iq0,jq2);
 138     qq10             = _mm256_mul_pd(iq1,jq0);
 139     qq11             = _mm256_mul_pd(iq1,jq1);
 140     qq12             = _mm256_mul_pd(iq1,jq2);
 141     qq20             = _mm256_mul_pd(iq2,jq0);
 142     qq21             = _mm256_mul_pd(iq2,jq1);
 143     qq22             = _mm256_mul_pd(iq2,jq2);
 144
 145     /* Avoid stupid compiler warnings */
 146     jnrA = jnrB = jnrC = jnrD = 0;
 147     j_coord_offsetA = 0;
 148     j_coord_offsetB = 0;
 149     j_coord_offsetC = 0;
 150     j_coord_offsetD = 0;
 151
 152     outeriter        = 0;
 153     inneriter        = 0;
 154
 155     for(iidx=0;iidx<4*DIM;iidx++)
 156     {
 157         scratch[iidx] = 0.0;
 158     }
 159
 160     /* Start outer loop over neighborlists */
 161     for(iidx=0; iidx<nri; iidx++)
 162     {
 163         /* Load shift vector for this list */
 164         i_shift_offset   = DIM*shiftidx[iidx];
 165
 166         /* Load limits for loop over neighbors */
 167         j_index_start    = jindex[iidx];
 168         j_index_end      = jindex[iidx+1];
 169
 170         /* Get outer coordinate index */
 171         inr              = iinr[iidx];
 172         i_coord_offset   = DIM*inr;
 173
 174         /* Load i particle coords and add shift vector */
 175         gmx_mm256_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
 176                                                     &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
 177
 178         fix0             = _mm256_setzero_pd();
 179         fiy0             = _mm256_setzero_pd();
 180         fiz0             = _mm256_setzero_pd();
 181         fix1             = _mm256_setzero_pd();
 182         fiy1             = _mm256_setzero_pd();
 183         fiz1             = _mm256_setzero_pd();
 184         fix2             = _mm256_setzero_pd();
 185         fiy2             = _mm256_setzero_pd();
 186         fiz2             = _mm256_setzero_pd();
 187
 188         /* Reset potential sums */
 189         velecsum         = _mm256_setzero_pd();
 190
 191         /* Start inner kernel loop */
 192         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
 193         {
 194
 195             /* Get j neighbor index, and coordinate index */
 196             jnrA             = jjnr[jidx];
 197             jnrB             = jjnr[jidx+1];
 198             jnrC             = jjnr[jidx+2];
 199             jnrD             = jjnr[jidx+3];
 200             j_coord_offsetA  = DIM*jnrA;
 201             j_coord_offsetB  = DIM*jnrB;
 202             j_coord_offsetC  = DIM*jnrC;
 203             j_coord_offsetD  = DIM*jnrD;
 204
 205             /* load j atom coordinates */
 206             gmx_mm256_load_3rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 207                                                  x+j_coord_offsetC,x+j_coord_offsetD,
 208                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
 209
 210             /* Calculate displacement vector */
 211             dx00             = _mm256_sub_pd(ix0,jx0);
 212             dy00             = _mm256_sub_pd(iy0,jy0);
 213             dz00             = _mm256_sub_pd(iz0,jz0);
 214             dx01             = _mm256_sub_pd(ix0,jx1);
 215             dy01             = _mm256_sub_pd(iy0,jy1);
 216             dz01             = _mm256_sub_pd(iz0,jz1);
 217             dx02             = _mm256_sub_pd(ix0,jx2);
 218             dy02             = _mm256_sub_pd(iy0,jy2);
 219             dz02             = _mm256_sub_pd(iz0,jz2);
 220             dx10             = _mm256_sub_pd(ix1,jx0);
 221             dy10             = _mm256_sub_pd(iy1,jy0);
 222             dz10             = _mm256_sub_pd(iz1,jz0);
 223             dx11             = _mm256_sub_pd(ix1,jx1);
 224             dy11             = _mm256_sub_pd(iy1,jy1);
 225             dz11             = _mm256_sub_pd(iz1,jz1);
 226             dx12             = _mm256_sub_pd(ix1,jx2);
 227             dy12             = _mm256_sub_pd(iy1,jy2);
 228             dz12             = _mm256_sub_pd(iz1,jz2);
 229             dx20             = _mm256_sub_pd(ix2,jx0);
 230             dy20             = _mm256_sub_pd(iy2,jy0);
 231             dz20             = _mm256_sub_pd(iz2,jz0);
 232             dx21             = _mm256_sub_pd(ix2,jx1);
 233             dy21             = _mm256_sub_pd(iy2,jy1);
 234             dz21             = _mm256_sub_pd(iz2,jz1);
 235             dx22             = _mm256_sub_pd(ix2,jx2);
 236             dy22             = _mm256_sub_pd(iy2,jy2);
 237             dz22             = _mm256_sub_pd(iz2,jz2);
 238
 239             /* Calculate squared distance and things based on it */
 240             rsq00            = gmx_mm256_calc_rsq_pd(dx00,dy00,dz00);
 241             rsq01            = gmx_mm256_calc_rsq_pd(dx01,dy01,dz01);
 242             rsq02            = gmx_mm256_calc_rsq_pd(dx02,dy02,dz02);
 243             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
 244             rsq11            = gmx_mm256_calc_rsq_pd(dx11,dy11,dz11);
 245             rsq12            = gmx_mm256_calc_rsq_pd(dx12,dy12,dz12);
 246             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
 247             rsq21            = gmx_mm256_calc_rsq_pd(dx21,dy21,dz21);
 248             rsq22            = gmx_mm256_calc_rsq_pd(dx22,dy22,dz22);
 249
 250             rinv00           = gmx_mm256_invsqrt_pd(rsq00);
 251             rinv01           = gmx_mm256_invsqrt_pd(rsq01);
 252             rinv02           = gmx_mm256_invsqrt_pd(rsq02);
 253             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
 254             rinv11           = gmx_mm256_invsqrt_pd(rsq11);
 255             rinv12           = gmx_mm256_invsqrt_pd(rsq12);
 256             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
 257             rinv21           = gmx_mm256_invsqrt_pd(rsq21);
 258             rinv22           = gmx_mm256_invsqrt_pd(rsq22);
 259
 260             rinvsq00         = _mm256_mul_pd(rinv00,rinv00);
 261             rinvsq01         = _mm256_mul_pd(rinv01,rinv01);
 262             rinvsq02         = _mm256_mul_pd(rinv02,rinv02);
 263             rinvsq10         = _mm256_mul_pd(rinv10,rinv10);
 264             rinvsq11         = _mm256_mul_pd(rinv11,rinv11);
 265             rinvsq12         = _mm256_mul_pd(rinv12,rinv12);
 266             rinvsq20         = _mm256_mul_pd(rinv20,rinv20);
 267             rinvsq21         = _mm256_mul_pd(rinv21,rinv21);
 268             rinvsq22         = _mm256_mul_pd(rinv22,rinv22);
 269
 270             fjx0             = _mm256_setzero_pd();
 271             fjy0             = _mm256_setzero_pd();
 272             fjz0             = _mm256_setzero_pd();
 273             fjx1             = _mm256_setzero_pd();
 274             fjy1             = _mm256_setzero_pd();
 275             fjz1             = _mm256_setzero_pd();
 276             fjx2             = _mm256_setzero_pd();
 277             fjy2             = _mm256_setzero_pd();
 278             fjz2             = _mm256_setzero_pd();
 279
 280             /**************************
 281              * CALCULATE INTERACTIONS *
 282              **************************/
 283
 284             /* COULOMB ELECTROSTATICS */
 285             velec            = _mm256_mul_pd(qq00,rinv00);
 286             felec            = _mm256_mul_pd(velec,rinvsq00);
 287
 288             /* Update potential sum for this i atom from the interaction with this j atom. */
 289             velecsum         = _mm256_add_pd(velecsum,velec);
 290
 291             fscal            = felec;
 292
 293             /* Calculate temporary vectorial force */
 294             tx               = _mm256_mul_pd(fscal,dx00);
 295             ty               = _mm256_mul_pd(fscal,dy00);
 296             tz               = _mm256_mul_pd(fscal,dz00);
 297
 298             /* Update vectorial force */
 299             fix0             = _mm256_add_pd(fix0,tx);
 300             fiy0             = _mm256_add_pd(fiy0,ty);
 301             fiz0             = _mm256_add_pd(fiz0,tz);
 302
 303             fjx0             = _mm256_add_pd(fjx0,tx);
 304             fjy0             = _mm256_add_pd(fjy0,ty);
 305             fjz0             = _mm256_add_pd(fjz0,tz);
 306
 307             /**************************
 308              * CALCULATE INTERACTIONS *
 309              **************************/
 310
 311             /* COULOMB ELECTROSTATICS */
 312             velec            = _mm256_mul_pd(qq01,rinv01);
 313             felec            = _mm256_mul_pd(velec,rinvsq01);
 314
 315             /* Update potential sum for this i atom from the interaction with this j atom. */
 316             velecsum         = _mm256_add_pd(velecsum,velec);
 317
 318             fscal            = felec;
 319
 320             /* Calculate temporary vectorial force */
 321             tx               = _mm256_mul_pd(fscal,dx01);
 322             ty               = _mm256_mul_pd(fscal,dy01);
 323             tz               = _mm256_mul_pd(fscal,dz01);
 324
 325             /* Update vectorial force */
 326             fix0             = _mm256_add_pd(fix0,tx);
 327             fiy0             = _mm256_add_pd(fiy0,ty);
 328             fiz0             = _mm256_add_pd(fiz0,tz);
 329
 330             fjx1             = _mm256_add_pd(fjx1,tx);
 331             fjy1             = _mm256_add_pd(fjy1,ty);
 332             fjz1             = _mm256_add_pd(fjz1,tz);
 333
 334             /**************************
 335              * CALCULATE INTERACTIONS *
 336              **************************/
 337
 338             /* COULOMB ELECTROSTATICS */
 339             velec            = _mm256_mul_pd(qq02,rinv02);
 340             felec            = _mm256_mul_pd(velec,rinvsq02);
 341
 342             /* Update potential sum for this i atom from the interaction with this j atom. */
 343             velecsum         = _mm256_add_pd(velecsum,velec);
 344
 345             fscal            = felec;
 346
 347             /* Calculate temporary vectorial force */
 348             tx               = _mm256_mul_pd(fscal,dx02);
 349             ty               = _mm256_mul_pd(fscal,dy02);
 350             tz               = _mm256_mul_pd(fscal,dz02);
 351
 352             /* Update vectorial force */
 353             fix0             = _mm256_add_pd(fix0,tx);
 354             fiy0             = _mm256_add_pd(fiy0,ty);
 355             fiz0             = _mm256_add_pd(fiz0,tz);
 356
 357             fjx2             = _mm256_add_pd(fjx2,tx);
 358             fjy2             = _mm256_add_pd(fjy2,ty);
 359             fjz2             = _mm256_add_pd(fjz2,tz);
 360
 361             /**************************
 362              * CALCULATE INTERACTIONS *
 363              **************************/
 364
 365             /* COULOMB ELECTROSTATICS */
 366             velec            = _mm256_mul_pd(qq10,rinv10);
 367             felec            = _mm256_mul_pd(velec,rinvsq10);
 368
 369             /* Update potential sum for this i atom from the interaction with this j atom. */
 370             velecsum         = _mm256_add_pd(velecsum,velec);
 371
 372             fscal            = felec;
 373
 374             /* Calculate temporary vectorial force */
 375             tx               = _mm256_mul_pd(fscal,dx10);
 376             ty               = _mm256_mul_pd(fscal,dy10);
 377             tz               = _mm256_mul_pd(fscal,dz10);
 378
 379             /* Update vectorial force */
 380             fix1             = _mm256_add_pd(fix1,tx);
 381             fiy1             = _mm256_add_pd(fiy1,ty);
 382             fiz1             = _mm256_add_pd(fiz1,tz);
 383
 384             fjx0             = _mm256_add_pd(fjx0,tx);
 385             fjy0             = _mm256_add_pd(fjy0,ty);
 386             fjz0             = _mm256_add_pd(fjz0,tz);
 387
 388             /**************************
 389              * CALCULATE INTERACTIONS *
 390              **************************/
 391
 392             /* COULOMB ELECTROSTATICS */
 393             velec            = _mm256_mul_pd(qq11,rinv11);
 394             felec            = _mm256_mul_pd(velec,rinvsq11);
 395
 396             /* Update potential sum for this i atom from the interaction with this j atom. */
 397             velecsum         = _mm256_add_pd(velecsum,velec);
 398
 399             fscal            = felec;
 400
 401             /* Calculate temporary vectorial force */
 402             tx               = _mm256_mul_pd(fscal,dx11);
 403             ty               = _mm256_mul_pd(fscal,dy11);
 404             tz               = _mm256_mul_pd(fscal,dz11);
 405
 406             /* Update vectorial force */
 407             fix1             = _mm256_add_pd(fix1,tx);
 408             fiy1             = _mm256_add_pd(fiy1,ty);
 409             fiz1             = _mm256_add_pd(fiz1,tz);
 410
 411             fjx1             = _mm256_add_pd(fjx1,tx);
 412             fjy1             = _mm256_add_pd(fjy1,ty);
 413             fjz1             = _mm256_add_pd(fjz1,tz);
 414
 415             /**************************
 416              * CALCULATE INTERACTIONS *
 417              **************************/
 418
 419             /* COULOMB ELECTROSTATICS */
 420             velec            = _mm256_mul_pd(qq12,rinv12);
 421             felec            = _mm256_mul_pd(velec,rinvsq12);
 422
 423             /* Update potential sum for this i atom from the interaction with this j atom. */
 424             velecsum         = _mm256_add_pd(velecsum,velec);
 425
 426             fscal            = felec;
 427
 428             /* Calculate temporary vectorial force */
 429             tx               = _mm256_mul_pd(fscal,dx12);
 430             ty               = _mm256_mul_pd(fscal,dy12);
 431             tz               = _mm256_mul_pd(fscal,dz12);
 432
 433             /* Update vectorial force */
 434             fix1             = _mm256_add_pd(fix1,tx);
 435             fiy1             = _mm256_add_pd(fiy1,ty);
 436             fiz1             = _mm256_add_pd(fiz1,tz);
 437
 438             fjx2             = _mm256_add_pd(fjx2,tx);
 439             fjy2             = _mm256_add_pd(fjy2,ty);
 440             fjz2             = _mm256_add_pd(fjz2,tz);
 441
 442             /**************************
 443              * CALCULATE INTERACTIONS *
 444              **************************/
 445
 446             /* COULOMB ELECTROSTATICS */
 447             velec            = _mm256_mul_pd(qq20,rinv20);
 448             felec            = _mm256_mul_pd(velec,rinvsq20);
 449
 450             /* Update potential sum for this i atom from the interaction with this j atom. */
 451             velecsum         = _mm256_add_pd(velecsum,velec);
 452
 453             fscal            = felec;
 454
 455             /* Calculate temporary vectorial force */
 456             tx               = _mm256_mul_pd(fscal,dx20);
 457             ty               = _mm256_mul_pd(fscal,dy20);
 458             tz               = _mm256_mul_pd(fscal,dz20);
 459
 460             /* Update vectorial force */
 461             fix2             = _mm256_add_pd(fix2,tx);
 462             fiy2             = _mm256_add_pd(fiy2,ty);
 463             fiz2             = _mm256_add_pd(fiz2,tz);
 464
 465             fjx0             = _mm256_add_pd(fjx0,tx);
 466             fjy0             = _mm256_add_pd(fjy0,ty);
 467             fjz0             = _mm256_add_pd(fjz0,tz);
 468
 469             /**************************
 470              * CALCULATE INTERACTIONS *
 471              **************************/
 472
 473             /* COULOMB ELECTROSTATICS */
 474             velec            = _mm256_mul_pd(qq21,rinv21);
 475             felec            = _mm256_mul_pd(velec,rinvsq21);
 476
 477             /* Update potential sum for this i atom from the interaction with this j atom. */
 478             velecsum         = _mm256_add_pd(velecsum,velec);
 479
 480             fscal            = felec;
 481
 482             /* Calculate temporary vectorial force */
 483             tx               = _mm256_mul_pd(fscal,dx21);
 484             ty               = _mm256_mul_pd(fscal,dy21);
 485             tz               = _mm256_mul_pd(fscal,dz21);
 486
 487             /* Update vectorial force */
 488             fix2             = _mm256_add_pd(fix2,tx);
 489             fiy2             = _mm256_add_pd(fiy2,ty);
 490             fiz2             = _mm256_add_pd(fiz2,tz);
 491
 492             fjx1             = _mm256_add_pd(fjx1,tx);
 493             fjy1             = _mm256_add_pd(fjy1,ty);
 494             fjz1             = _mm256_add_pd(fjz1,tz);
 495
 496             /**************************
 497              * CALCULATE INTERACTIONS *
 498              **************************/
 499
 500             /* COULOMB ELECTROSTATICS */
 501             velec            = _mm256_mul_pd(qq22,rinv22);
 502             felec            = _mm256_mul_pd(velec,rinvsq22);
 503
 504             /* Update potential sum for this i atom from the interaction with this j atom. */
 505             velecsum         = _mm256_add_pd(velecsum,velec);
 506
 507             fscal            = felec;
 508
 509             /* Calculate temporary vectorial force */
 510             tx               = _mm256_mul_pd(fscal,dx22);
 511             ty               = _mm256_mul_pd(fscal,dy22);
 512             tz               = _mm256_mul_pd(fscal,dz22);
 513
 514             /* Update vectorial force */
 515             fix2             = _mm256_add_pd(fix2,tx);
 516             fiy2             = _mm256_add_pd(fiy2,ty);
 517             fiz2             = _mm256_add_pd(fiz2,tz);
 518
 519             fjx2             = _mm256_add_pd(fjx2,tx);
 520             fjy2             = _mm256_add_pd(fjy2,ty);
 521             fjz2             = _mm256_add_pd(fjz2,tz);
 522
 523             fjptrA             = f+j_coord_offsetA;
 524             fjptrB             = f+j_coord_offsetB;
 525             fjptrC             = f+j_coord_offsetC;
 526             fjptrD             = f+j_coord_offsetD;
 527
 528             gmx_mm256_decrement_3rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,
 529                                                       fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
 530
 531             /* Inner loop uses 243 flops */
 532         }
 533
 534         if(jidx<j_index_end)
 535         {
 536
 537             /* Get j neighbor index, and coordinate index */
 538             jnrlistA         = jjnr[jidx];
 539             jnrlistB         = jjnr[jidx+1];
 540             jnrlistC         = jjnr[jidx+2];
 541             jnrlistD         = jjnr[jidx+3];
 542             /* Sign of each element will be negative for non-real atoms.
 543              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
 544              * so use it as val = _mm_andnot_pd(mask,val) to clear dummy entries.
 545              */
 546             tmpmask0 = gmx_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
 547
 548             tmpmask1 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(3,3,2,2));
 549             tmpmask0 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(1,1,0,0));
 550             dummy_mask = _mm256_castps_pd(gmx_mm256_set_m128(tmpmask1,tmpmask0));
 551
 552             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
 553             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
 554             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
 555             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
 556             j_coord_offsetA  = DIM*jnrA;
 557             j_coord_offsetB  = DIM*jnrB;
 558             j_coord_offsetC  = DIM*jnrC;
 559             j_coord_offsetD  = DIM*jnrD;
 560
 561             /* load j atom coordinates */
 562             gmx_mm256_load_3rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 563                                                  x+j_coord_offsetC,x+j_coord_offsetD,
 564                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
 565
 566             /* Calculate displacement vector */
 567             dx00             = _mm256_sub_pd(ix0,jx0);
 568             dy00             = _mm256_sub_pd(iy0,jy0);
 569             dz00             = _mm256_sub_pd(iz0,jz0);
 570             dx01             = _mm256_sub_pd(ix0,jx1);
 571             dy01             = _mm256_sub_pd(iy0,jy1);
 572             dz01             = _mm256_sub_pd(iz0,jz1);
 573             dx02             = _mm256_sub_pd(ix0,jx2);
 574             dy02             = _mm256_sub_pd(iy0,jy2);
 575             dz02             = _mm256_sub_pd(iz0,jz2);
 576             dx10             = _mm256_sub_pd(ix1,jx0);
 577             dy10             = _mm256_sub_pd(iy1,jy0);
 578             dz10             = _mm256_sub_pd(iz1,jz0);
 579             dx11             = _mm256_sub_pd(ix1,jx1);
 580             dy11             = _mm256_sub_pd(iy1,jy1);
 581             dz11             = _mm256_sub_pd(iz1,jz1);
 582             dx12             = _mm256_sub_pd(ix1,jx2);
 583             dy12             = _mm256_sub_pd(iy1,jy2);
 584             dz12             = _mm256_sub_pd(iz1,jz2);
 585             dx20             = _mm256_sub_pd(ix2,jx0);
 586             dy20             = _mm256_sub_pd(iy2,jy0);
 587             dz20             = _mm256_sub_pd(iz2,jz0);
 588             dx21             = _mm256_sub_pd(ix2,jx1);
 589             dy21             = _mm256_sub_pd(iy2,jy1);
 590             dz21             = _mm256_sub_pd(iz2,jz1);
 591             dx22             = _mm256_sub_pd(ix2,jx2);
 592             dy22             = _mm256_sub_pd(iy2,jy2);
 593             dz22             = _mm256_sub_pd(iz2,jz2);
 594
 595             /* Calculate squared distance and things based on it */
 596             rsq00            = gmx_mm256_calc_rsq_pd(dx00,dy00,dz00);
 597             rsq01            = gmx_mm256_calc_rsq_pd(dx01,dy01,dz01);
 598             rsq02            = gmx_mm256_calc_rsq_pd(dx02,dy02,dz02);
 599             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
 600             rsq11            = gmx_mm256_calc_rsq_pd(dx11,dy11,dz11);
 601             rsq12            = gmx_mm256_calc_rsq_pd(dx12,dy12,dz12);
 602             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
 603             rsq21            = gmx_mm256_calc_rsq_pd(dx21,dy21,dz21);
 604             rsq22            = gmx_mm256_calc_rsq_pd(dx22,dy22,dz22);
 605
 606             rinv00           = gmx_mm256_invsqrt_pd(rsq00);
 607             rinv01           = gmx_mm256_invsqrt_pd(rsq01);
 608             rinv02           = gmx_mm256_invsqrt_pd(rsq02);
 609             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
 610             rinv11           = gmx_mm256_invsqrt_pd(rsq11);
 611             rinv12           = gmx_mm256_invsqrt_pd(rsq12);
 612             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
 613             rinv21           = gmx_mm256_invsqrt_pd(rsq21);
 614             rinv22           = gmx_mm256_invsqrt_pd(rsq22);
 615
 616             rinvsq00         = _mm256_mul_pd(rinv00,rinv00);
 617             rinvsq01         = _mm256_mul_pd(rinv01,rinv01);
 618             rinvsq02         = _mm256_mul_pd(rinv02,rinv02);
 619             rinvsq10         = _mm256_mul_pd(rinv10,rinv10);
 620             rinvsq11         = _mm256_mul_pd(rinv11,rinv11);
 621             rinvsq12         = _mm256_mul_pd(rinv12,rinv12);
 622             rinvsq20         = _mm256_mul_pd(rinv20,rinv20);
 623             rinvsq21         = _mm256_mul_pd(rinv21,rinv21);
 624             rinvsq22         = _mm256_mul_pd(rinv22,rinv22);
 625
 626             fjx0             = _mm256_setzero_pd();
 627             fjy0             = _mm256_setzero_pd();
 628             fjz0             = _mm256_setzero_pd();
 629             fjx1             = _mm256_setzero_pd();
 630             fjy1             = _mm256_setzero_pd();
 631             fjz1             = _mm256_setzero_pd();
 632             fjx2             = _mm256_setzero_pd();
 633             fjy2             = _mm256_setzero_pd();
 634             fjz2             = _mm256_setzero_pd();
 635
 636             /**************************
 637              * CALCULATE INTERACTIONS *
 638              **************************/
 639
 640             /* COULOMB ELECTROSTATICS */
 641             velec            = _mm256_mul_pd(qq00,rinv00);
 642             felec            = _mm256_mul_pd(velec,rinvsq00);
 643
 644             /* Update potential sum for this i atom from the interaction with this j atom. */
 645             velec            = _mm256_andnot_pd(dummy_mask,velec);
 646             velecsum         = _mm256_add_pd(velecsum,velec);
 647
 648             fscal            = felec;
 649
 650             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 651
 652             /* Calculate temporary vectorial force */
 653             tx               = _mm256_mul_pd(fscal,dx00);
 654             ty               = _mm256_mul_pd(fscal,dy00);
 655             tz               = _mm256_mul_pd(fscal,dz00);
 656
 657             /* Update vectorial force */
 658             fix0             = _mm256_add_pd(fix0,tx);
 659             fiy0             = _mm256_add_pd(fiy0,ty);
 660             fiz0             = _mm256_add_pd(fiz0,tz);
 661
 662             fjx0             = _mm256_add_pd(fjx0,tx);
 663             fjy0             = _mm256_add_pd(fjy0,ty);
 664             fjz0             = _mm256_add_pd(fjz0,tz);
 665
 666             /**************************
 667              * CALCULATE INTERACTIONS *
 668              **************************/
 669
 670             /* COULOMB ELECTROSTATICS */
 671             velec            = _mm256_mul_pd(qq01,rinv01);
 672             felec            = _mm256_mul_pd(velec,rinvsq01);
 673
 674             /* Update potential sum for this i atom from the interaction with this j atom. */
 675             velec            = _mm256_andnot_pd(dummy_mask,velec);
 676             velecsum         = _mm256_add_pd(velecsum,velec);
 677
 678             fscal            = felec;
 679
 680             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 681
 682             /* Calculate temporary vectorial force */
 683             tx               = _mm256_mul_pd(fscal,dx01);
 684             ty               = _mm256_mul_pd(fscal,dy01);
 685             tz               = _mm256_mul_pd(fscal,dz01);
 686
 687             /* Update vectorial force */
 688             fix0             = _mm256_add_pd(fix0,tx);
 689             fiy0             = _mm256_add_pd(fiy0,ty);
 690             fiz0             = _mm256_add_pd(fiz0,tz);
 691
 692             fjx1             = _mm256_add_pd(fjx1,tx);
 693             fjy1             = _mm256_add_pd(fjy1,ty);
 694             fjz1             = _mm256_add_pd(fjz1,tz);
 695
 696             /**************************
 697              * CALCULATE INTERACTIONS *
 698              **************************/
 699
 700             /* COULOMB ELECTROSTATICS */
 701             velec            = _mm256_mul_pd(qq02,rinv02);
 702             felec            = _mm256_mul_pd(velec,rinvsq02);
 703
 704             /* Update potential sum for this i atom from the interaction with this j atom. */
 705             velec            = _mm256_andnot_pd(dummy_mask,velec);
 706             velecsum         = _mm256_add_pd(velecsum,velec);
 707
 708             fscal            = felec;
 709
 710             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 711
 712             /* Calculate temporary vectorial force */
 713             tx               = _mm256_mul_pd(fscal,dx02);
 714             ty               = _mm256_mul_pd(fscal,dy02);
 715             tz               = _mm256_mul_pd(fscal,dz02);
 716
 717             /* Update vectorial force */
 718             fix0             = _mm256_add_pd(fix0,tx);
 719             fiy0             = _mm256_add_pd(fiy0,ty);
 720             fiz0             = _mm256_add_pd(fiz0,tz);
 721
 722             fjx2             = _mm256_add_pd(fjx2,tx);
 723             fjy2             = _mm256_add_pd(fjy2,ty);
 724             fjz2             = _mm256_add_pd(fjz2,tz);
 725
 726             /**************************
 727              * CALCULATE INTERACTIONS *
 728              **************************/
 729
 730             /* COULOMB ELECTROSTATICS */
 731             velec            = _mm256_mul_pd(qq10,rinv10);
 732             felec            = _mm256_mul_pd(velec,rinvsq10);
 733
 734             /* Update potential sum for this i atom from the interaction with this j atom. */
 735             velec            = _mm256_andnot_pd(dummy_mask,velec);
 736             velecsum         = _mm256_add_pd(velecsum,velec);
 737
 738             fscal            = felec;
 739
 740             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 741
 742             /* Calculate temporary vectorial force */
 743             tx               = _mm256_mul_pd(fscal,dx10);
 744             ty               = _mm256_mul_pd(fscal,dy10);
 745             tz               = _mm256_mul_pd(fscal,dz10);
 746
 747             /* Update vectorial force */
 748             fix1             = _mm256_add_pd(fix1,tx);
 749             fiy1             = _mm256_add_pd(fiy1,ty);
 750             fiz1             = _mm256_add_pd(fiz1,tz);
 751
 752             fjx0             = _mm256_add_pd(fjx0,tx);
 753             fjy0             = _mm256_add_pd(fjy0,ty);
 754             fjz0             = _mm256_add_pd(fjz0,tz);
 755
 756             /**************************
 757              * CALCULATE INTERACTIONS *
 758              **************************/
 759
 760             /* COULOMB ELECTROSTATICS */
 761             velec            = _mm256_mul_pd(qq11,rinv11);
 762             felec            = _mm256_mul_pd(velec,rinvsq11);
 763
 764             /* Update potential sum for this i atom from the interaction with this j atom. */
 765             velec            = _mm256_andnot_pd(dummy_mask,velec);
 766             velecsum         = _mm256_add_pd(velecsum,velec);
 767
 768             fscal            = felec;
 769
 770             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 771
 772             /* Calculate temporary vectorial force */
 773             tx               = _mm256_mul_pd(fscal,dx11);
 774             ty               = _mm256_mul_pd(fscal,dy11);
 775             tz               = _mm256_mul_pd(fscal,dz11);
 776
 777             /* Update vectorial force */
 778             fix1             = _mm256_add_pd(fix1,tx);
 779             fiy1             = _mm256_add_pd(fiy1,ty);
 780             fiz1             = _mm256_add_pd(fiz1,tz);
 781
 782             fjx1             = _mm256_add_pd(fjx1,tx);
 783             fjy1             = _mm256_add_pd(fjy1,ty);
 784             fjz1             = _mm256_add_pd(fjz1,tz);
 785
 786             /**************************
 787              * CALCULATE INTERACTIONS *
 788              **************************/
 789
 790             /* COULOMB ELECTROSTATICS */
 791             velec            = _mm256_mul_pd(qq12,rinv12);
 792             felec            = _mm256_mul_pd(velec,rinvsq12);
 793
 794             /* Update potential sum for this i atom from the interaction with this j atom. */
 795             velec            = _mm256_andnot_pd(dummy_mask,velec);
 796             velecsum         = _mm256_add_pd(velecsum,velec);
 797
 798             fscal            = felec;
 799
 800             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 801
 802             /* Calculate temporary vectorial force */
 803             tx               = _mm256_mul_pd(fscal,dx12);
 804             ty               = _mm256_mul_pd(fscal,dy12);
 805             tz               = _mm256_mul_pd(fscal,dz12);
 806
 807             /* Update vectorial force */
 808             fix1             = _mm256_add_pd(fix1,tx);
 809             fiy1             = _mm256_add_pd(fiy1,ty);
 810             fiz1             = _mm256_add_pd(fiz1,tz);
 811
 812             fjx2             = _mm256_add_pd(fjx2,tx);
 813             fjy2             = _mm256_add_pd(fjy2,ty);
 814             fjz2             = _mm256_add_pd(fjz2,tz);
 815
 816             /**************************
 817              * CALCULATE INTERACTIONS *
 818              **************************/
 819
 820             /* COULOMB ELECTROSTATICS */
 821             velec            = _mm256_mul_pd(qq20,rinv20);
 822             felec            = _mm256_mul_pd(velec,rinvsq20);
 823
 824             /* Update potential sum for this i atom from the interaction with this j atom. */
 825             velec            = _mm256_andnot_pd(dummy_mask,velec);
 826             velecsum         = _mm256_add_pd(velecsum,velec);
 827
 828             fscal            = felec;
 829
 830             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 831
 832             /* Calculate temporary vectorial force */
 833             tx               = _mm256_mul_pd(fscal,dx20);
 834             ty               = _mm256_mul_pd(fscal,dy20);
 835             tz               = _mm256_mul_pd(fscal,dz20);
 836
 837             /* Update vectorial force */
 838             fix2             = _mm256_add_pd(fix2,tx);
 839             fiy2             = _mm256_add_pd(fiy2,ty);
 840             fiz2             = _mm256_add_pd(fiz2,tz);
 841
 842             fjx0             = _mm256_add_pd(fjx0,tx);
 843             fjy0             = _mm256_add_pd(fjy0,ty);
 844             fjz0             = _mm256_add_pd(fjz0,tz);
 845
 846             /**************************
 847              * CALCULATE INTERACTIONS *
 848              **************************/
 849
 850             /* COULOMB ELECTROSTATICS */
 851             velec            = _mm256_mul_pd(qq21,rinv21);
 852             felec            = _mm256_mul_pd(velec,rinvsq21);
 853
 854             /* Update potential sum for this i atom from the interaction with this j atom. */
 855             velec            = _mm256_andnot_pd(dummy_mask,velec);
 856             velecsum         = _mm256_add_pd(velecsum,velec);
 857
 858             fscal            = felec;
 859
 860             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 861
 862             /* Calculate temporary vectorial force */
 863             tx               = _mm256_mul_pd(fscal,dx21);
 864             ty               = _mm256_mul_pd(fscal,dy21);
 865             tz               = _mm256_mul_pd(fscal,dz21);
 866
 867             /* Update vectorial force */
 868             fix2             = _mm256_add_pd(fix2,tx);
 869             fiy2             = _mm256_add_pd(fiy2,ty);
 870             fiz2             = _mm256_add_pd(fiz2,tz);
 871
 872             fjx1             = _mm256_add_pd(fjx1,tx);
 873             fjy1             = _mm256_add_pd(fjy1,ty);
 874             fjz1             = _mm256_add_pd(fjz1,tz);
 875
 876             /**************************
 877              * CALCULATE INTERACTIONS *
 878              **************************/
 879
 880             /* COULOMB ELECTROSTATICS */
 881             velec            = _mm256_mul_pd(qq22,rinv22);
 882             felec            = _mm256_mul_pd(velec,rinvsq22);
 883
 884             /* Update potential sum for this i atom from the interaction with this j atom. */
 885             velec            = _mm256_andnot_pd(dummy_mask,velec);
 886             velecsum         = _mm256_add_pd(velecsum,velec);
 887
 888             fscal            = felec;
 889
 890             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 891
 892             /* Calculate temporary vectorial force */
 893             tx               = _mm256_mul_pd(fscal,dx22);
 894             ty               = _mm256_mul_pd(fscal,dy22);
 895             tz               = _mm256_mul_pd(fscal,dz22);
 896
 897             /* Update vectorial force */
 898             fix2             = _mm256_add_pd(fix2,tx);
 899             fiy2             = _mm256_add_pd(fiy2,ty);
 900             fiz2             = _mm256_add_pd(fiz2,tz);
 901
 902             fjx2             = _mm256_add_pd(fjx2,tx);
 903             fjy2             = _mm256_add_pd(fjy2,ty);
 904             fjz2             = _mm256_add_pd(fjz2,tz);
 905
 906             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
 907             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
 908             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
 909             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
 910
 911             gmx_mm256_decrement_3rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,
 912                                                       fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
 913
 914             /* Inner loop uses 243 flops */
 915         }
 916
 917         /* End of innermost loop */
 918
 919         gmx_mm256_update_iforce_3atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
 920                                                  f+i_coord_offset,fshift+i_shift_offset);
 921
 922         ggid                        = gid[iidx];
 923         /* Update potential energies */
 924         gmx_mm256_update_1pot_pd(velecsum,kernel_data->energygrp_elec+ggid);
 925
 926         /* Increment number of inner iterations */
 927         inneriter                  += j_index_end - j_index_start;
 928
 929         /* Outer loop uses 19 flops */
 930     }
 931
 932     /* Increment number of outer iterations */
 933     outeriter        += nri;
 934
 935     /* Update outer/inner flops */
 936
 937     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3W3_VF,outeriter*19 + inneriter*243);
 938 }
 939 /*
 940  * Gromacs nonbonded kernel:   nb_kernel_ElecCoul_VdwNone_GeomW3W3_F_avx_256_double
 941  * Electrostatics interaction: Coulomb
 942  * VdW interaction:            None
 943  * Geometry:                   Water3-Water3
 944  * Calculate force/pot:        Force
 945  */
 946 void
 947 nb_kernel_ElecCoul_VdwNone_GeomW3W3_F_avx_256_double
 948                     (t_nblist                    * gmx_restrict       nlist,
 949                      rvec                        * gmx_restrict          xx,
 950                      rvec                        * gmx_restrict          ff,
 951                      t_forcerec                  * gmx_restrict          fr,
 952                      t_mdatoms                   * gmx_restrict     mdatoms,
 953                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
 954                      t_nrnb                      * gmx_restrict        nrnb)
 955 {
 956     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 957      * just 0 for non-waters.
 958      * Suffixes A,B,C,D refer to j loop unrolling done with AVX, e.g. for the four different
 959      * jnr indices corresponding to data put in the four positions in the SIMD register.
 960      */
 961     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 962     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 963     int              jnrA,jnrB,jnrC,jnrD;
 964     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
 965     int              jnrlistE,jnrlistF,jnrlistG,jnrlistH;
 966     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
 967     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 968     real             rcutoff_scalar;
 969     real             *shiftvec,*fshift,*x,*f;
 970     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
 971     real             scratch[4*DIM];
 972     __m256d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 973     real *           vdwioffsetptr0;
 974     __m256d          ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
 975     real *           vdwioffsetptr1;
 976     __m256d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 977     real *           vdwioffsetptr2;
 978     __m256d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 979     int              vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
 980     __m256d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
 981     int              vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
 982     __m256d          jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
 983     int              vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
 984     __m256d          jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
 985     __m256d          dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
 986     __m256d          dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
 987     __m256d          dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
 988     __m256d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
 989     __m256d          dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
 990     __m256d          dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
 991     __m256d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
 992     __m256d          dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
 993     __m256d          dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
 994     __m256d          velec,felec,velecsum,facel,crf,krf,krf2;
 995     real             *charge;
 996     __m256d          dummy_mask,cutoff_mask;
 997     __m128           tmpmask0,tmpmask1;
 998     __m256d          signbit = _mm256_castsi256_pd( _mm256_set1_epi32(0x80000000) );
 999     __m256d          one     = _mm256_set1_pd(1.0);
1000     __m256d          two     = _mm256_set1_pd(2.0);
1001     x                = xx[0];
1002     f                = ff[0];
1003
1004     nri              = nlist->nri;
1005     iinr             = nlist->iinr;
1006     jindex           = nlist->jindex;
1007     jjnr             = nlist->jjnr;
1008     shiftidx         = nlist->shift;
1009     gid              = nlist->gid;
1010     shiftvec         = fr->shift_vec[0];
1011     fshift           = fr->fshift[0];
1012     facel            = _mm256_set1_pd(fr->epsfac);
1013     charge           = mdatoms->chargeA;
1014
1015     /* Setup water-specific parameters */
1016     inr              = nlist->iinr[0];
1017     iq0              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+0]));
1018     iq1              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+1]));
1019     iq2              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+2]));
1020
1021     jq0              = _mm256_set1_pd(charge[inr+0]);
1022     jq1              = _mm256_set1_pd(charge[inr+1]);
1023     jq2              = _mm256_set1_pd(charge[inr+2]);
1024     qq00             = _mm256_mul_pd(iq0,jq0);
1025     qq01             = _mm256_mul_pd(iq0,jq1);
1026     qq02             = _mm256_mul_pd(iq0,jq2);
1027     qq10             = _mm256_mul_pd(iq1,jq0);
1028     qq11             = _mm256_mul_pd(iq1,jq1);
1029     qq12             = _mm256_mul_pd(iq1,jq2);
1030     qq20             = _mm256_mul_pd(iq2,jq0);
1031     qq21             = _mm256_mul_pd(iq2,jq1);
1032     qq22             = _mm256_mul_pd(iq2,jq2);
1033
1034     /* Avoid stupid compiler warnings */
1035     jnrA = jnrB = jnrC = jnrD = 0;
1036     j_coord_offsetA = 0;
1037     j_coord_offsetB = 0;
1038     j_coord_offsetC = 0;
1039     j_coord_offsetD = 0;
1040
1041     outeriter        = 0;
1042     inneriter        = 0;
1043
1044     for(iidx=0;iidx<4*DIM;iidx++)
1045     {
1046         scratch[iidx] = 0.0;
1047     }
1048
1049     /* Start outer loop over neighborlists */
1050     for(iidx=0; iidx<nri; iidx++)
1051     {
1052         /* Load shift vector for this list */
1053         i_shift_offset   = DIM*shiftidx[iidx];
1054
1055         /* Load limits for loop over neighbors */
1056         j_index_start    = jindex[iidx];
1057         j_index_end      = jindex[iidx+1];
1058
1059         /* Get outer coordinate index */
1060         inr              = iinr[iidx];
1061         i_coord_offset   = DIM*inr;
1062
1063         /* Load i particle coords and add shift vector */
1064         gmx_mm256_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset,
1065                                                     &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
1066
1067         fix0             = _mm256_setzero_pd();
1068         fiy0             = _mm256_setzero_pd();
1069         fiz0             = _mm256_setzero_pd();
1070         fix1             = _mm256_setzero_pd();
1071         fiy1             = _mm256_setzero_pd();
1072         fiz1             = _mm256_setzero_pd();
1073         fix2             = _mm256_setzero_pd();
1074         fiy2             = _mm256_setzero_pd();
1075         fiz2             = _mm256_setzero_pd();
1076
1077         /* Start inner kernel loop */
1078         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1079         {
1080
1081             /* Get j neighbor index, and coordinate index */
1082             jnrA             = jjnr[jidx];
1083             jnrB             = jjnr[jidx+1];
1084             jnrC             = jjnr[jidx+2];
1085             jnrD             = jjnr[jidx+3];
1086             j_coord_offsetA  = DIM*jnrA;
1087             j_coord_offsetB  = DIM*jnrB;
1088             j_coord_offsetC  = DIM*jnrC;
1089             j_coord_offsetD  = DIM*jnrD;
1090
1091             /* load j atom coordinates */
1092             gmx_mm256_load_3rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
1093                                                  x+j_coord_offsetC,x+j_coord_offsetD,
1094                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1095
1096             /* Calculate displacement vector */
1097             dx00             = _mm256_sub_pd(ix0,jx0);
1098             dy00             = _mm256_sub_pd(iy0,jy0);
1099             dz00             = _mm256_sub_pd(iz0,jz0);
1100             dx01             = _mm256_sub_pd(ix0,jx1);
1101             dy01             = _mm256_sub_pd(iy0,jy1);
1102             dz01             = _mm256_sub_pd(iz0,jz1);
1103             dx02             = _mm256_sub_pd(ix0,jx2);
1104             dy02             = _mm256_sub_pd(iy0,jy2);
1105             dz02             = _mm256_sub_pd(iz0,jz2);
1106             dx10             = _mm256_sub_pd(ix1,jx0);
1107             dy10             = _mm256_sub_pd(iy1,jy0);
1108             dz10             = _mm256_sub_pd(iz1,jz0);
1109             dx11             = _mm256_sub_pd(ix1,jx1);
1110             dy11             = _mm256_sub_pd(iy1,jy1);
1111             dz11             = _mm256_sub_pd(iz1,jz1);
1112             dx12             = _mm256_sub_pd(ix1,jx2);
1113             dy12             = _mm256_sub_pd(iy1,jy2);
1114             dz12             = _mm256_sub_pd(iz1,jz2);
1115             dx20             = _mm256_sub_pd(ix2,jx0);
1116             dy20             = _mm256_sub_pd(iy2,jy0);
1117             dz20             = _mm256_sub_pd(iz2,jz0);
1118             dx21             = _mm256_sub_pd(ix2,jx1);
1119             dy21             = _mm256_sub_pd(iy2,jy1);
1120             dz21             = _mm256_sub_pd(iz2,jz1);
1121             dx22             = _mm256_sub_pd(ix2,jx2);
1122             dy22             = _mm256_sub_pd(iy2,jy2);
1123             dz22             = _mm256_sub_pd(iz2,jz2);
1124
1125             /* Calculate squared distance and things based on it */
1126             rsq00            = gmx_mm256_calc_rsq_pd(dx00,dy00,dz00);
1127             rsq01            = gmx_mm256_calc_rsq_pd(dx01,dy01,dz01);
1128             rsq02            = gmx_mm256_calc_rsq_pd(dx02,dy02,dz02);
1129             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
1130             rsq11            = gmx_mm256_calc_rsq_pd(dx11,dy11,dz11);
1131             rsq12            = gmx_mm256_calc_rsq_pd(dx12,dy12,dz12);
1132             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
1133             rsq21            = gmx_mm256_calc_rsq_pd(dx21,dy21,dz21);
1134             rsq22            = gmx_mm256_calc_rsq_pd(dx22,dy22,dz22);
1135
1136             rinv00           = gmx_mm256_invsqrt_pd(rsq00);
1137             rinv01           = gmx_mm256_invsqrt_pd(rsq01);
1138             rinv02           = gmx_mm256_invsqrt_pd(rsq02);
1139             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
1140             rinv11           = gmx_mm256_invsqrt_pd(rsq11);
1141             rinv12           = gmx_mm256_invsqrt_pd(rsq12);
1142             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
1143             rinv21           = gmx_mm256_invsqrt_pd(rsq21);
1144             rinv22           = gmx_mm256_invsqrt_pd(rsq22);
1145
1146             rinvsq00         = _mm256_mul_pd(rinv00,rinv00);
1147             rinvsq01         = _mm256_mul_pd(rinv01,rinv01);
1148             rinvsq02         = _mm256_mul_pd(rinv02,rinv02);
1149             rinvsq10         = _mm256_mul_pd(rinv10,rinv10);
1150             rinvsq11         = _mm256_mul_pd(rinv11,rinv11);
1151             rinvsq12         = _mm256_mul_pd(rinv12,rinv12);
1152             rinvsq20         = _mm256_mul_pd(rinv20,rinv20);
1153             rinvsq21         = _mm256_mul_pd(rinv21,rinv21);
1154             rinvsq22         = _mm256_mul_pd(rinv22,rinv22);
1155
1156             fjx0             = _mm256_setzero_pd();
1157             fjy0             = _mm256_setzero_pd();
1158             fjz0             = _mm256_setzero_pd();
1159             fjx1             = _mm256_setzero_pd();
1160             fjy1             = _mm256_setzero_pd();
1161             fjz1             = _mm256_setzero_pd();
1162             fjx2             = _mm256_setzero_pd();
1163             fjy2             = _mm256_setzero_pd();
1164             fjz2             = _mm256_setzero_pd();
1165
1166             /**************************
1167              * CALCULATE INTERACTIONS *
1168              **************************/
1169
1170             /* COULOMB ELECTROSTATICS */
1171             velec            = _mm256_mul_pd(qq00,rinv00);
1172             felec            = _mm256_mul_pd(velec,rinvsq00);
1173
1174             fscal            = felec;
1175
1176             /* Calculate temporary vectorial force */
1177             tx               = _mm256_mul_pd(fscal,dx00);
1178             ty               = _mm256_mul_pd(fscal,dy00);
1179             tz               = _mm256_mul_pd(fscal,dz00);
1180
1181             /* Update vectorial force */
1182             fix0             = _mm256_add_pd(fix0,tx);
1183             fiy0             = _mm256_add_pd(fiy0,ty);
1184             fiz0             = _mm256_add_pd(fiz0,tz);
1185
1186             fjx0             = _mm256_add_pd(fjx0,tx);
1187             fjy0             = _mm256_add_pd(fjy0,ty);
1188             fjz0             = _mm256_add_pd(fjz0,tz);
1189
1190             /**************************
1191              * CALCULATE INTERACTIONS *
1192              **************************/
1193
1194             /* COULOMB ELECTROSTATICS */
1195             velec            = _mm256_mul_pd(qq01,rinv01);
1196             felec            = _mm256_mul_pd(velec,rinvsq01);
1197
1198             fscal            = felec;
1199
1200             /* Calculate temporary vectorial force */
1201             tx               = _mm256_mul_pd(fscal,dx01);
1202             ty               = _mm256_mul_pd(fscal,dy01);
1203             tz               = _mm256_mul_pd(fscal,dz01);
1204
1205             /* Update vectorial force */
1206             fix0             = _mm256_add_pd(fix0,tx);
1207             fiy0             = _mm256_add_pd(fiy0,ty);
1208             fiz0             = _mm256_add_pd(fiz0,tz);
1209
1210             fjx1             = _mm256_add_pd(fjx1,tx);
1211             fjy1             = _mm256_add_pd(fjy1,ty);
1212             fjz1             = _mm256_add_pd(fjz1,tz);
1213
1214             /**************************
1215              * CALCULATE INTERACTIONS *
1216              **************************/
1217
1218             /* COULOMB ELECTROSTATICS */
1219             velec            = _mm256_mul_pd(qq02,rinv02);
1220             felec            = _mm256_mul_pd(velec,rinvsq02);
1221
1222             fscal            = felec;
1223
1224             /* Calculate temporary vectorial force */
1225             tx               = _mm256_mul_pd(fscal,dx02);
1226             ty               = _mm256_mul_pd(fscal,dy02);
1227             tz               = _mm256_mul_pd(fscal,dz02);
1228
1229             /* Update vectorial force */
1230             fix0             = _mm256_add_pd(fix0,tx);
1231             fiy0             = _mm256_add_pd(fiy0,ty);
1232             fiz0             = _mm256_add_pd(fiz0,tz);
1233
1234             fjx2             = _mm256_add_pd(fjx2,tx);
1235             fjy2             = _mm256_add_pd(fjy2,ty);
1236             fjz2             = _mm256_add_pd(fjz2,tz);
1237
1238             /**************************
1239              * CALCULATE INTERACTIONS *
1240              **************************/
1241
1242             /* COULOMB ELECTROSTATICS */
1243             velec            = _mm256_mul_pd(qq10,rinv10);
1244             felec            = _mm256_mul_pd(velec,rinvsq10);
1245
1246             fscal            = felec;
1247
1248             /* Calculate temporary vectorial force */
1249             tx               = _mm256_mul_pd(fscal,dx10);
1250             ty               = _mm256_mul_pd(fscal,dy10);
1251             tz               = _mm256_mul_pd(fscal,dz10);
1252
1253             /* Update vectorial force */
1254             fix1             = _mm256_add_pd(fix1,tx);
1255             fiy1             = _mm256_add_pd(fiy1,ty);
1256             fiz1             = _mm256_add_pd(fiz1,tz);
1257
1258             fjx0             = _mm256_add_pd(fjx0,tx);
1259             fjy0             = _mm256_add_pd(fjy0,ty);
1260             fjz0             = _mm256_add_pd(fjz0,tz);
1261
1262             /**************************
1263              * CALCULATE INTERACTIONS *
1264              **************************/
1265
1266             /* COULOMB ELECTROSTATICS */
1267             velec            = _mm256_mul_pd(qq11,rinv11);
1268             felec            = _mm256_mul_pd(velec,rinvsq11);
1269
1270             fscal            = felec;
1271
1272             /* Calculate temporary vectorial force */
1273             tx               = _mm256_mul_pd(fscal,dx11);
1274             ty               = _mm256_mul_pd(fscal,dy11);
1275             tz               = _mm256_mul_pd(fscal,dz11);
1276
1277             /* Update vectorial force */
1278             fix1             = _mm256_add_pd(fix1,tx);
1279             fiy1             = _mm256_add_pd(fiy1,ty);
1280             fiz1             = _mm256_add_pd(fiz1,tz);
1281
1282             fjx1             = _mm256_add_pd(fjx1,tx);
1283             fjy1             = _mm256_add_pd(fjy1,ty);
1284             fjz1             = _mm256_add_pd(fjz1,tz);
1285
1286             /**************************
1287              * CALCULATE INTERACTIONS *
1288              **************************/
1289
1290             /* COULOMB ELECTROSTATICS */
1291             velec            = _mm256_mul_pd(qq12,rinv12);
1292             felec            = _mm256_mul_pd(velec,rinvsq12);
1293
1294             fscal            = felec;
1295
1296             /* Calculate temporary vectorial force */
1297             tx               = _mm256_mul_pd(fscal,dx12);
1298             ty               = _mm256_mul_pd(fscal,dy12);
1299             tz               = _mm256_mul_pd(fscal,dz12);
1300
1301             /* Update vectorial force */
1302             fix1             = _mm256_add_pd(fix1,tx);
1303             fiy1             = _mm256_add_pd(fiy1,ty);
1304             fiz1             = _mm256_add_pd(fiz1,tz);
1305
1306             fjx2             = _mm256_add_pd(fjx2,tx);
1307             fjy2             = _mm256_add_pd(fjy2,ty);
1308             fjz2             = _mm256_add_pd(fjz2,tz);
1309
1310             /**************************
1311              * CALCULATE INTERACTIONS *
1312              **************************/
1313
1314             /* COULOMB ELECTROSTATICS */
1315             velec            = _mm256_mul_pd(qq20,rinv20);
1316             felec            = _mm256_mul_pd(velec,rinvsq20);
1317
1318             fscal            = felec;
1319
1320             /* Calculate temporary vectorial force */
1321             tx               = _mm256_mul_pd(fscal,dx20);
1322             ty               = _mm256_mul_pd(fscal,dy20);
1323             tz               = _mm256_mul_pd(fscal,dz20);
1324
1325             /* Update vectorial force */
1326             fix2             = _mm256_add_pd(fix2,tx);
1327             fiy2             = _mm256_add_pd(fiy2,ty);
1328             fiz2             = _mm256_add_pd(fiz2,tz);
1329
1330             fjx0             = _mm256_add_pd(fjx0,tx);
1331             fjy0             = _mm256_add_pd(fjy0,ty);
1332             fjz0             = _mm256_add_pd(fjz0,tz);
1333
1334             /**************************
1335              * CALCULATE INTERACTIONS *
1336              **************************/
1337
1338             /* COULOMB ELECTROSTATICS */
1339             velec            = _mm256_mul_pd(qq21,rinv21);
1340             felec            = _mm256_mul_pd(velec,rinvsq21);
1341
1342             fscal            = felec;
1343
1344             /* Calculate temporary vectorial force */
1345             tx               = _mm256_mul_pd(fscal,dx21);
1346             ty               = _mm256_mul_pd(fscal,dy21);
1347             tz               = _mm256_mul_pd(fscal,dz21);
1348
1349             /* Update vectorial force */
1350             fix2             = _mm256_add_pd(fix2,tx);
1351             fiy2             = _mm256_add_pd(fiy2,ty);
1352             fiz2             = _mm256_add_pd(fiz2,tz);
1353
1354             fjx1             = _mm256_add_pd(fjx1,tx);
1355             fjy1             = _mm256_add_pd(fjy1,ty);
1356             fjz1             = _mm256_add_pd(fjz1,tz);
1357
1358             /**************************
1359              * CALCULATE INTERACTIONS *
1360              **************************/
1361
1362             /* COULOMB ELECTROSTATICS */
1363             velec            = _mm256_mul_pd(qq22,rinv22);
1364             felec            = _mm256_mul_pd(velec,rinvsq22);
1365
1366             fscal            = felec;
1367
1368             /* Calculate temporary vectorial force */
1369             tx               = _mm256_mul_pd(fscal,dx22);
1370             ty               = _mm256_mul_pd(fscal,dy22);
1371             tz               = _mm256_mul_pd(fscal,dz22);
1372
1373             /* Update vectorial force */
1374             fix2             = _mm256_add_pd(fix2,tx);
1375             fiy2             = _mm256_add_pd(fiy2,ty);
1376             fiz2             = _mm256_add_pd(fiz2,tz);
1377
1378             fjx2             = _mm256_add_pd(fjx2,tx);
1379             fjy2             = _mm256_add_pd(fjy2,ty);
1380             fjz2             = _mm256_add_pd(fjz2,tz);
1381
1382             fjptrA             = f+j_coord_offsetA;
1383             fjptrB             = f+j_coord_offsetB;
1384             fjptrC             = f+j_coord_offsetC;
1385             fjptrD             = f+j_coord_offsetD;
1386
1387             gmx_mm256_decrement_3rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,
1388                                                       fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1389
1390             /* Inner loop uses 234 flops */
1391         }
1392
1393         if(jidx<j_index_end)
1394         {
1395
1396             /* Get j neighbor index, and coordinate index */
1397             jnrlistA         = jjnr[jidx];
1398             jnrlistB         = jjnr[jidx+1];
1399             jnrlistC         = jjnr[jidx+2];
1400             jnrlistD         = jjnr[jidx+3];
1401             /* Sign of each element will be negative for non-real atoms.
1402              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1403              * so use it as val = _mm_andnot_pd(mask,val) to clear dummy entries.
1404              */
1405             tmpmask0 = gmx_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1406
1407             tmpmask1 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(3,3,2,2));
1408             tmpmask0 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(1,1,0,0));
1409             dummy_mask = _mm256_castps_pd(gmx_mm256_set_m128(tmpmask1,tmpmask0));
1410
1411             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
1412             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
1413             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
1414             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
1415             j_coord_offsetA  = DIM*jnrA;
1416             j_coord_offsetB  = DIM*jnrB;
1417             j_coord_offsetC  = DIM*jnrC;
1418             j_coord_offsetD  = DIM*jnrD;
1419
1420             /* load j atom coordinates */
1421             gmx_mm256_load_3rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
1422                                                  x+j_coord_offsetC,x+j_coord_offsetD,
1423                                               &jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1424
1425             /* Calculate displacement vector */
1426             dx00             = _mm256_sub_pd(ix0,jx0);
1427             dy00             = _mm256_sub_pd(iy0,jy0);
1428             dz00             = _mm256_sub_pd(iz0,jz0);
1429             dx01             = _mm256_sub_pd(ix0,jx1);
1430             dy01             = _mm256_sub_pd(iy0,jy1);
1431             dz01             = _mm256_sub_pd(iz0,jz1);
1432             dx02             = _mm256_sub_pd(ix0,jx2);
1433             dy02             = _mm256_sub_pd(iy0,jy2);
1434             dz02             = _mm256_sub_pd(iz0,jz2);
1435             dx10             = _mm256_sub_pd(ix1,jx0);
1436             dy10             = _mm256_sub_pd(iy1,jy0);
1437             dz10             = _mm256_sub_pd(iz1,jz0);
1438             dx11             = _mm256_sub_pd(ix1,jx1);
1439             dy11             = _mm256_sub_pd(iy1,jy1);
1440             dz11             = _mm256_sub_pd(iz1,jz1);
1441             dx12             = _mm256_sub_pd(ix1,jx2);
1442             dy12             = _mm256_sub_pd(iy1,jy2);
1443             dz12             = _mm256_sub_pd(iz1,jz2);
1444             dx20             = _mm256_sub_pd(ix2,jx0);
1445             dy20             = _mm256_sub_pd(iy2,jy0);
1446             dz20             = _mm256_sub_pd(iz2,jz0);
1447             dx21             = _mm256_sub_pd(ix2,jx1);
1448             dy21             = _mm256_sub_pd(iy2,jy1);
1449             dz21             = _mm256_sub_pd(iz2,jz1);
1450             dx22             = _mm256_sub_pd(ix2,jx2);
1451             dy22             = _mm256_sub_pd(iy2,jy2);
1452             dz22             = _mm256_sub_pd(iz2,jz2);
1453
1454             /* Calculate squared distance and things based on it */
1455             rsq00            = gmx_mm256_calc_rsq_pd(dx00,dy00,dz00);
1456             rsq01            = gmx_mm256_calc_rsq_pd(dx01,dy01,dz01);
1457             rsq02            = gmx_mm256_calc_rsq_pd(dx02,dy02,dz02);
1458             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
1459             rsq11            = gmx_mm256_calc_rsq_pd(dx11,dy11,dz11);
1460             rsq12            = gmx_mm256_calc_rsq_pd(dx12,dy12,dz12);
1461             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
1462             rsq21            = gmx_mm256_calc_rsq_pd(dx21,dy21,dz21);
1463             rsq22            = gmx_mm256_calc_rsq_pd(dx22,dy22,dz22);
1464
1465             rinv00           = gmx_mm256_invsqrt_pd(rsq00);
1466             rinv01           = gmx_mm256_invsqrt_pd(rsq01);
1467             rinv02           = gmx_mm256_invsqrt_pd(rsq02);
1468             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
1469             rinv11           = gmx_mm256_invsqrt_pd(rsq11);
1470             rinv12           = gmx_mm256_invsqrt_pd(rsq12);
1471             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
1472             rinv21           = gmx_mm256_invsqrt_pd(rsq21);
1473             rinv22           = gmx_mm256_invsqrt_pd(rsq22);
1474
1475             rinvsq00         = _mm256_mul_pd(rinv00,rinv00);
1476             rinvsq01         = _mm256_mul_pd(rinv01,rinv01);
1477             rinvsq02         = _mm256_mul_pd(rinv02,rinv02);
1478             rinvsq10         = _mm256_mul_pd(rinv10,rinv10);
1479             rinvsq11         = _mm256_mul_pd(rinv11,rinv11);
1480             rinvsq12         = _mm256_mul_pd(rinv12,rinv12);
1481             rinvsq20         = _mm256_mul_pd(rinv20,rinv20);
1482             rinvsq21         = _mm256_mul_pd(rinv21,rinv21);
1483             rinvsq22         = _mm256_mul_pd(rinv22,rinv22);
1484
1485             fjx0             = _mm256_setzero_pd();
1486             fjy0             = _mm256_setzero_pd();
1487             fjz0             = _mm256_setzero_pd();
1488             fjx1             = _mm256_setzero_pd();
1489             fjy1             = _mm256_setzero_pd();
1490             fjz1             = _mm256_setzero_pd();
1491             fjx2             = _mm256_setzero_pd();
1492             fjy2             = _mm256_setzero_pd();
1493             fjz2             = _mm256_setzero_pd();
1494
1495             /**************************
1496              * CALCULATE INTERACTIONS *
1497              **************************/
1498
1499             /* COULOMB ELECTROSTATICS */
1500             velec            = _mm256_mul_pd(qq00,rinv00);
1501             felec            = _mm256_mul_pd(velec,rinvsq00);
1502
1503             fscal            = felec;
1504
1505             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1506
1507             /* Calculate temporary vectorial force */
1508             tx               = _mm256_mul_pd(fscal,dx00);
1509             ty               = _mm256_mul_pd(fscal,dy00);
1510             tz               = _mm256_mul_pd(fscal,dz00);
1511
1512             /* Update vectorial force */
1513             fix0             = _mm256_add_pd(fix0,tx);
1514             fiy0             = _mm256_add_pd(fiy0,ty);
1515             fiz0             = _mm256_add_pd(fiz0,tz);
1516
1517             fjx0             = _mm256_add_pd(fjx0,tx);
1518             fjy0             = _mm256_add_pd(fjy0,ty);
1519             fjz0             = _mm256_add_pd(fjz0,tz);
1520
1521             /**************************
1522              * CALCULATE INTERACTIONS *
1523              **************************/
1524
1525             /* COULOMB ELECTROSTATICS */
1526             velec            = _mm256_mul_pd(qq01,rinv01);
1527             felec            = _mm256_mul_pd(velec,rinvsq01);
1528
1529             fscal            = felec;
1530
1531             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1532
1533             /* Calculate temporary vectorial force */
1534             tx               = _mm256_mul_pd(fscal,dx01);
1535             ty               = _mm256_mul_pd(fscal,dy01);
1536             tz               = _mm256_mul_pd(fscal,dz01);
1537
1538             /* Update vectorial force */
1539             fix0             = _mm256_add_pd(fix0,tx);
1540             fiy0             = _mm256_add_pd(fiy0,ty);
1541             fiz0             = _mm256_add_pd(fiz0,tz);
1542
1543             fjx1             = _mm256_add_pd(fjx1,tx);
1544             fjy1             = _mm256_add_pd(fjy1,ty);
1545             fjz1             = _mm256_add_pd(fjz1,tz);
1546
1547             /**************************
1548              * CALCULATE INTERACTIONS *
1549              **************************/
1550
1551             /* COULOMB ELECTROSTATICS */
1552             velec            = _mm256_mul_pd(qq02,rinv02);
1553             felec            = _mm256_mul_pd(velec,rinvsq02);
1554
1555             fscal            = felec;
1556
1557             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1558
1559             /* Calculate temporary vectorial force */
1560             tx               = _mm256_mul_pd(fscal,dx02);
1561             ty               = _mm256_mul_pd(fscal,dy02);
1562             tz               = _mm256_mul_pd(fscal,dz02);
1563
1564             /* Update vectorial force */
1565             fix0             = _mm256_add_pd(fix0,tx);
1566             fiy0             = _mm256_add_pd(fiy0,ty);
1567             fiz0             = _mm256_add_pd(fiz0,tz);
1568
1569             fjx2             = _mm256_add_pd(fjx2,tx);
1570             fjy2             = _mm256_add_pd(fjy2,ty);
1571             fjz2             = _mm256_add_pd(fjz2,tz);
1572
1573             /**************************
1574              * CALCULATE INTERACTIONS *
1575              **************************/
1576
1577             /* COULOMB ELECTROSTATICS */
1578             velec            = _mm256_mul_pd(qq10,rinv10);
1579             felec            = _mm256_mul_pd(velec,rinvsq10);
1580
1581             fscal            = felec;
1582
1583             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1584
1585             /* Calculate temporary vectorial force */
1586             tx               = _mm256_mul_pd(fscal,dx10);
1587             ty               = _mm256_mul_pd(fscal,dy10);
1588             tz               = _mm256_mul_pd(fscal,dz10);
1589
1590             /* Update vectorial force */
1591             fix1             = _mm256_add_pd(fix1,tx);
1592             fiy1             = _mm256_add_pd(fiy1,ty);
1593             fiz1             = _mm256_add_pd(fiz1,tz);
1594
1595             fjx0             = _mm256_add_pd(fjx0,tx);
1596             fjy0             = _mm256_add_pd(fjy0,ty);
1597             fjz0             = _mm256_add_pd(fjz0,tz);
1598
1599             /**************************
1600              * CALCULATE INTERACTIONS *
1601              **************************/
1602
1603             /* COULOMB ELECTROSTATICS */
1604             velec            = _mm256_mul_pd(qq11,rinv11);
1605             felec            = _mm256_mul_pd(velec,rinvsq11);
1606
1607             fscal            = felec;
1608
1609             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1610
1611             /* Calculate temporary vectorial force */
1612             tx               = _mm256_mul_pd(fscal,dx11);
1613             ty               = _mm256_mul_pd(fscal,dy11);
1614             tz               = _mm256_mul_pd(fscal,dz11);
1615
1616             /* Update vectorial force */
1617             fix1             = _mm256_add_pd(fix1,tx);
1618             fiy1             = _mm256_add_pd(fiy1,ty);
1619             fiz1             = _mm256_add_pd(fiz1,tz);
1620
1621             fjx1             = _mm256_add_pd(fjx1,tx);
1622             fjy1             = _mm256_add_pd(fjy1,ty);
1623             fjz1             = _mm256_add_pd(fjz1,tz);
1624
1625             /**************************
1626              * CALCULATE INTERACTIONS *
1627              **************************/
1628
1629             /* COULOMB ELECTROSTATICS */
1630             velec            = _mm256_mul_pd(qq12,rinv12);
1631             felec            = _mm256_mul_pd(velec,rinvsq12);
1632
1633             fscal            = felec;
1634
1635             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1636
1637             /* Calculate temporary vectorial force */
1638             tx               = _mm256_mul_pd(fscal,dx12);
1639             ty               = _mm256_mul_pd(fscal,dy12);
1640             tz               = _mm256_mul_pd(fscal,dz12);
1641
1642             /* Update vectorial force */
1643             fix1             = _mm256_add_pd(fix1,tx);
1644             fiy1             = _mm256_add_pd(fiy1,ty);
1645             fiz1             = _mm256_add_pd(fiz1,tz);
1646
1647             fjx2             = _mm256_add_pd(fjx2,tx);
1648             fjy2             = _mm256_add_pd(fjy2,ty);
1649             fjz2             = _mm256_add_pd(fjz2,tz);
1650
1651             /**************************
1652              * CALCULATE INTERACTIONS *
1653              **************************/
1654
1655             /* COULOMB ELECTROSTATICS */
1656             velec            = _mm256_mul_pd(qq20,rinv20);
1657             felec            = _mm256_mul_pd(velec,rinvsq20);
1658
1659             fscal            = felec;
1660
1661             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1662
1663             /* Calculate temporary vectorial force */
1664             tx               = _mm256_mul_pd(fscal,dx20);
1665             ty               = _mm256_mul_pd(fscal,dy20);
1666             tz               = _mm256_mul_pd(fscal,dz20);
1667
1668             /* Update vectorial force */
1669             fix2             = _mm256_add_pd(fix2,tx);
1670             fiy2             = _mm256_add_pd(fiy2,ty);
1671             fiz2             = _mm256_add_pd(fiz2,tz);
1672
1673             fjx0             = _mm256_add_pd(fjx0,tx);
1674             fjy0             = _mm256_add_pd(fjy0,ty);
1675             fjz0             = _mm256_add_pd(fjz0,tz);
1676
1677             /**************************
1678              * CALCULATE INTERACTIONS *
1679              **************************/
1680
1681             /* COULOMB ELECTROSTATICS */
1682             velec            = _mm256_mul_pd(qq21,rinv21);
1683             felec            = _mm256_mul_pd(velec,rinvsq21);
1684
1685             fscal            = felec;
1686
1687             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1688
1689             /* Calculate temporary vectorial force */
1690             tx               = _mm256_mul_pd(fscal,dx21);
1691             ty               = _mm256_mul_pd(fscal,dy21);
1692             tz               = _mm256_mul_pd(fscal,dz21);
1693
1694             /* Update vectorial force */
1695             fix2             = _mm256_add_pd(fix2,tx);
1696             fiy2             = _mm256_add_pd(fiy2,ty);
1697             fiz2             = _mm256_add_pd(fiz2,tz);
1698
1699             fjx1             = _mm256_add_pd(fjx1,tx);
1700             fjy1             = _mm256_add_pd(fjy1,ty);
1701             fjz1             = _mm256_add_pd(fjz1,tz);
1702
1703             /**************************
1704              * CALCULATE INTERACTIONS *
1705              **************************/
1706
1707             /* COULOMB ELECTROSTATICS */
1708             velec            = _mm256_mul_pd(qq22,rinv22);
1709             felec            = _mm256_mul_pd(velec,rinvsq22);
1710
1711             fscal            = felec;
1712
1713             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1714
1715             /* Calculate temporary vectorial force */
1716             tx               = _mm256_mul_pd(fscal,dx22);
1717             ty               = _mm256_mul_pd(fscal,dy22);
1718             tz               = _mm256_mul_pd(fscal,dz22);
1719
1720             /* Update vectorial force */
1721             fix2             = _mm256_add_pd(fix2,tx);
1722             fiy2             = _mm256_add_pd(fiy2,ty);
1723             fiz2             = _mm256_add_pd(fiz2,tz);
1724
1725             fjx2             = _mm256_add_pd(fjx2,tx);
1726             fjy2             = _mm256_add_pd(fjy2,ty);
1727             fjz2             = _mm256_add_pd(fjz2,tz);
1728
1729             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1730             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1731             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1732             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1733
1734             gmx_mm256_decrement_3rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,
1735                                                       fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1736
1737             /* Inner loop uses 234 flops */
1738         }
1739
1740         /* End of innermost loop */
1741
1742         gmx_mm256_update_iforce_3atom_swizzle_pd(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1743                                                  f+i_coord_offset,fshift+i_shift_offset);
1744
1745         /* Increment number of inner iterations */
1746         inneriter                  += j_index_end - j_index_start;
1747
1748         /* Outer loop uses 18 flops */
1749     }
1750
1751     /* Increment number of outer iterations */
1752     outeriter        += nri;
1753
1754     /* Update outer/inner flops */
1755
1756     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3W3_F,outeriter*18 + inneriter*234);
1757 }