src/gromacs/gmxlib/nonbonded/nb_kernel_avx_256_double/nb_kernel_ElecCSTab_VdwNone_GeomW4P1_avx_256_double.c

   1 /*
   2  * Note: this file was generated by the Gromacs avx_256_double kernel generator.
   3  *
   4  *                This source code is part of
   5  *
   6  *                 G   R   O   M   A   C   S
   7  *
   8  * Copyright (c) 2001-2012, The GROMACS Development Team
   9  *
  10  * Gromacs is a library for molecular simulation and trajectory analysis,
  11  * written by Erik Lindahl, David van der Spoel, Berk Hess, and others - for
  12  * a full list of developers and information, check out http://www.gromacs.org
  13  *
  14  * This program is free software; you can redistribute it and/or modify it under
  15  * the terms of the GNU Lesser General Public License as published by the Free
  16  * Software Foundation; either version 2 of the License, or (at your option) any
  17  * later version.
  18  *
  19  * To help fund GROMACS development, we humbly ask that you cite
  20  * the papers people have written on it - you can find them on the website.
  21  */
  22 #ifdef HAVE_CONFIG_H
  23 #include <config.h>
  24 #endif
  25
  26 #include <math.h>
  27
  28 #include "../nb_kernel.h"
  29 #include "types/simple.h"
  30 #include "vec.h"
  31 #include "nrnb.h"
  32
  33 #include "gmx_math_x86_avx_256_double.h"
  34 #include "kernelutil_x86_avx_256_double.h"
  35
  36 /*
  37  * Gromacs nonbonded kernel:   nb_kernel_ElecCSTab_VdwNone_GeomW4P1_VF_avx_256_double
  38  * Electrostatics interaction: CubicSplineTable
  39  * VdW interaction:            None
  40  * Geometry:                   Water4-Particle
  41  * Calculate force/pot:        PotentialAndForce
  42  */
  43 void
  44 nb_kernel_ElecCSTab_VdwNone_GeomW4P1_VF_avx_256_double
  45                     (t_nblist * gmx_restrict                nlist,
  46                      rvec * gmx_restrict                    xx,
  47                      rvec * gmx_restrict                    ff,
  48                      t_forcerec * gmx_restrict              fr,
  49                      t_mdatoms * gmx_restrict               mdatoms,
  50                      nb_kernel_data_t * gmx_restrict        kernel_data,
  51                      t_nrnb * gmx_restrict                  nrnb)
  52 {
  53     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  54      * just 0 for non-waters.
  55      * Suffixes A,B,C,D refer to j loop unrolling done with AVX, e.g. for the four different
  56      * jnr indices corresponding to data put in the four positions in the SIMD register.
  57      */
  58     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  59     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  60     int              jnrA,jnrB,jnrC,jnrD;
  61     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
  62     int              jnrlistE,jnrlistF,jnrlistG,jnrlistH;
  63     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
  64     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  65     real             rcutoff_scalar;
  66     real             *shiftvec,*fshift,*x,*f;
  67     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
  68     real             scratch[4*DIM];
  69     __m256d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  70     real *           vdwioffsetptr1;
  71     __m256d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  72     real *           vdwioffsetptr2;
  73     __m256d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  74     real *           vdwioffsetptr3;
  75     __m256d          ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
  76     int              vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
  77     __m256d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  78     __m256d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
  79     __m256d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
  80     __m256d          dx30,dy30,dz30,rsq30,rinv30,rinvsq30,r30,qq30,c6_30,c12_30;
  81     __m256d          velec,felec,velecsum,facel,crf,krf,krf2;
  82     real             *charge;
  83     __m128i          vfitab;
  84     __m128i          ifour       = _mm_set1_epi32(4);
  85     __m256d          rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
  86     real             *vftab;
  87     __m256d          dummy_mask,cutoff_mask;
  88     __m128           tmpmask0,tmpmask1;
  89     __m256d          signbit = _mm256_castsi256_pd( _mm256_set1_epi32(0x80000000) );
  90     __m256d          one     = _mm256_set1_pd(1.0);
  91     __m256d          two     = _mm256_set1_pd(2.0);
  92     x                = xx[0];
  93     f                = ff[0];
  94
  95     nri              = nlist->nri;
  96     iinr             = nlist->iinr;
  97     jindex           = nlist->jindex;
  98     jjnr             = nlist->jjnr;
  99     shiftidx         = nlist->shift;
 100     gid              = nlist->gid;
 101     shiftvec         = fr->shift_vec[0];
 102     fshift           = fr->fshift[0];
 103     facel            = _mm256_set1_pd(fr->epsfac);
 104     charge           = mdatoms->chargeA;
 105
 106     vftab            = kernel_data->table_elec->data;
 107     vftabscale       = _mm256_set1_pd(kernel_data->table_elec->scale);
 108
 109     /* Setup water-specific parameters */
 110     inr              = nlist->iinr[0];
 111     iq1              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+1]));
 112     iq2              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+2]));
 113     iq3              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+3]));
 114
 115     /* Avoid stupid compiler warnings */
 116     jnrA = jnrB = jnrC = jnrD = 0;
 117     j_coord_offsetA = 0;
 118     j_coord_offsetB = 0;
 119     j_coord_offsetC = 0;
 120     j_coord_offsetD = 0;
 121
 122     outeriter        = 0;
 123     inneriter        = 0;
 124
 125     for(iidx=0;iidx<4*DIM;iidx++)
 126     {
 127         scratch[iidx] = 0.0;
 128     }
 129
 130     /* Start outer loop over neighborlists */
 131     for(iidx=0; iidx<nri; iidx++)
 132     {
 133         /* Load shift vector for this list */
 134         i_shift_offset   = DIM*shiftidx[iidx];
 135
 136         /* Load limits for loop over neighbors */
 137         j_index_start    = jindex[iidx];
 138         j_index_end      = jindex[iidx+1];
 139
 140         /* Get outer coordinate index */
 141         inr              = iinr[iidx];
 142         i_coord_offset   = DIM*inr;
 143
 144         /* Load i particle coords and add shift vector */
 145         gmx_mm256_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset+DIM,
 146                                                     &ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
 147
 148         fix1             = _mm256_setzero_pd();
 149         fiy1             = _mm256_setzero_pd();
 150         fiz1             = _mm256_setzero_pd();
 151         fix2             = _mm256_setzero_pd();
 152         fiy2             = _mm256_setzero_pd();
 153         fiz2             = _mm256_setzero_pd();
 154         fix3             = _mm256_setzero_pd();
 155         fiy3             = _mm256_setzero_pd();
 156         fiz3             = _mm256_setzero_pd();
 157
 158         /* Reset potential sums */
 159         velecsum         = _mm256_setzero_pd();
 160
 161         /* Start inner kernel loop */
 162         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
 163         {
 164
 165             /* Get j neighbor index, and coordinate index */
 166             jnrA             = jjnr[jidx];
 167             jnrB             = jjnr[jidx+1];
 168             jnrC             = jjnr[jidx+2];
 169             jnrD             = jjnr[jidx+3];
 170             j_coord_offsetA  = DIM*jnrA;
 171             j_coord_offsetB  = DIM*jnrB;
 172             j_coord_offsetC  = DIM*jnrC;
 173             j_coord_offsetD  = DIM*jnrD;
 174
 175             /* load j atom coordinates */
 176             gmx_mm256_load_1rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 177                                                  x+j_coord_offsetC,x+j_coord_offsetD,
 178                                                  &jx0,&jy0,&jz0);
 179
 180             /* Calculate displacement vector */
 181             dx10             = _mm256_sub_pd(ix1,jx0);
 182             dy10             = _mm256_sub_pd(iy1,jy0);
 183             dz10             = _mm256_sub_pd(iz1,jz0);
 184             dx20             = _mm256_sub_pd(ix2,jx0);
 185             dy20             = _mm256_sub_pd(iy2,jy0);
 186             dz20             = _mm256_sub_pd(iz2,jz0);
 187             dx30             = _mm256_sub_pd(ix3,jx0);
 188             dy30             = _mm256_sub_pd(iy3,jy0);
 189             dz30             = _mm256_sub_pd(iz3,jz0);
 190
 191             /* Calculate squared distance and things based on it */
 192             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
 193             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
 194             rsq30            = gmx_mm256_calc_rsq_pd(dx30,dy30,dz30);
 195
 196             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
 197             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
 198             rinv30           = gmx_mm256_invsqrt_pd(rsq30);
 199
 200             /* Load parameters for j particles */
 201             jq0              = gmx_mm256_load_4real_swizzle_pd(charge+jnrA+0,charge+jnrB+0,
 202                                                                  charge+jnrC+0,charge+jnrD+0);
 203
 204             fjx0             = _mm256_setzero_pd();
 205             fjy0             = _mm256_setzero_pd();
 206             fjz0             = _mm256_setzero_pd();
 207
 208             /**************************
 209              * CALCULATE INTERACTIONS *
 210              **************************/
 211
 212             r10              = _mm256_mul_pd(rsq10,rinv10);
 213
 214             /* Compute parameters for interactions between i and j atoms */
 215             qq10             = _mm256_mul_pd(iq1,jq0);
 216
 217             /* Calculate table index by multiplying r with table scale and truncate to integer */
 218             rt               = _mm256_mul_pd(r10,vftabscale);
 219             vfitab           = _mm256_cvttpd_epi32(rt);
 220             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 221             vfitab           = _mm_slli_epi32(vfitab,2);
 222
 223             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 224             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 225             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 226             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 227             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 228             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 229             Heps             = _mm256_mul_pd(vfeps,H);
 230             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 231             VV               = _mm256_add_pd(Y,_mm256_mul_pd(vfeps,Fp));
 232             velec            = _mm256_mul_pd(qq10,VV);
 233             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 234             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq10,FF),_mm256_mul_pd(vftabscale,rinv10)));
 235
 236             /* Update potential sum for this i atom from the interaction with this j atom. */
 237             velecsum         = _mm256_add_pd(velecsum,velec);
 238
 239             fscal            = felec;
 240
 241             /* Calculate temporary vectorial force */
 242             tx               = _mm256_mul_pd(fscal,dx10);
 243             ty               = _mm256_mul_pd(fscal,dy10);
 244             tz               = _mm256_mul_pd(fscal,dz10);
 245
 246             /* Update vectorial force */
 247             fix1             = _mm256_add_pd(fix1,tx);
 248             fiy1             = _mm256_add_pd(fiy1,ty);
 249             fiz1             = _mm256_add_pd(fiz1,tz);
 250
 251             fjx0             = _mm256_add_pd(fjx0,tx);
 252             fjy0             = _mm256_add_pd(fjy0,ty);
 253             fjz0             = _mm256_add_pd(fjz0,tz);
 254
 255             /**************************
 256              * CALCULATE INTERACTIONS *
 257              **************************/
 258
 259             r20              = _mm256_mul_pd(rsq20,rinv20);
 260
 261             /* Compute parameters for interactions between i and j atoms */
 262             qq20             = _mm256_mul_pd(iq2,jq0);
 263
 264             /* Calculate table index by multiplying r with table scale and truncate to integer */
 265             rt               = _mm256_mul_pd(r20,vftabscale);
 266             vfitab           = _mm256_cvttpd_epi32(rt);
 267             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 268             vfitab           = _mm_slli_epi32(vfitab,2);
 269
 270             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 271             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 272             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 273             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 274             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 275             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 276             Heps             = _mm256_mul_pd(vfeps,H);
 277             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 278             VV               = _mm256_add_pd(Y,_mm256_mul_pd(vfeps,Fp));
 279             velec            = _mm256_mul_pd(qq20,VV);
 280             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 281             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq20,FF),_mm256_mul_pd(vftabscale,rinv20)));
 282
 283             /* Update potential sum for this i atom from the interaction with this j atom. */
 284             velecsum         = _mm256_add_pd(velecsum,velec);
 285
 286             fscal            = felec;
 287
 288             /* Calculate temporary vectorial force */
 289             tx               = _mm256_mul_pd(fscal,dx20);
 290             ty               = _mm256_mul_pd(fscal,dy20);
 291             tz               = _mm256_mul_pd(fscal,dz20);
 292
 293             /* Update vectorial force */
 294             fix2             = _mm256_add_pd(fix2,tx);
 295             fiy2             = _mm256_add_pd(fiy2,ty);
 296             fiz2             = _mm256_add_pd(fiz2,tz);
 297
 298             fjx0             = _mm256_add_pd(fjx0,tx);
 299             fjy0             = _mm256_add_pd(fjy0,ty);
 300             fjz0             = _mm256_add_pd(fjz0,tz);
 301
 302             /**************************
 303              * CALCULATE INTERACTIONS *
 304              **************************/
 305
 306             r30              = _mm256_mul_pd(rsq30,rinv30);
 307
 308             /* Compute parameters for interactions between i and j atoms */
 309             qq30             = _mm256_mul_pd(iq3,jq0);
 310
 311             /* Calculate table index by multiplying r with table scale and truncate to integer */
 312             rt               = _mm256_mul_pd(r30,vftabscale);
 313             vfitab           = _mm256_cvttpd_epi32(rt);
 314             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 315             vfitab           = _mm_slli_epi32(vfitab,2);
 316
 317             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 318             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 319             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 320             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 321             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 322             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 323             Heps             = _mm256_mul_pd(vfeps,H);
 324             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 325             VV               = _mm256_add_pd(Y,_mm256_mul_pd(vfeps,Fp));
 326             velec            = _mm256_mul_pd(qq30,VV);
 327             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 328             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq30,FF),_mm256_mul_pd(vftabscale,rinv30)));
 329
 330             /* Update potential sum for this i atom from the interaction with this j atom. */
 331             velecsum         = _mm256_add_pd(velecsum,velec);
 332
 333             fscal            = felec;
 334
 335             /* Calculate temporary vectorial force */
 336             tx               = _mm256_mul_pd(fscal,dx30);
 337             ty               = _mm256_mul_pd(fscal,dy30);
 338             tz               = _mm256_mul_pd(fscal,dz30);
 339
 340             /* Update vectorial force */
 341             fix3             = _mm256_add_pd(fix3,tx);
 342             fiy3             = _mm256_add_pd(fiy3,ty);
 343             fiz3             = _mm256_add_pd(fiz3,tz);
 344
 345             fjx0             = _mm256_add_pd(fjx0,tx);
 346             fjy0             = _mm256_add_pd(fjy0,ty);
 347             fjz0             = _mm256_add_pd(fjz0,tz);
 348
 349             fjptrA             = f+j_coord_offsetA;
 350             fjptrB             = f+j_coord_offsetB;
 351             fjptrC             = f+j_coord_offsetC;
 352             fjptrD             = f+j_coord_offsetD;
 353
 354             gmx_mm256_decrement_1rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
 355
 356             /* Inner loop uses 132 flops */
 357         }
 358
 359         if(jidx<j_index_end)
 360         {
 361
 362             /* Get j neighbor index, and coordinate index */
 363             jnrlistA         = jjnr[jidx];
 364             jnrlistB         = jjnr[jidx+1];
 365             jnrlistC         = jjnr[jidx+2];
 366             jnrlistD         = jjnr[jidx+3];
 367             /* Sign of each element will be negative for non-real atoms.
 368              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
 369              * so use it as val = _mm_andnot_pd(mask,val) to clear dummy entries.
 370              */
 371             tmpmask0 = gmx_mm_castsi128_pd(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
 372
 373             tmpmask1 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(3,3,2,2));
 374             tmpmask0 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(1,1,0,0));
 375             dummy_mask = _mm256_castps_pd(gmx_mm256_set_m128(tmpmask1,tmpmask0));
 376
 377             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
 378             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
 379             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
 380             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
 381             j_coord_offsetA  = DIM*jnrA;
 382             j_coord_offsetB  = DIM*jnrB;
 383             j_coord_offsetC  = DIM*jnrC;
 384             j_coord_offsetD  = DIM*jnrD;
 385
 386             /* load j atom coordinates */
 387             gmx_mm256_load_1rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 388                                                  x+j_coord_offsetC,x+j_coord_offsetD,
 389                                                  &jx0,&jy0,&jz0);
 390
 391             /* Calculate displacement vector */
 392             dx10             = _mm256_sub_pd(ix1,jx0);
 393             dy10             = _mm256_sub_pd(iy1,jy0);
 394             dz10             = _mm256_sub_pd(iz1,jz0);
 395             dx20             = _mm256_sub_pd(ix2,jx0);
 396             dy20             = _mm256_sub_pd(iy2,jy0);
 397             dz20             = _mm256_sub_pd(iz2,jz0);
 398             dx30             = _mm256_sub_pd(ix3,jx0);
 399             dy30             = _mm256_sub_pd(iy3,jy0);
 400             dz30             = _mm256_sub_pd(iz3,jz0);
 401
 402             /* Calculate squared distance and things based on it */
 403             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
 404             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
 405             rsq30            = gmx_mm256_calc_rsq_pd(dx30,dy30,dz30);
 406
 407             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
 408             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
 409             rinv30           = gmx_mm256_invsqrt_pd(rsq30);
 410
 411             /* Load parameters for j particles */
 412             jq0              = gmx_mm256_load_4real_swizzle_pd(charge+jnrA+0,charge+jnrB+0,
 413                                                                  charge+jnrC+0,charge+jnrD+0);
 414
 415             fjx0             = _mm256_setzero_pd();
 416             fjy0             = _mm256_setzero_pd();
 417             fjz0             = _mm256_setzero_pd();
 418
 419             /**************************
 420              * CALCULATE INTERACTIONS *
 421              **************************/
 422
 423             r10              = _mm256_mul_pd(rsq10,rinv10);
 424             r10              = _mm256_andnot_pd(dummy_mask,r10);
 425
 426             /* Compute parameters for interactions between i and j atoms */
 427             qq10             = _mm256_mul_pd(iq1,jq0);
 428
 429             /* Calculate table index by multiplying r with table scale and truncate to integer */
 430             rt               = _mm256_mul_pd(r10,vftabscale);
 431             vfitab           = _mm256_cvttpd_epi32(rt);
 432             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 433             vfitab           = _mm_slli_epi32(vfitab,2);
 434
 435             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 436             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 437             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 438             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 439             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 440             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 441             Heps             = _mm256_mul_pd(vfeps,H);
 442             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 443             VV               = _mm256_add_pd(Y,_mm256_mul_pd(vfeps,Fp));
 444             velec            = _mm256_mul_pd(qq10,VV);
 445             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 446             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq10,FF),_mm256_mul_pd(vftabscale,rinv10)));
 447
 448             /* Update potential sum for this i atom from the interaction with this j atom. */
 449             velec            = _mm256_andnot_pd(dummy_mask,velec);
 450             velecsum         = _mm256_add_pd(velecsum,velec);
 451
 452             fscal            = felec;
 453
 454             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 455
 456             /* Calculate temporary vectorial force */
 457             tx               = _mm256_mul_pd(fscal,dx10);
 458             ty               = _mm256_mul_pd(fscal,dy10);
 459             tz               = _mm256_mul_pd(fscal,dz10);
 460
 461             /* Update vectorial force */
 462             fix1             = _mm256_add_pd(fix1,tx);
 463             fiy1             = _mm256_add_pd(fiy1,ty);
 464             fiz1             = _mm256_add_pd(fiz1,tz);
 465
 466             fjx0             = _mm256_add_pd(fjx0,tx);
 467             fjy0             = _mm256_add_pd(fjy0,ty);
 468             fjz0             = _mm256_add_pd(fjz0,tz);
 469
 470             /**************************
 471              * CALCULATE INTERACTIONS *
 472              **************************/
 473
 474             r20              = _mm256_mul_pd(rsq20,rinv20);
 475             r20              = _mm256_andnot_pd(dummy_mask,r20);
 476
 477             /* Compute parameters for interactions between i and j atoms */
 478             qq20             = _mm256_mul_pd(iq2,jq0);
 479
 480             /* Calculate table index by multiplying r with table scale and truncate to integer */
 481             rt               = _mm256_mul_pd(r20,vftabscale);
 482             vfitab           = _mm256_cvttpd_epi32(rt);
 483             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 484             vfitab           = _mm_slli_epi32(vfitab,2);
 485
 486             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 487             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 488             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 489             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 490             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 491             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 492             Heps             = _mm256_mul_pd(vfeps,H);
 493             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 494             VV               = _mm256_add_pd(Y,_mm256_mul_pd(vfeps,Fp));
 495             velec            = _mm256_mul_pd(qq20,VV);
 496             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 497             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq20,FF),_mm256_mul_pd(vftabscale,rinv20)));
 498
 499             /* Update potential sum for this i atom from the interaction with this j atom. */
 500             velec            = _mm256_andnot_pd(dummy_mask,velec);
 501             velecsum         = _mm256_add_pd(velecsum,velec);
 502
 503             fscal            = felec;
 504
 505             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 506
 507             /* Calculate temporary vectorial force */
 508             tx               = _mm256_mul_pd(fscal,dx20);
 509             ty               = _mm256_mul_pd(fscal,dy20);
 510             tz               = _mm256_mul_pd(fscal,dz20);
 511
 512             /* Update vectorial force */
 513             fix2             = _mm256_add_pd(fix2,tx);
 514             fiy2             = _mm256_add_pd(fiy2,ty);
 515             fiz2             = _mm256_add_pd(fiz2,tz);
 516
 517             fjx0             = _mm256_add_pd(fjx0,tx);
 518             fjy0             = _mm256_add_pd(fjy0,ty);
 519             fjz0             = _mm256_add_pd(fjz0,tz);
 520
 521             /**************************
 522              * CALCULATE INTERACTIONS *
 523              **************************/
 524
 525             r30              = _mm256_mul_pd(rsq30,rinv30);
 526             r30              = _mm256_andnot_pd(dummy_mask,r30);
 527
 528             /* Compute parameters for interactions between i and j atoms */
 529             qq30             = _mm256_mul_pd(iq3,jq0);
 530
 531             /* Calculate table index by multiplying r with table scale and truncate to integer */
 532             rt               = _mm256_mul_pd(r30,vftabscale);
 533             vfitab           = _mm256_cvttpd_epi32(rt);
 534             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 535             vfitab           = _mm_slli_epi32(vfitab,2);
 536
 537             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 538             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 539             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 540             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 541             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 542             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 543             Heps             = _mm256_mul_pd(vfeps,H);
 544             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 545             VV               = _mm256_add_pd(Y,_mm256_mul_pd(vfeps,Fp));
 546             velec            = _mm256_mul_pd(qq30,VV);
 547             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 548             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq30,FF),_mm256_mul_pd(vftabscale,rinv30)));
 549
 550             /* Update potential sum for this i atom from the interaction with this j atom. */
 551             velec            = _mm256_andnot_pd(dummy_mask,velec);
 552             velecsum         = _mm256_add_pd(velecsum,velec);
 553
 554             fscal            = felec;
 555
 556             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 557
 558             /* Calculate temporary vectorial force */
 559             tx               = _mm256_mul_pd(fscal,dx30);
 560             ty               = _mm256_mul_pd(fscal,dy30);
 561             tz               = _mm256_mul_pd(fscal,dz30);
 562
 563             /* Update vectorial force */
 564             fix3             = _mm256_add_pd(fix3,tx);
 565             fiy3             = _mm256_add_pd(fiy3,ty);
 566             fiz3             = _mm256_add_pd(fiz3,tz);
 567
 568             fjx0             = _mm256_add_pd(fjx0,tx);
 569             fjy0             = _mm256_add_pd(fjy0,ty);
 570             fjz0             = _mm256_add_pd(fjz0,tz);
 571
 572             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
 573             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
 574             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
 575             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
 576
 577             gmx_mm256_decrement_1rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
 578
 579             /* Inner loop uses 135 flops */
 580         }
 581
 582         /* End of innermost loop */
 583
 584         gmx_mm256_update_iforce_3atom_swizzle_pd(fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
 585                                                  f+i_coord_offset+DIM,fshift+i_shift_offset);
 586
 587         ggid                        = gid[iidx];
 588         /* Update potential energies */
 589         gmx_mm256_update_1pot_pd(velecsum,kernel_data->energygrp_elec+ggid);
 590
 591         /* Increment number of inner iterations */
 592         inneriter                  += j_index_end - j_index_start;
 593
 594         /* Outer loop uses 19 flops */
 595     }
 596
 597     /* Increment number of outer iterations */
 598     outeriter        += nri;
 599
 600     /* Update outer/inner flops */
 601
 602     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W4_VF,outeriter*19 + inneriter*135);
 603 }
 604 /*
 605  * Gromacs nonbonded kernel:   nb_kernel_ElecCSTab_VdwNone_GeomW4P1_F_avx_256_double
 606  * Electrostatics interaction: CubicSplineTable
 607  * VdW interaction:            None
 608  * Geometry:                   Water4-Particle
 609  * Calculate force/pot:        Force
 610  */
 611 void
 612 nb_kernel_ElecCSTab_VdwNone_GeomW4P1_F_avx_256_double
 613                     (t_nblist * gmx_restrict                nlist,
 614                      rvec * gmx_restrict                    xx,
 615                      rvec * gmx_restrict                    ff,
 616                      t_forcerec * gmx_restrict              fr,
 617                      t_mdatoms * gmx_restrict               mdatoms,
 618                      nb_kernel_data_t * gmx_restrict        kernel_data,
 619                      t_nrnb * gmx_restrict                  nrnb)
 620 {
 621     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 622      * just 0 for non-waters.
 623      * Suffixes A,B,C,D refer to j loop unrolling done with AVX, e.g. for the four different
 624      * jnr indices corresponding to data put in the four positions in the SIMD register.
 625      */
 626     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 627     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 628     int              jnrA,jnrB,jnrC,jnrD;
 629     int              jnrlistA,jnrlistB,jnrlistC,jnrlistD;
 630     int              jnrlistE,jnrlistF,jnrlistG,jnrlistH;
 631     int              j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
 632     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 633     real             rcutoff_scalar;
 634     real             *shiftvec,*fshift,*x,*f;
 635     real             *fjptrA,*fjptrB,*fjptrC,*fjptrD;
 636     real             scratch[4*DIM];
 637     __m256d          tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 638     real *           vdwioffsetptr1;
 639     __m256d          ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 640     real *           vdwioffsetptr2;
 641     __m256d          ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 642     real *           vdwioffsetptr3;
 643     __m256d          ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
 644     int              vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
 645     __m256d          jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
 646     __m256d          dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
 647     __m256d          dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
 648     __m256d          dx30,dy30,dz30,rsq30,rinv30,rinvsq30,r30,qq30,c6_30,c12_30;
 649     __m256d          velec,felec,velecsum,facel,crf,krf,krf2;
 650     real             *charge;
 651     __m128i          vfitab;
 652     __m128i          ifour       = _mm_set1_epi32(4);
 653     __m256d          rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
 654     real             *vftab;
 655     __m256d          dummy_mask,cutoff_mask;
 656     __m128           tmpmask0,tmpmask1;
 657     __m256d          signbit = _mm256_castsi256_pd( _mm256_set1_epi32(0x80000000) );
 658     __m256d          one     = _mm256_set1_pd(1.0);
 659     __m256d          two     = _mm256_set1_pd(2.0);
 660     x                = xx[0];
 661     f                = ff[0];
 662
 663     nri              = nlist->nri;
 664     iinr             = nlist->iinr;
 665     jindex           = nlist->jindex;
 666     jjnr             = nlist->jjnr;
 667     shiftidx         = nlist->shift;
 668     gid              = nlist->gid;
 669     shiftvec         = fr->shift_vec[0];
 670     fshift           = fr->fshift[0];
 671     facel            = _mm256_set1_pd(fr->epsfac);
 672     charge           = mdatoms->chargeA;
 673
 674     vftab            = kernel_data->table_elec->data;
 675     vftabscale       = _mm256_set1_pd(kernel_data->table_elec->scale);
 676
 677     /* Setup water-specific parameters */
 678     inr              = nlist->iinr[0];
 679     iq1              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+1]));
 680     iq2              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+2]));
 681     iq3              = _mm256_mul_pd(facel,_mm256_set1_pd(charge[inr+3]));
 682
 683     /* Avoid stupid compiler warnings */
 684     jnrA = jnrB = jnrC = jnrD = 0;
 685     j_coord_offsetA = 0;
 686     j_coord_offsetB = 0;
 687     j_coord_offsetC = 0;
 688     j_coord_offsetD = 0;
 689
 690     outeriter        = 0;
 691     inneriter        = 0;
 692
 693     for(iidx=0;iidx<4*DIM;iidx++)
 694     {
 695         scratch[iidx] = 0.0;
 696     }
 697
 698     /* Start outer loop over neighborlists */
 699     for(iidx=0; iidx<nri; iidx++)
 700     {
 701         /* Load shift vector for this list */
 702         i_shift_offset   = DIM*shiftidx[iidx];
 703
 704         /* Load limits for loop over neighbors */
 705         j_index_start    = jindex[iidx];
 706         j_index_end      = jindex[iidx+1];
 707
 708         /* Get outer coordinate index */
 709         inr              = iinr[iidx];
 710         i_coord_offset   = DIM*inr;
 711
 712         /* Load i particle coords and add shift vector */
 713         gmx_mm256_load_shift_and_3rvec_broadcast_pd(shiftvec+i_shift_offset,x+i_coord_offset+DIM,
 714                                                     &ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
 715
 716         fix1             = _mm256_setzero_pd();
 717         fiy1             = _mm256_setzero_pd();
 718         fiz1             = _mm256_setzero_pd();
 719         fix2             = _mm256_setzero_pd();
 720         fiy2             = _mm256_setzero_pd();
 721         fiz2             = _mm256_setzero_pd();
 722         fix3             = _mm256_setzero_pd();
 723         fiy3             = _mm256_setzero_pd();
 724         fiz3             = _mm256_setzero_pd();
 725
 726         /* Start inner kernel loop */
 727         for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
 728         {
 729
 730             /* Get j neighbor index, and coordinate index */
 731             jnrA             = jjnr[jidx];
 732             jnrB             = jjnr[jidx+1];
 733             jnrC             = jjnr[jidx+2];
 734             jnrD             = jjnr[jidx+3];
 735             j_coord_offsetA  = DIM*jnrA;
 736             j_coord_offsetB  = DIM*jnrB;
 737             j_coord_offsetC  = DIM*jnrC;
 738             j_coord_offsetD  = DIM*jnrD;
 739
 740             /* load j atom coordinates */
 741             gmx_mm256_load_1rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 742                                                  x+j_coord_offsetC,x+j_coord_offsetD,
 743                                                  &jx0,&jy0,&jz0);
 744
 745             /* Calculate displacement vector */
 746             dx10             = _mm256_sub_pd(ix1,jx0);
 747             dy10             = _mm256_sub_pd(iy1,jy0);
 748             dz10             = _mm256_sub_pd(iz1,jz0);
 749             dx20             = _mm256_sub_pd(ix2,jx0);
 750             dy20             = _mm256_sub_pd(iy2,jy0);
 751             dz20             = _mm256_sub_pd(iz2,jz0);
 752             dx30             = _mm256_sub_pd(ix3,jx0);
 753             dy30             = _mm256_sub_pd(iy3,jy0);
 754             dz30             = _mm256_sub_pd(iz3,jz0);
 755
 756             /* Calculate squared distance and things based on it */
 757             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
 758             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
 759             rsq30            = gmx_mm256_calc_rsq_pd(dx30,dy30,dz30);
 760
 761             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
 762             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
 763             rinv30           = gmx_mm256_invsqrt_pd(rsq30);
 764
 765             /* Load parameters for j particles */
 766             jq0              = gmx_mm256_load_4real_swizzle_pd(charge+jnrA+0,charge+jnrB+0,
 767                                                                  charge+jnrC+0,charge+jnrD+0);
 768
 769             fjx0             = _mm256_setzero_pd();
 770             fjy0             = _mm256_setzero_pd();
 771             fjz0             = _mm256_setzero_pd();
 772
 773             /**************************
 774              * CALCULATE INTERACTIONS *
 775              **************************/
 776
 777             r10              = _mm256_mul_pd(rsq10,rinv10);
 778
 779             /* Compute parameters for interactions between i and j atoms */
 780             qq10             = _mm256_mul_pd(iq1,jq0);
 781
 782             /* Calculate table index by multiplying r with table scale and truncate to integer */
 783             rt               = _mm256_mul_pd(r10,vftabscale);
 784             vfitab           = _mm256_cvttpd_epi32(rt);
 785             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 786             vfitab           = _mm_slli_epi32(vfitab,2);
 787
 788             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 789             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 790             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 791             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 792             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 793             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 794             Heps             = _mm256_mul_pd(vfeps,H);
 795             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 796             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 797             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq10,FF),_mm256_mul_pd(vftabscale,rinv10)));
 798
 799             fscal            = felec;
 800
 801             /* Calculate temporary vectorial force */
 802             tx               = _mm256_mul_pd(fscal,dx10);
 803             ty               = _mm256_mul_pd(fscal,dy10);
 804             tz               = _mm256_mul_pd(fscal,dz10);
 805
 806             /* Update vectorial force */
 807             fix1             = _mm256_add_pd(fix1,tx);
 808             fiy1             = _mm256_add_pd(fiy1,ty);
 809             fiz1             = _mm256_add_pd(fiz1,tz);
 810
 811             fjx0             = _mm256_add_pd(fjx0,tx);
 812             fjy0             = _mm256_add_pd(fjy0,ty);
 813             fjz0             = _mm256_add_pd(fjz0,tz);
 814
 815             /**************************
 816              * CALCULATE INTERACTIONS *
 817              **************************/
 818
 819             r20              = _mm256_mul_pd(rsq20,rinv20);
 820
 821             /* Compute parameters for interactions between i and j atoms */
 822             qq20             = _mm256_mul_pd(iq2,jq0);
 823
 824             /* Calculate table index by multiplying r with table scale and truncate to integer */
 825             rt               = _mm256_mul_pd(r20,vftabscale);
 826             vfitab           = _mm256_cvttpd_epi32(rt);
 827             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 828             vfitab           = _mm_slli_epi32(vfitab,2);
 829
 830             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 831             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 832             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 833             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 834             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 835             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 836             Heps             = _mm256_mul_pd(vfeps,H);
 837             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 838             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 839             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq20,FF),_mm256_mul_pd(vftabscale,rinv20)));
 840
 841             fscal            = felec;
 842
 843             /* Calculate temporary vectorial force */
 844             tx               = _mm256_mul_pd(fscal,dx20);
 845             ty               = _mm256_mul_pd(fscal,dy20);
 846             tz               = _mm256_mul_pd(fscal,dz20);
 847
 848             /* Update vectorial force */
 849             fix2             = _mm256_add_pd(fix2,tx);
 850             fiy2             = _mm256_add_pd(fiy2,ty);
 851             fiz2             = _mm256_add_pd(fiz2,tz);
 852
 853             fjx0             = _mm256_add_pd(fjx0,tx);
 854             fjy0             = _mm256_add_pd(fjy0,ty);
 855             fjz0             = _mm256_add_pd(fjz0,tz);
 856
 857             /**************************
 858              * CALCULATE INTERACTIONS *
 859              **************************/
 860
 861             r30              = _mm256_mul_pd(rsq30,rinv30);
 862
 863             /* Compute parameters for interactions between i and j atoms */
 864             qq30             = _mm256_mul_pd(iq3,jq0);
 865
 866             /* Calculate table index by multiplying r with table scale and truncate to integer */
 867             rt               = _mm256_mul_pd(r30,vftabscale);
 868             vfitab           = _mm256_cvttpd_epi32(rt);
 869             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 870             vfitab           = _mm_slli_epi32(vfitab,2);
 871
 872             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 873             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 874             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 875             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 876             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 877             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 878             Heps             = _mm256_mul_pd(vfeps,H);
 879             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 880             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 881             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq30,FF),_mm256_mul_pd(vftabscale,rinv30)));
 882
 883             fscal            = felec;
 884
 885             /* Calculate temporary vectorial force */
 886             tx               = _mm256_mul_pd(fscal,dx30);
 887             ty               = _mm256_mul_pd(fscal,dy30);
 888             tz               = _mm256_mul_pd(fscal,dz30);
 889
 890             /* Update vectorial force */
 891             fix3             = _mm256_add_pd(fix3,tx);
 892             fiy3             = _mm256_add_pd(fiy3,ty);
 893             fiz3             = _mm256_add_pd(fiz3,tz);
 894
 895             fjx0             = _mm256_add_pd(fjx0,tx);
 896             fjy0             = _mm256_add_pd(fjy0,ty);
 897             fjz0             = _mm256_add_pd(fjz0,tz);
 898
 899             fjptrA             = f+j_coord_offsetA;
 900             fjptrB             = f+j_coord_offsetB;
 901             fjptrC             = f+j_coord_offsetC;
 902             fjptrD             = f+j_coord_offsetD;
 903
 904             gmx_mm256_decrement_1rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
 905
 906             /* Inner loop uses 120 flops */
 907         }
 908
 909         if(jidx<j_index_end)
 910         {
 911
 912             /* Get j neighbor index, and coordinate index */
 913             jnrlistA         = jjnr[jidx];
 914             jnrlistB         = jjnr[jidx+1];
 915             jnrlistC         = jjnr[jidx+2];
 916             jnrlistD         = jjnr[jidx+3];
 917             /* Sign of each element will be negative for non-real atoms.
 918              * This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
 919              * so use it as val = _mm_andnot_pd(mask,val) to clear dummy entries.
 920              */
 921             tmpmask0 = gmx_mm_castsi128_pd(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
 922
 923             tmpmask1 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(3,3,2,2));
 924             tmpmask0 = _mm_permute_ps(tmpmask0,_GMX_MM_PERMUTE(1,1,0,0));
 925             dummy_mask = _mm256_castps_pd(gmx_mm256_set_m128(tmpmask1,tmpmask0));
 926
 927             jnrA       = (jnrlistA>=0) ? jnrlistA : 0;
 928             jnrB       = (jnrlistB>=0) ? jnrlistB : 0;
 929             jnrC       = (jnrlistC>=0) ? jnrlistC : 0;
 930             jnrD       = (jnrlistD>=0) ? jnrlistD : 0;
 931             j_coord_offsetA  = DIM*jnrA;
 932             j_coord_offsetB  = DIM*jnrB;
 933             j_coord_offsetC  = DIM*jnrC;
 934             j_coord_offsetD  = DIM*jnrD;
 935
 936             /* load j atom coordinates */
 937             gmx_mm256_load_1rvec_4ptr_swizzle_pd(x+j_coord_offsetA,x+j_coord_offsetB,
 938                                                  x+j_coord_offsetC,x+j_coord_offsetD,
 939                                                  &jx0,&jy0,&jz0);
 940
 941             /* Calculate displacement vector */
 942             dx10             = _mm256_sub_pd(ix1,jx0);
 943             dy10             = _mm256_sub_pd(iy1,jy0);
 944             dz10             = _mm256_sub_pd(iz1,jz0);
 945             dx20             = _mm256_sub_pd(ix2,jx0);
 946             dy20             = _mm256_sub_pd(iy2,jy0);
 947             dz20             = _mm256_sub_pd(iz2,jz0);
 948             dx30             = _mm256_sub_pd(ix3,jx0);
 949             dy30             = _mm256_sub_pd(iy3,jy0);
 950             dz30             = _mm256_sub_pd(iz3,jz0);
 951
 952             /* Calculate squared distance and things based on it */
 953             rsq10            = gmx_mm256_calc_rsq_pd(dx10,dy10,dz10);
 954             rsq20            = gmx_mm256_calc_rsq_pd(dx20,dy20,dz20);
 955             rsq30            = gmx_mm256_calc_rsq_pd(dx30,dy30,dz30);
 956
 957             rinv10           = gmx_mm256_invsqrt_pd(rsq10);
 958             rinv20           = gmx_mm256_invsqrt_pd(rsq20);
 959             rinv30           = gmx_mm256_invsqrt_pd(rsq30);
 960
 961             /* Load parameters for j particles */
 962             jq0              = gmx_mm256_load_4real_swizzle_pd(charge+jnrA+0,charge+jnrB+0,
 963                                                                  charge+jnrC+0,charge+jnrD+0);
 964
 965             fjx0             = _mm256_setzero_pd();
 966             fjy0             = _mm256_setzero_pd();
 967             fjz0             = _mm256_setzero_pd();
 968
 969             /**************************
 970              * CALCULATE INTERACTIONS *
 971              **************************/
 972
 973             r10              = _mm256_mul_pd(rsq10,rinv10);
 974             r10              = _mm256_andnot_pd(dummy_mask,r10);
 975
 976             /* Compute parameters for interactions between i and j atoms */
 977             qq10             = _mm256_mul_pd(iq1,jq0);
 978
 979             /* Calculate table index by multiplying r with table scale and truncate to integer */
 980             rt               = _mm256_mul_pd(r10,vftabscale);
 981             vfitab           = _mm256_cvttpd_epi32(rt);
 982             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
 983             vfitab           = _mm_slli_epi32(vfitab,2);
 984
 985             /* CUBIC SPLINE TABLE ELECTROSTATICS */
 986             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
 987             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
 988             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
 989             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
 990             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
 991             Heps             = _mm256_mul_pd(vfeps,H);
 992             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
 993             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
 994             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq10,FF),_mm256_mul_pd(vftabscale,rinv10)));
 995
 996             fscal            = felec;
 997
 998             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
 999
1000             /* Calculate temporary vectorial force */
1001             tx               = _mm256_mul_pd(fscal,dx10);
1002             ty               = _mm256_mul_pd(fscal,dy10);
1003             tz               = _mm256_mul_pd(fscal,dz10);
1004
1005             /* Update vectorial force */
1006             fix1             = _mm256_add_pd(fix1,tx);
1007             fiy1             = _mm256_add_pd(fiy1,ty);
1008             fiz1             = _mm256_add_pd(fiz1,tz);
1009
1010             fjx0             = _mm256_add_pd(fjx0,tx);
1011             fjy0             = _mm256_add_pd(fjy0,ty);
1012             fjz0             = _mm256_add_pd(fjz0,tz);
1013
1014             /**************************
1015              * CALCULATE INTERACTIONS *
1016              **************************/
1017
1018             r20              = _mm256_mul_pd(rsq20,rinv20);
1019             r20              = _mm256_andnot_pd(dummy_mask,r20);
1020
1021             /* Compute parameters for interactions between i and j atoms */
1022             qq20             = _mm256_mul_pd(iq2,jq0);
1023
1024             /* Calculate table index by multiplying r with table scale and truncate to integer */
1025             rt               = _mm256_mul_pd(r20,vftabscale);
1026             vfitab           = _mm256_cvttpd_epi32(rt);
1027             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
1028             vfitab           = _mm_slli_epi32(vfitab,2);
1029
1030             /* CUBIC SPLINE TABLE ELECTROSTATICS */
1031             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
1032             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
1033             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
1034             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
1035             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
1036             Heps             = _mm256_mul_pd(vfeps,H);
1037             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
1038             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
1039             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq20,FF),_mm256_mul_pd(vftabscale,rinv20)));
1040
1041             fscal            = felec;
1042
1043             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1044
1045             /* Calculate temporary vectorial force */
1046             tx               = _mm256_mul_pd(fscal,dx20);
1047             ty               = _mm256_mul_pd(fscal,dy20);
1048             tz               = _mm256_mul_pd(fscal,dz20);
1049
1050             /* Update vectorial force */
1051             fix2             = _mm256_add_pd(fix2,tx);
1052             fiy2             = _mm256_add_pd(fiy2,ty);
1053             fiz2             = _mm256_add_pd(fiz2,tz);
1054
1055             fjx0             = _mm256_add_pd(fjx0,tx);
1056             fjy0             = _mm256_add_pd(fjy0,ty);
1057             fjz0             = _mm256_add_pd(fjz0,tz);
1058
1059             /**************************
1060              * CALCULATE INTERACTIONS *
1061              **************************/
1062
1063             r30              = _mm256_mul_pd(rsq30,rinv30);
1064             r30              = _mm256_andnot_pd(dummy_mask,r30);
1065
1066             /* Compute parameters for interactions between i and j atoms */
1067             qq30             = _mm256_mul_pd(iq3,jq0);
1068
1069             /* Calculate table index by multiplying r with table scale and truncate to integer */
1070             rt               = _mm256_mul_pd(r30,vftabscale);
1071             vfitab           = _mm256_cvttpd_epi32(rt);
1072             vfeps            = _mm256_sub_pd(rt,_mm256_round_pd(rt, _MM_FROUND_FLOOR));
1073             vfitab           = _mm_slli_epi32(vfitab,2);
1074
1075             /* CUBIC SPLINE TABLE ELECTROSTATICS */
1076             Y                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,0) );
1077             F                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,1) );
1078             G                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,2) );
1079             H                = _mm256_load_pd( vftab + _mm_extract_epi32(vfitab,3) );
1080             GMX_MM256_FULLTRANSPOSE4_PD(Y,F,G,H);
1081             Heps             = _mm256_mul_pd(vfeps,H);
1082             Fp               = _mm256_add_pd(F,_mm256_mul_pd(vfeps,_mm256_add_pd(G,Heps)));
1083             FF               = _mm256_add_pd(Fp,_mm256_mul_pd(vfeps,_mm256_add_pd(G,_mm256_add_pd(Heps,Heps))));
1084             felec            = _mm256_xor_pd(signbit,_mm256_mul_pd(_mm256_mul_pd(qq30,FF),_mm256_mul_pd(vftabscale,rinv30)));
1085
1086             fscal            = felec;
1087
1088             fscal            = _mm256_andnot_pd(dummy_mask,fscal);
1089
1090             /* Calculate temporary vectorial force */
1091             tx               = _mm256_mul_pd(fscal,dx30);
1092             ty               = _mm256_mul_pd(fscal,dy30);
1093             tz               = _mm256_mul_pd(fscal,dz30);
1094
1095             /* Update vectorial force */
1096             fix3             = _mm256_add_pd(fix3,tx);
1097             fiy3             = _mm256_add_pd(fiy3,ty);
1098             fiz3             = _mm256_add_pd(fiz3,tz);
1099
1100             fjx0             = _mm256_add_pd(fjx0,tx);
1101             fjy0             = _mm256_add_pd(fjy0,ty);
1102             fjz0             = _mm256_add_pd(fjz0,tz);
1103
1104             fjptrA             = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1105             fjptrB             = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1106             fjptrC             = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1107             fjptrD             = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1108
1109             gmx_mm256_decrement_1rvec_4ptr_swizzle_pd(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1110
1111             /* Inner loop uses 123 flops */
1112         }
1113
1114         /* End of innermost loop */
1115
1116         gmx_mm256_update_iforce_3atom_swizzle_pd(fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1117                                                  f+i_coord_offset+DIM,fshift+i_shift_offset);
1118
1119         /* Increment number of inner iterations */
1120         inneriter                  += j_index_end - j_index_start;
1121
1122         /* Outer loop uses 18 flops */
1123     }
1124
1125     /* Increment number of outer iterations */
1126     outeriter        += nri;
1127
1128     /* Update outer/inner flops */
1129
1130     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W4_F,outeriter*18 + inneriter*123);
1131 }