src/gromacs/gmxlib/nonbonded/nb_kernel_sparc64_hpc_ace_double/nb_kernel_ElecEwSw_VdwLJSw_GeomW4P1_sparc64_hpc_ace_double.c

   1 /*
   2  * This file is part of the GROMACS molecular simulation package.
   3  *
   4  * Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
   5  * Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
   6  * and including many others, as listed in the AUTHORS file in the
   7  * top-level source directory and at http://www.gromacs.org.
   8  *
   9  * GROMACS is free software; you can redistribute it and/or
  10  * modify it under the terms of the GNU Lesser General Public License
  11  * as published by the Free Software Foundation; either version 2.1
  12  * of the License, or (at your option) any later version.
  13  *
  14  * GROMACS is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17  * Lesser General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU Lesser General Public
  20  * License along with GROMACS; if not, see
  21  * http://www.gnu.org/licenses, or write to the Free Software Foundation,
  22  * Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA.
  23  *
  24  * If you want to redistribute modifications to GROMACS, please
  25  * consider that scientific software is very special. Version
  26  * control is crucial - bugs must be traceable. We will be happy to
  27  * consider code for inclusion in the official distribution, but
  28  * derived work must not be called official GROMACS. Details are found
  29  * in the README & COPYING files - if they are missing, get the
  30  * official version at http://www.gromacs.org.
  31  *
  32  * To help us fund GROMACS development, we humbly ask that you cite
  33  * the research papers on the package. Check out http://www.gromacs.org.
  34  */
  35 /*
  36  * Note: this file was generated by the GROMACS sparc64_hpc_ace_double kernel generator.
  37  */
  38 #include "config.h"
  39
  40 #include <math.h>
  41
  42 #include "../nb_kernel.h"
  43 #include "gromacs/legacyheaders/types/simple.h"
  44 #include "gromacs/math/vec.h"
  45 #include "gromacs/legacyheaders/nrnb.h"
  46
  47 #include "kernelutil_sparc64_hpc_ace_double.h"
  48
  49 /*
  50  * Gromacs nonbonded kernel:   nb_kernel_ElecEwSw_VdwLJSw_GeomW4P1_VF_sparc64_hpc_ace_double
  51  * Electrostatics interaction: Ewald
  52  * VdW interaction:            LennardJones
  53  * Geometry:                   Water4-Particle
  54  * Calculate force/pot:        PotentialAndForce
  55  */
  56 void
  57 nb_kernel_ElecEwSw_VdwLJSw_GeomW4P1_VF_sparc64_hpc_ace_double
  58                     (t_nblist                    * gmx_restrict       nlist,
  59                      rvec                        * gmx_restrict          xx,
  60                      rvec                        * gmx_restrict          ff,
  61                      t_forcerec                  * gmx_restrict          fr,
  62                      t_mdatoms                   * gmx_restrict     mdatoms,
  63                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
  64                      t_nrnb                      * gmx_restrict        nrnb)
  65 {
  66     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
  67      * just 0 for non-waters.
  68      * Suffixes A,B refer to j loop unrolling done with double precision SIMD, e.g. for the two different
  69      * jnr indices corresponding to data put in the four positions in the SIMD register.
  70      */
  71     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
  72     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
  73     int              jnrA,jnrB;
  74     int              j_coord_offsetA,j_coord_offsetB;
  75     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
  76     real             rcutoff_scalar;
  77     real             *shiftvec,*fshift,*x,*f;
  78     _fjsp_v2r8       tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
  79     int              vdwioffset0;
  80     _fjsp_v2r8       ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
  81     int              vdwioffset1;
  82     _fjsp_v2r8       ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
  83     int              vdwioffset2;
  84     _fjsp_v2r8       ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
  85     int              vdwioffset3;
  86     _fjsp_v2r8       ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
  87     int              vdwjidx0A,vdwjidx0B;
  88     _fjsp_v2r8       jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
  89     _fjsp_v2r8       dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
  90     _fjsp_v2r8       dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
  91     _fjsp_v2r8       dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
  92     _fjsp_v2r8       dx30,dy30,dz30,rsq30,rinv30,rinvsq30,r30,qq30,c6_30,c12_30;
  93     _fjsp_v2r8       velec,felec,velecsum,facel,crf,krf,krf2;
  94     real             *charge;
  95     int              nvdwtype;
  96     _fjsp_v2r8       rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
  97     int              *vdwtype;
  98     real             *vdwparam;
  99     _fjsp_v2r8       one_sixth   = gmx_fjsp_set1_v2r8(1.0/6.0);
 100     _fjsp_v2r8       one_twelfth = gmx_fjsp_set1_v2r8(1.0/12.0);
 101     _fjsp_v2r8       ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
 102     real             *ewtab;
 103     _fjsp_v2r8       rswitch,swV3,swV4,swV5,swF2,swF3,swF4,d,d2,sw,dsw;
 104     real             rswitch_scalar,d_scalar;
 105     _fjsp_v2r8       itab_tmp;
 106     _fjsp_v2r8       dummy_mask,cutoff_mask;
 107     _fjsp_v2r8       one     = gmx_fjsp_set1_v2r8(1.0);
 108     _fjsp_v2r8       two     = gmx_fjsp_set1_v2r8(2.0);
 109     union { _fjsp_v2r8 simd; long long int i[2]; } vfconv,gbconv,ewconv;
 110
 111     x                = xx[0];
 112     f                = ff[0];
 113
 114     nri              = nlist->nri;
 115     iinr             = nlist->iinr;
 116     jindex           = nlist->jindex;
 117     jjnr             = nlist->jjnr;
 118     shiftidx         = nlist->shift;
 119     gid              = nlist->gid;
 120     shiftvec         = fr->shift_vec[0];
 121     fshift           = fr->fshift[0];
 122     facel            = gmx_fjsp_set1_v2r8(fr->epsfac);
 123     charge           = mdatoms->chargeA;
 124     nvdwtype         = fr->ntype;
 125     vdwparam         = fr->nbfp;
 126     vdwtype          = mdatoms->typeA;
 127
 128     sh_ewald         = gmx_fjsp_set1_v2r8(fr->ic->sh_ewald);
 129     ewtab            = fr->ic->tabq_coul_FDV0;
 130     ewtabscale       = gmx_fjsp_set1_v2r8(fr->ic->tabq_scale);
 131     ewtabhalfspace   = gmx_fjsp_set1_v2r8(0.5/fr->ic->tabq_scale);
 132
 133     /* Setup water-specific parameters */
 134     inr              = nlist->iinr[0];
 135     iq1              = _fjsp_mul_v2r8(facel,gmx_fjsp_set1_v2r8(charge[inr+1]));
 136     iq2              = _fjsp_mul_v2r8(facel,gmx_fjsp_set1_v2r8(charge[inr+2]));
 137     iq3              = _fjsp_mul_v2r8(facel,gmx_fjsp_set1_v2r8(charge[inr+3]));
 138     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 139
 140     /* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
 141     rcutoff_scalar   = fr->rcoulomb;
 142     rcutoff          = gmx_fjsp_set1_v2r8(rcutoff_scalar);
 143     rcutoff2         = _fjsp_mul_v2r8(rcutoff,rcutoff);
 144
 145     rswitch_scalar   = fr->rcoulomb_switch;
 146     rswitch          = gmx_fjsp_set1_v2r8(rswitch_scalar);
 147     /* Setup switch parameters */
 148     d_scalar         = rcutoff_scalar-rswitch_scalar;
 149     d                = gmx_fjsp_set1_v2r8(d_scalar);
 150     swV3             = gmx_fjsp_set1_v2r8(-10.0/(d_scalar*d_scalar*d_scalar));
 151     swV4             = gmx_fjsp_set1_v2r8( 15.0/(d_scalar*d_scalar*d_scalar*d_scalar));
 152     swV5             = gmx_fjsp_set1_v2r8( -6.0/(d_scalar*d_scalar*d_scalar*d_scalar*d_scalar));
 153     swF2             = gmx_fjsp_set1_v2r8(-30.0/(d_scalar*d_scalar*d_scalar));
 154     swF3             = gmx_fjsp_set1_v2r8( 60.0/(d_scalar*d_scalar*d_scalar*d_scalar));
 155     swF4             = gmx_fjsp_set1_v2r8(-30.0/(d_scalar*d_scalar*d_scalar*d_scalar*d_scalar));
 156
 157     /* Avoid stupid compiler warnings */
 158     jnrA = jnrB = 0;
 159     j_coord_offsetA = 0;
 160     j_coord_offsetB = 0;
 161
 162     outeriter        = 0;
 163     inneriter        = 0;
 164
 165     /* Start outer loop over neighborlists */
 166     for(iidx=0; iidx<nri; iidx++)
 167     {
 168         /* Load shift vector for this list */
 169         i_shift_offset   = DIM*shiftidx[iidx];
 170
 171         /* Load limits for loop over neighbors */
 172         j_index_start    = jindex[iidx];
 173         j_index_end      = jindex[iidx+1];
 174
 175         /* Get outer coordinate index */
 176         inr              = iinr[iidx];
 177         i_coord_offset   = DIM*inr;
 178
 179         /* Load i particle coords and add shift vector */
 180         gmx_fjsp_load_shift_and_4rvec_broadcast_v2r8(shiftvec+i_shift_offset,x+i_coord_offset,
 181                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
 182
 183         fix0             = _fjsp_setzero_v2r8();
 184         fiy0             = _fjsp_setzero_v2r8();
 185         fiz0             = _fjsp_setzero_v2r8();
 186         fix1             = _fjsp_setzero_v2r8();
 187         fiy1             = _fjsp_setzero_v2r8();
 188         fiz1             = _fjsp_setzero_v2r8();
 189         fix2             = _fjsp_setzero_v2r8();
 190         fiy2             = _fjsp_setzero_v2r8();
 191         fiz2             = _fjsp_setzero_v2r8();
 192         fix3             = _fjsp_setzero_v2r8();
 193         fiy3             = _fjsp_setzero_v2r8();
 194         fiz3             = _fjsp_setzero_v2r8();
 195
 196         /* Reset potential sums */
 197         velecsum         = _fjsp_setzero_v2r8();
 198         vvdwsum          = _fjsp_setzero_v2r8();
 199
 200         /* Start inner kernel loop */
 201         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
 202         {
 203
 204             /* Get j neighbor index, and coordinate index */
 205             jnrA             = jjnr[jidx];
 206             jnrB             = jjnr[jidx+1];
 207             j_coord_offsetA  = DIM*jnrA;
 208             j_coord_offsetB  = DIM*jnrB;
 209
 210             /* load j atom coordinates */
 211             gmx_fjsp_load_1rvec_2ptr_swizzle_v2r8(x+j_coord_offsetA,x+j_coord_offsetB,
 212                                               &jx0,&jy0,&jz0);
 213
 214             /* Calculate displacement vector */
 215             dx00             = _fjsp_sub_v2r8(ix0,jx0);
 216             dy00             = _fjsp_sub_v2r8(iy0,jy0);
 217             dz00             = _fjsp_sub_v2r8(iz0,jz0);
 218             dx10             = _fjsp_sub_v2r8(ix1,jx0);
 219             dy10             = _fjsp_sub_v2r8(iy1,jy0);
 220             dz10             = _fjsp_sub_v2r8(iz1,jz0);
 221             dx20             = _fjsp_sub_v2r8(ix2,jx0);
 222             dy20             = _fjsp_sub_v2r8(iy2,jy0);
 223             dz20             = _fjsp_sub_v2r8(iz2,jz0);
 224             dx30             = _fjsp_sub_v2r8(ix3,jx0);
 225             dy30             = _fjsp_sub_v2r8(iy3,jy0);
 226             dz30             = _fjsp_sub_v2r8(iz3,jz0);
 227
 228             /* Calculate squared distance and things based on it */
 229             rsq00            = gmx_fjsp_calc_rsq_v2r8(dx00,dy00,dz00);
 230             rsq10            = gmx_fjsp_calc_rsq_v2r8(dx10,dy10,dz10);
 231             rsq20            = gmx_fjsp_calc_rsq_v2r8(dx20,dy20,dz20);
 232             rsq30            = gmx_fjsp_calc_rsq_v2r8(dx30,dy30,dz30);
 233
 234             rinv00           = gmx_fjsp_invsqrt_v2r8(rsq00);
 235             rinv10           = gmx_fjsp_invsqrt_v2r8(rsq10);
 236             rinv20           = gmx_fjsp_invsqrt_v2r8(rsq20);
 237             rinv30           = gmx_fjsp_invsqrt_v2r8(rsq30);
 238
 239             rinvsq00         = _fjsp_mul_v2r8(rinv00,rinv00);
 240             rinvsq10         = _fjsp_mul_v2r8(rinv10,rinv10);
 241             rinvsq20         = _fjsp_mul_v2r8(rinv20,rinv20);
 242             rinvsq30         = _fjsp_mul_v2r8(rinv30,rinv30);
 243
 244             /* Load parameters for j particles */
 245             jq0              = gmx_fjsp_load_2real_swizzle_v2r8(charge+jnrA+0,charge+jnrB+0);
 246             vdwjidx0A        = 2*vdwtype[jnrA+0];
 247             vdwjidx0B        = 2*vdwtype[jnrB+0];
 248
 249             fjx0             = _fjsp_setzero_v2r8();
 250             fjy0             = _fjsp_setzero_v2r8();
 251             fjz0             = _fjsp_setzero_v2r8();
 252
 253             /**************************
 254              * CALCULATE INTERACTIONS *
 255              **************************/
 256
 257             if (gmx_fjsp_any_lt_v2r8(rsq00,rcutoff2))
 258             {
 259
 260             r00              = _fjsp_mul_v2r8(rsq00,rinv00);
 261
 262             /* Compute parameters for interactions between i and j atoms */
 263             gmx_fjsp_load_2pair_swizzle_v2r8(vdwparam+vdwioffset0+vdwjidx0A,
 264                                          vdwparam+vdwioffset0+vdwjidx0B,&c6_00,&c12_00);
 265
 266             /* LENNARD-JONES DISPERSION/REPULSION */
 267
 268             rinvsix          = _fjsp_mul_v2r8(_fjsp_mul_v2r8(rinvsq00,rinvsq00),rinvsq00);
 269             vvdw6            = _fjsp_mul_v2r8(c6_00,rinvsix);
 270             vvdw12           = _fjsp_mul_v2r8(c12_00,_fjsp_mul_v2r8(rinvsix,rinvsix));
 271             vvdw             = _fjsp_msub_v2r8( vvdw12,one_twelfth, _fjsp_mul_v2r8(vvdw6,one_sixth) );
 272             fvdw             = _fjsp_mul_v2r8(_fjsp_sub_v2r8(vvdw12,vvdw6),rinvsq00);
 273
 274             d                = _fjsp_sub_v2r8(r00,rswitch);
 275             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 276             d2               = _fjsp_mul_v2r8(d,d);
 277             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 278
 279             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 280
 281             /* Evaluate switch function */
 282             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 283             fvdw             = _fjsp_msub_v2r8( fvdw,sw , _fjsp_mul_v2r8(rinv00,_fjsp_mul_v2r8(vvdw,dsw)) );
 284             vvdw             = _fjsp_mul_v2r8(vvdw,sw);
 285             cutoff_mask      = _fjsp_cmplt_v2r8(rsq00,rcutoff2);
 286
 287             /* Update potential sum for this i atom from the interaction with this j atom. */
 288             vvdw             = _fjsp_and_v2r8(vvdw,cutoff_mask);
 289             vvdwsum          = _fjsp_add_v2r8(vvdwsum,vvdw);
 290
 291             fscal            = fvdw;
 292
 293             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 294
 295             /* Update vectorial force */
 296             fix0             = _fjsp_madd_v2r8(dx00,fscal,fix0);
 297             fiy0             = _fjsp_madd_v2r8(dy00,fscal,fiy0);
 298             fiz0             = _fjsp_madd_v2r8(dz00,fscal,fiz0);
 299
 300             fjx0             = _fjsp_madd_v2r8(dx00,fscal,fjx0);
 301             fjy0             = _fjsp_madd_v2r8(dy00,fscal,fjy0);
 302             fjz0             = _fjsp_madd_v2r8(dz00,fscal,fjz0);
 303
 304             }
 305
 306             /**************************
 307              * CALCULATE INTERACTIONS *
 308              **************************/
 309
 310             if (gmx_fjsp_any_lt_v2r8(rsq10,rcutoff2))
 311             {
 312
 313             r10              = _fjsp_mul_v2r8(rsq10,rinv10);
 314
 315             /* Compute parameters for interactions between i and j atoms */
 316             qq10             = _fjsp_mul_v2r8(iq1,jq0);
 317
 318             /* EWALD ELECTROSTATICS */
 319
 320             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 321             ewrt             = _fjsp_mul_v2r8(r10,ewtabscale);
 322             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
 323             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
 324             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
 325
 326             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
 327             ewtabD           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[1] );
 328             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
 329             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
 330             ewtabFn          = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[1] +2);
 331             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
 332             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
 333             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
 334             velec            = _fjsp_mul_v2r8(qq10,_fjsp_sub_v2r8(rinv10,velec));
 335             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq10,rinv10),_fjsp_sub_v2r8(rinvsq10,felec));
 336
 337             d                = _fjsp_sub_v2r8(r10,rswitch);
 338             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 339             d2               = _fjsp_mul_v2r8(d,d);
 340             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 341
 342             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 343
 344             /* Evaluate switch function */
 345             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 346             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv10,_fjsp_mul_v2r8(velec,dsw)) );
 347             velec            = _fjsp_mul_v2r8(velec,sw);
 348             cutoff_mask      = _fjsp_cmplt_v2r8(rsq10,rcutoff2);
 349
 350             /* Update potential sum for this i atom from the interaction with this j atom. */
 351             velec            = _fjsp_and_v2r8(velec,cutoff_mask);
 352             velecsum         = _fjsp_add_v2r8(velecsum,velec);
 353
 354             fscal            = felec;
 355
 356             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 357
 358             /* Update vectorial force */
 359             fix1             = _fjsp_madd_v2r8(dx10,fscal,fix1);
 360             fiy1             = _fjsp_madd_v2r8(dy10,fscal,fiy1);
 361             fiz1             = _fjsp_madd_v2r8(dz10,fscal,fiz1);
 362
 363             fjx0             = _fjsp_madd_v2r8(dx10,fscal,fjx0);
 364             fjy0             = _fjsp_madd_v2r8(dy10,fscal,fjy0);
 365             fjz0             = _fjsp_madd_v2r8(dz10,fscal,fjz0);
 366
 367             }
 368
 369             /**************************
 370              * CALCULATE INTERACTIONS *
 371              **************************/
 372
 373             if (gmx_fjsp_any_lt_v2r8(rsq20,rcutoff2))
 374             {
 375
 376             r20              = _fjsp_mul_v2r8(rsq20,rinv20);
 377
 378             /* Compute parameters for interactions between i and j atoms */
 379             qq20             = _fjsp_mul_v2r8(iq2,jq0);
 380
 381             /* EWALD ELECTROSTATICS */
 382
 383             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 384             ewrt             = _fjsp_mul_v2r8(r20,ewtabscale);
 385             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
 386             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
 387             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
 388
 389             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
 390             ewtabD           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[1] );
 391             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
 392             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
 393             ewtabFn          = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[1] +2);
 394             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
 395             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
 396             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
 397             velec            = _fjsp_mul_v2r8(qq20,_fjsp_sub_v2r8(rinv20,velec));
 398             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq20,rinv20),_fjsp_sub_v2r8(rinvsq20,felec));
 399
 400             d                = _fjsp_sub_v2r8(r20,rswitch);
 401             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 402             d2               = _fjsp_mul_v2r8(d,d);
 403             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 404
 405             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 406
 407             /* Evaluate switch function */
 408             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 409             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv20,_fjsp_mul_v2r8(velec,dsw)) );
 410             velec            = _fjsp_mul_v2r8(velec,sw);
 411             cutoff_mask      = _fjsp_cmplt_v2r8(rsq20,rcutoff2);
 412
 413             /* Update potential sum for this i atom from the interaction with this j atom. */
 414             velec            = _fjsp_and_v2r8(velec,cutoff_mask);
 415             velecsum         = _fjsp_add_v2r8(velecsum,velec);
 416
 417             fscal            = felec;
 418
 419             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 420
 421             /* Update vectorial force */
 422             fix2             = _fjsp_madd_v2r8(dx20,fscal,fix2);
 423             fiy2             = _fjsp_madd_v2r8(dy20,fscal,fiy2);
 424             fiz2             = _fjsp_madd_v2r8(dz20,fscal,fiz2);
 425
 426             fjx0             = _fjsp_madd_v2r8(dx20,fscal,fjx0);
 427             fjy0             = _fjsp_madd_v2r8(dy20,fscal,fjy0);
 428             fjz0             = _fjsp_madd_v2r8(dz20,fscal,fjz0);
 429
 430             }
 431
 432             /**************************
 433              * CALCULATE INTERACTIONS *
 434              **************************/
 435
 436             if (gmx_fjsp_any_lt_v2r8(rsq30,rcutoff2))
 437             {
 438
 439             r30              = _fjsp_mul_v2r8(rsq30,rinv30);
 440
 441             /* Compute parameters for interactions between i and j atoms */
 442             qq30             = _fjsp_mul_v2r8(iq3,jq0);
 443
 444             /* EWALD ELECTROSTATICS */
 445
 446             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 447             ewrt             = _fjsp_mul_v2r8(r30,ewtabscale);
 448             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
 449             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
 450             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
 451
 452             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
 453             ewtabD           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[1] );
 454             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
 455             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
 456             ewtabFn          = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[1] +2);
 457             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
 458             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
 459             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
 460             velec            = _fjsp_mul_v2r8(qq30,_fjsp_sub_v2r8(rinv30,velec));
 461             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq30,rinv30),_fjsp_sub_v2r8(rinvsq30,felec));
 462
 463             d                = _fjsp_sub_v2r8(r30,rswitch);
 464             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 465             d2               = _fjsp_mul_v2r8(d,d);
 466             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 467
 468             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 469
 470             /* Evaluate switch function */
 471             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 472             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv30,_fjsp_mul_v2r8(velec,dsw)) );
 473             velec            = _fjsp_mul_v2r8(velec,sw);
 474             cutoff_mask      = _fjsp_cmplt_v2r8(rsq30,rcutoff2);
 475
 476             /* Update potential sum for this i atom from the interaction with this j atom. */
 477             velec            = _fjsp_and_v2r8(velec,cutoff_mask);
 478             velecsum         = _fjsp_add_v2r8(velecsum,velec);
 479
 480             fscal            = felec;
 481
 482             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 483
 484             /* Update vectorial force */
 485             fix3             = _fjsp_madd_v2r8(dx30,fscal,fix3);
 486             fiy3             = _fjsp_madd_v2r8(dy30,fscal,fiy3);
 487             fiz3             = _fjsp_madd_v2r8(dz30,fscal,fiz3);
 488
 489             fjx0             = _fjsp_madd_v2r8(dx30,fscal,fjx0);
 490             fjy0             = _fjsp_madd_v2r8(dy30,fscal,fjy0);
 491             fjz0             = _fjsp_madd_v2r8(dz30,fscal,fjz0);
 492
 493             }
 494
 495             gmx_fjsp_decrement_1rvec_2ptr_swizzle_v2r8(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0);
 496
 497             /* Inner loop uses 269 flops */
 498         }
 499
 500         if(jidx<j_index_end)
 501         {
 502
 503             jnrA             = jjnr[jidx];
 504             j_coord_offsetA  = DIM*jnrA;
 505
 506             /* load j atom coordinates */
 507             gmx_fjsp_load_1rvec_1ptr_swizzle_v2r8(x+j_coord_offsetA,
 508                                               &jx0,&jy0,&jz0);
 509
 510             /* Calculate displacement vector */
 511             dx00             = _fjsp_sub_v2r8(ix0,jx0);
 512             dy00             = _fjsp_sub_v2r8(iy0,jy0);
 513             dz00             = _fjsp_sub_v2r8(iz0,jz0);
 514             dx10             = _fjsp_sub_v2r8(ix1,jx0);
 515             dy10             = _fjsp_sub_v2r8(iy1,jy0);
 516             dz10             = _fjsp_sub_v2r8(iz1,jz0);
 517             dx20             = _fjsp_sub_v2r8(ix2,jx0);
 518             dy20             = _fjsp_sub_v2r8(iy2,jy0);
 519             dz20             = _fjsp_sub_v2r8(iz2,jz0);
 520             dx30             = _fjsp_sub_v2r8(ix3,jx0);
 521             dy30             = _fjsp_sub_v2r8(iy3,jy0);
 522             dz30             = _fjsp_sub_v2r8(iz3,jz0);
 523
 524             /* Calculate squared distance and things based on it */
 525             rsq00            = gmx_fjsp_calc_rsq_v2r8(dx00,dy00,dz00);
 526             rsq10            = gmx_fjsp_calc_rsq_v2r8(dx10,dy10,dz10);
 527             rsq20            = gmx_fjsp_calc_rsq_v2r8(dx20,dy20,dz20);
 528             rsq30            = gmx_fjsp_calc_rsq_v2r8(dx30,dy30,dz30);
 529
 530             rinv00           = gmx_fjsp_invsqrt_v2r8(rsq00);
 531             rinv10           = gmx_fjsp_invsqrt_v2r8(rsq10);
 532             rinv20           = gmx_fjsp_invsqrt_v2r8(rsq20);
 533             rinv30           = gmx_fjsp_invsqrt_v2r8(rsq30);
 534
 535             rinvsq00         = _fjsp_mul_v2r8(rinv00,rinv00);
 536             rinvsq10         = _fjsp_mul_v2r8(rinv10,rinv10);
 537             rinvsq20         = _fjsp_mul_v2r8(rinv20,rinv20);
 538             rinvsq30         = _fjsp_mul_v2r8(rinv30,rinv30);
 539
 540             /* Load parameters for j particles */
 541             jq0              = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(),charge+jnrA+0);
 542             vdwjidx0A        = 2*vdwtype[jnrA+0];
 543
 544             fjx0             = _fjsp_setzero_v2r8();
 545             fjy0             = _fjsp_setzero_v2r8();
 546             fjz0             = _fjsp_setzero_v2r8();
 547
 548             /**************************
 549              * CALCULATE INTERACTIONS *
 550              **************************/
 551
 552             if (gmx_fjsp_any_lt_v2r8(rsq00,rcutoff2))
 553             {
 554
 555             r00              = _fjsp_mul_v2r8(rsq00,rinv00);
 556
 557             /* Compute parameters for interactions between i and j atoms */
 558             gmx_fjsp_load_1pair_swizzle_v2r8(vdwparam+vdwioffset0+vdwjidx0A,&c6_00,&c12_00);
 559
 560             /* LENNARD-JONES DISPERSION/REPULSION */
 561
 562             rinvsix          = _fjsp_mul_v2r8(_fjsp_mul_v2r8(rinvsq00,rinvsq00),rinvsq00);
 563             vvdw6            = _fjsp_mul_v2r8(c6_00,rinvsix);
 564             vvdw12           = _fjsp_mul_v2r8(c12_00,_fjsp_mul_v2r8(rinvsix,rinvsix));
 565             vvdw             = _fjsp_msub_v2r8( vvdw12,one_twelfth, _fjsp_mul_v2r8(vvdw6,one_sixth) );
 566             fvdw             = _fjsp_mul_v2r8(_fjsp_sub_v2r8(vvdw12,vvdw6),rinvsq00);
 567
 568             d                = _fjsp_sub_v2r8(r00,rswitch);
 569             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 570             d2               = _fjsp_mul_v2r8(d,d);
 571             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 572
 573             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 574
 575             /* Evaluate switch function */
 576             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 577             fvdw             = _fjsp_msub_v2r8( fvdw,sw , _fjsp_mul_v2r8(rinv00,_fjsp_mul_v2r8(vvdw,dsw)) );
 578             vvdw             = _fjsp_mul_v2r8(vvdw,sw);
 579             cutoff_mask      = _fjsp_cmplt_v2r8(rsq00,rcutoff2);
 580
 581             /* Update potential sum for this i atom from the interaction with this j atom. */
 582             vvdw             = _fjsp_and_v2r8(vvdw,cutoff_mask);
 583             vvdw             = _fjsp_unpacklo_v2r8(vvdw,_fjsp_setzero_v2r8());
 584             vvdwsum          = _fjsp_add_v2r8(vvdwsum,vvdw);
 585
 586             fscal            = fvdw;
 587
 588             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 589
 590             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
 591
 592             /* Update vectorial force */
 593             fix0             = _fjsp_madd_v2r8(dx00,fscal,fix0);
 594             fiy0             = _fjsp_madd_v2r8(dy00,fscal,fiy0);
 595             fiz0             = _fjsp_madd_v2r8(dz00,fscal,fiz0);
 596
 597             fjx0             = _fjsp_madd_v2r8(dx00,fscal,fjx0);
 598             fjy0             = _fjsp_madd_v2r8(dy00,fscal,fjy0);
 599             fjz0             = _fjsp_madd_v2r8(dz00,fscal,fjz0);
 600
 601             }
 602
 603             /**************************
 604              * CALCULATE INTERACTIONS *
 605              **************************/
 606
 607             if (gmx_fjsp_any_lt_v2r8(rsq10,rcutoff2))
 608             {
 609
 610             r10              = _fjsp_mul_v2r8(rsq10,rinv10);
 611
 612             /* Compute parameters for interactions between i and j atoms */
 613             qq10             = _fjsp_mul_v2r8(iq1,jq0);
 614
 615             /* EWALD ELECTROSTATICS */
 616
 617             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 618             ewrt             = _fjsp_mul_v2r8(r10,ewtabscale);
 619             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
 620             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
 621             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
 622
 623             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
 624             ewtabD           = _fjsp_setzero_v2r8();
 625             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
 626             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
 627             ewtabFn          = _fjsp_setzero_v2r8();
 628             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
 629             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
 630             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
 631             velec            = _fjsp_mul_v2r8(qq10,_fjsp_sub_v2r8(rinv10,velec));
 632             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq10,rinv10),_fjsp_sub_v2r8(rinvsq10,felec));
 633
 634             d                = _fjsp_sub_v2r8(r10,rswitch);
 635             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 636             d2               = _fjsp_mul_v2r8(d,d);
 637             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 638
 639             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 640
 641             /* Evaluate switch function */
 642             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 643             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv10,_fjsp_mul_v2r8(velec,dsw)) );
 644             velec            = _fjsp_mul_v2r8(velec,sw);
 645             cutoff_mask      = _fjsp_cmplt_v2r8(rsq10,rcutoff2);
 646
 647             /* Update potential sum for this i atom from the interaction with this j atom. */
 648             velec            = _fjsp_and_v2r8(velec,cutoff_mask);
 649             velec            = _fjsp_unpacklo_v2r8(velec,_fjsp_setzero_v2r8());
 650             velecsum         = _fjsp_add_v2r8(velecsum,velec);
 651
 652             fscal            = felec;
 653
 654             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 655
 656             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
 657
 658             /* Update vectorial force */
 659             fix1             = _fjsp_madd_v2r8(dx10,fscal,fix1);
 660             fiy1             = _fjsp_madd_v2r8(dy10,fscal,fiy1);
 661             fiz1             = _fjsp_madd_v2r8(dz10,fscal,fiz1);
 662
 663             fjx0             = _fjsp_madd_v2r8(dx10,fscal,fjx0);
 664             fjy0             = _fjsp_madd_v2r8(dy10,fscal,fjy0);
 665             fjz0             = _fjsp_madd_v2r8(dz10,fscal,fjz0);
 666
 667             }
 668
 669             /**************************
 670              * CALCULATE INTERACTIONS *
 671              **************************/
 672
 673             if (gmx_fjsp_any_lt_v2r8(rsq20,rcutoff2))
 674             {
 675
 676             r20              = _fjsp_mul_v2r8(rsq20,rinv20);
 677
 678             /* Compute parameters for interactions between i and j atoms */
 679             qq20             = _fjsp_mul_v2r8(iq2,jq0);
 680
 681             /* EWALD ELECTROSTATICS */
 682
 683             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 684             ewrt             = _fjsp_mul_v2r8(r20,ewtabscale);
 685             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
 686             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
 687             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
 688
 689             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
 690             ewtabD           = _fjsp_setzero_v2r8();
 691             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
 692             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
 693             ewtabFn          = _fjsp_setzero_v2r8();
 694             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
 695             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
 696             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
 697             velec            = _fjsp_mul_v2r8(qq20,_fjsp_sub_v2r8(rinv20,velec));
 698             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq20,rinv20),_fjsp_sub_v2r8(rinvsq20,felec));
 699
 700             d                = _fjsp_sub_v2r8(r20,rswitch);
 701             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 702             d2               = _fjsp_mul_v2r8(d,d);
 703             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 704
 705             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 706
 707             /* Evaluate switch function */
 708             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 709             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv20,_fjsp_mul_v2r8(velec,dsw)) );
 710             velec            = _fjsp_mul_v2r8(velec,sw);
 711             cutoff_mask      = _fjsp_cmplt_v2r8(rsq20,rcutoff2);
 712
 713             /* Update potential sum for this i atom from the interaction with this j atom. */
 714             velec            = _fjsp_and_v2r8(velec,cutoff_mask);
 715             velec            = _fjsp_unpacklo_v2r8(velec,_fjsp_setzero_v2r8());
 716             velecsum         = _fjsp_add_v2r8(velecsum,velec);
 717
 718             fscal            = felec;
 719
 720             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 721
 722             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
 723
 724             /* Update vectorial force */
 725             fix2             = _fjsp_madd_v2r8(dx20,fscal,fix2);
 726             fiy2             = _fjsp_madd_v2r8(dy20,fscal,fiy2);
 727             fiz2             = _fjsp_madd_v2r8(dz20,fscal,fiz2);
 728
 729             fjx0             = _fjsp_madd_v2r8(dx20,fscal,fjx0);
 730             fjy0             = _fjsp_madd_v2r8(dy20,fscal,fjy0);
 731             fjz0             = _fjsp_madd_v2r8(dz20,fscal,fjz0);
 732
 733             }
 734
 735             /**************************
 736              * CALCULATE INTERACTIONS *
 737              **************************/
 738
 739             if (gmx_fjsp_any_lt_v2r8(rsq30,rcutoff2))
 740             {
 741
 742             r30              = _fjsp_mul_v2r8(rsq30,rinv30);
 743
 744             /* Compute parameters for interactions between i and j atoms */
 745             qq30             = _fjsp_mul_v2r8(iq3,jq0);
 746
 747             /* EWALD ELECTROSTATICS */
 748
 749             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
 750             ewrt             = _fjsp_mul_v2r8(r30,ewtabscale);
 751             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
 752             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
 753             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
 754
 755             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
 756             ewtabD           = _fjsp_setzero_v2r8();
 757             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
 758             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
 759             ewtabFn          = _fjsp_setzero_v2r8();
 760             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
 761             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
 762             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
 763             velec            = _fjsp_mul_v2r8(qq30,_fjsp_sub_v2r8(rinv30,velec));
 764             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq30,rinv30),_fjsp_sub_v2r8(rinvsq30,felec));
 765
 766             d                = _fjsp_sub_v2r8(r30,rswitch);
 767             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
 768             d2               = _fjsp_mul_v2r8(d,d);
 769             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
 770
 771             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
 772
 773             /* Evaluate switch function */
 774             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
 775             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv30,_fjsp_mul_v2r8(velec,dsw)) );
 776             velec            = _fjsp_mul_v2r8(velec,sw);
 777             cutoff_mask      = _fjsp_cmplt_v2r8(rsq30,rcutoff2);
 778
 779             /* Update potential sum for this i atom from the interaction with this j atom. */
 780             velec            = _fjsp_and_v2r8(velec,cutoff_mask);
 781             velec            = _fjsp_unpacklo_v2r8(velec,_fjsp_setzero_v2r8());
 782             velecsum         = _fjsp_add_v2r8(velecsum,velec);
 783
 784             fscal            = felec;
 785
 786             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
 787
 788             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
 789
 790             /* Update vectorial force */
 791             fix3             = _fjsp_madd_v2r8(dx30,fscal,fix3);
 792             fiy3             = _fjsp_madd_v2r8(dy30,fscal,fiy3);
 793             fiz3             = _fjsp_madd_v2r8(dz30,fscal,fiz3);
 794
 795             fjx0             = _fjsp_madd_v2r8(dx30,fscal,fjx0);
 796             fjy0             = _fjsp_madd_v2r8(dy30,fscal,fjy0);
 797             fjz0             = _fjsp_madd_v2r8(dz30,fscal,fjz0);
 798
 799             }
 800
 801             gmx_fjsp_decrement_1rvec_1ptr_swizzle_v2r8(f+j_coord_offsetA,fjx0,fjy0,fjz0);
 802
 803             /* Inner loop uses 269 flops */
 804         }
 805
 806         /* End of innermost loop */
 807
 808         gmx_fjsp_update_iforce_4atom_swizzle_v2r8(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
 809                                               f+i_coord_offset,fshift+i_shift_offset);
 810
 811         ggid                        = gid[iidx];
 812         /* Update potential energies */
 813         gmx_fjsp_update_1pot_v2r8(velecsum,kernel_data->energygrp_elec+ggid);
 814         gmx_fjsp_update_1pot_v2r8(vvdwsum,kernel_data->energygrp_vdw+ggid);
 815
 816         /* Increment number of inner iterations */
 817         inneriter                  += j_index_end - j_index_start;
 818
 819         /* Outer loop uses 26 flops */
 820     }
 821
 822     /* Increment number of outer iterations */
 823     outeriter        += nri;
 824
 825     /* Update outer/inner flops */
 826
 827     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4_VF,outeriter*26 + inneriter*269);
 828 }
 829 /*
 830  * Gromacs nonbonded kernel:   nb_kernel_ElecEwSw_VdwLJSw_GeomW4P1_F_sparc64_hpc_ace_double
 831  * Electrostatics interaction: Ewald
 832  * VdW interaction:            LennardJones
 833  * Geometry:                   Water4-Particle
 834  * Calculate force/pot:        Force
 835  */
 836 void
 837 nb_kernel_ElecEwSw_VdwLJSw_GeomW4P1_F_sparc64_hpc_ace_double
 838                     (t_nblist                    * gmx_restrict       nlist,
 839                      rvec                        * gmx_restrict          xx,
 840                      rvec                        * gmx_restrict          ff,
 841                      t_forcerec                  * gmx_restrict          fr,
 842                      t_mdatoms                   * gmx_restrict     mdatoms,
 843                      nb_kernel_data_t gmx_unused * gmx_restrict kernel_data,
 844                      t_nrnb                      * gmx_restrict        nrnb)
 845 {
 846     /* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
 847      * just 0 for non-waters.
 848      * Suffixes A,B refer to j loop unrolling done with double precision SIMD, e.g. for the two different
 849      * jnr indices corresponding to data put in the four positions in the SIMD register.
 850      */
 851     int              i_shift_offset,i_coord_offset,outeriter,inneriter;
 852     int              j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
 853     int              jnrA,jnrB;
 854     int              j_coord_offsetA,j_coord_offsetB;
 855     int              *iinr,*jindex,*jjnr,*shiftidx,*gid;
 856     real             rcutoff_scalar;
 857     real             *shiftvec,*fshift,*x,*f;
 858     _fjsp_v2r8       tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
 859     int              vdwioffset0;
 860     _fjsp_v2r8       ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
 861     int              vdwioffset1;
 862     _fjsp_v2r8       ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
 863     int              vdwioffset2;
 864     _fjsp_v2r8       ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
 865     int              vdwioffset3;
 866     _fjsp_v2r8       ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
 867     int              vdwjidx0A,vdwjidx0B;
 868     _fjsp_v2r8       jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
 869     _fjsp_v2r8       dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
 870     _fjsp_v2r8       dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
 871     _fjsp_v2r8       dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
 872     _fjsp_v2r8       dx30,dy30,dz30,rsq30,rinv30,rinvsq30,r30,qq30,c6_30,c12_30;
 873     _fjsp_v2r8       velec,felec,velecsum,facel,crf,krf,krf2;
 874     real             *charge;
 875     int              nvdwtype;
 876     _fjsp_v2r8       rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
 877     int              *vdwtype;
 878     real             *vdwparam;
 879     _fjsp_v2r8       one_sixth   = gmx_fjsp_set1_v2r8(1.0/6.0);
 880     _fjsp_v2r8       one_twelfth = gmx_fjsp_set1_v2r8(1.0/12.0);
 881     _fjsp_v2r8       ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
 882     real             *ewtab;
 883     _fjsp_v2r8       rswitch,swV3,swV4,swV5,swF2,swF3,swF4,d,d2,sw,dsw;
 884     real             rswitch_scalar,d_scalar;
 885     _fjsp_v2r8       itab_tmp;
 886     _fjsp_v2r8       dummy_mask,cutoff_mask;
 887     _fjsp_v2r8       one     = gmx_fjsp_set1_v2r8(1.0);
 888     _fjsp_v2r8       two     = gmx_fjsp_set1_v2r8(2.0);
 889     union { _fjsp_v2r8 simd; long long int i[2]; } vfconv,gbconv,ewconv;
 890
 891     x                = xx[0];
 892     f                = ff[0];
 893
 894     nri              = nlist->nri;
 895     iinr             = nlist->iinr;
 896     jindex           = nlist->jindex;
 897     jjnr             = nlist->jjnr;
 898     shiftidx         = nlist->shift;
 899     gid              = nlist->gid;
 900     shiftvec         = fr->shift_vec[0];
 901     fshift           = fr->fshift[0];
 902     facel            = gmx_fjsp_set1_v2r8(fr->epsfac);
 903     charge           = mdatoms->chargeA;
 904     nvdwtype         = fr->ntype;
 905     vdwparam         = fr->nbfp;
 906     vdwtype          = mdatoms->typeA;
 907
 908     sh_ewald         = gmx_fjsp_set1_v2r8(fr->ic->sh_ewald);
 909     ewtab            = fr->ic->tabq_coul_FDV0;
 910     ewtabscale       = gmx_fjsp_set1_v2r8(fr->ic->tabq_scale);
 911     ewtabhalfspace   = gmx_fjsp_set1_v2r8(0.5/fr->ic->tabq_scale);
 912
 913     /* Setup water-specific parameters */
 914     inr              = nlist->iinr[0];
 915     iq1              = _fjsp_mul_v2r8(facel,gmx_fjsp_set1_v2r8(charge[inr+1]));
 916     iq2              = _fjsp_mul_v2r8(facel,gmx_fjsp_set1_v2r8(charge[inr+2]));
 917     iq3              = _fjsp_mul_v2r8(facel,gmx_fjsp_set1_v2r8(charge[inr+3]));
 918     vdwioffset0      = 2*nvdwtype*vdwtype[inr+0];
 919
 920     /* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
 921     rcutoff_scalar   = fr->rcoulomb;
 922     rcutoff          = gmx_fjsp_set1_v2r8(rcutoff_scalar);
 923     rcutoff2         = _fjsp_mul_v2r8(rcutoff,rcutoff);
 924
 925     rswitch_scalar   = fr->rcoulomb_switch;
 926     rswitch          = gmx_fjsp_set1_v2r8(rswitch_scalar);
 927     /* Setup switch parameters */
 928     d_scalar         = rcutoff_scalar-rswitch_scalar;
 929     d                = gmx_fjsp_set1_v2r8(d_scalar);
 930     swV3             = gmx_fjsp_set1_v2r8(-10.0/(d_scalar*d_scalar*d_scalar));
 931     swV4             = gmx_fjsp_set1_v2r8( 15.0/(d_scalar*d_scalar*d_scalar*d_scalar));
 932     swV5             = gmx_fjsp_set1_v2r8( -6.0/(d_scalar*d_scalar*d_scalar*d_scalar*d_scalar));
 933     swF2             = gmx_fjsp_set1_v2r8(-30.0/(d_scalar*d_scalar*d_scalar));
 934     swF3             = gmx_fjsp_set1_v2r8( 60.0/(d_scalar*d_scalar*d_scalar*d_scalar));
 935     swF4             = gmx_fjsp_set1_v2r8(-30.0/(d_scalar*d_scalar*d_scalar*d_scalar*d_scalar));
 936
 937     /* Avoid stupid compiler warnings */
 938     jnrA = jnrB = 0;
 939     j_coord_offsetA = 0;
 940     j_coord_offsetB = 0;
 941
 942     outeriter        = 0;
 943     inneriter        = 0;
 944
 945     /* Start outer loop over neighborlists */
 946     for(iidx=0; iidx<nri; iidx++)
 947     {
 948         /* Load shift vector for this list */
 949         i_shift_offset   = DIM*shiftidx[iidx];
 950
 951         /* Load limits for loop over neighbors */
 952         j_index_start    = jindex[iidx];
 953         j_index_end      = jindex[iidx+1];
 954
 955         /* Get outer coordinate index */
 956         inr              = iinr[iidx];
 957         i_coord_offset   = DIM*inr;
 958
 959         /* Load i particle coords and add shift vector */
 960         gmx_fjsp_load_shift_and_4rvec_broadcast_v2r8(shiftvec+i_shift_offset,x+i_coord_offset,
 961                                                  &ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
 962
 963         fix0             = _fjsp_setzero_v2r8();
 964         fiy0             = _fjsp_setzero_v2r8();
 965         fiz0             = _fjsp_setzero_v2r8();
 966         fix1             = _fjsp_setzero_v2r8();
 967         fiy1             = _fjsp_setzero_v2r8();
 968         fiz1             = _fjsp_setzero_v2r8();
 969         fix2             = _fjsp_setzero_v2r8();
 970         fiy2             = _fjsp_setzero_v2r8();
 971         fiz2             = _fjsp_setzero_v2r8();
 972         fix3             = _fjsp_setzero_v2r8();
 973         fiy3             = _fjsp_setzero_v2r8();
 974         fiz3             = _fjsp_setzero_v2r8();
 975
 976         /* Start inner kernel loop */
 977         for(jidx=j_index_start; jidx<j_index_end-1; jidx+=2)
 978         {
 979
 980             /* Get j neighbor index, and coordinate index */
 981             jnrA             = jjnr[jidx];
 982             jnrB             = jjnr[jidx+1];
 983             j_coord_offsetA  = DIM*jnrA;
 984             j_coord_offsetB  = DIM*jnrB;
 985
 986             /* load j atom coordinates */
 987             gmx_fjsp_load_1rvec_2ptr_swizzle_v2r8(x+j_coord_offsetA,x+j_coord_offsetB,
 988                                               &jx0,&jy0,&jz0);
 989
 990             /* Calculate displacement vector */
 991             dx00             = _fjsp_sub_v2r8(ix0,jx0);
 992             dy00             = _fjsp_sub_v2r8(iy0,jy0);
 993             dz00             = _fjsp_sub_v2r8(iz0,jz0);
 994             dx10             = _fjsp_sub_v2r8(ix1,jx0);
 995             dy10             = _fjsp_sub_v2r8(iy1,jy0);
 996             dz10             = _fjsp_sub_v2r8(iz1,jz0);
 997             dx20             = _fjsp_sub_v2r8(ix2,jx0);
 998             dy20             = _fjsp_sub_v2r8(iy2,jy0);
 999             dz20             = _fjsp_sub_v2r8(iz2,jz0);
1000             dx30             = _fjsp_sub_v2r8(ix3,jx0);
1001             dy30             = _fjsp_sub_v2r8(iy3,jy0);
1002             dz30             = _fjsp_sub_v2r8(iz3,jz0);
1003
1004             /* Calculate squared distance and things based on it */
1005             rsq00            = gmx_fjsp_calc_rsq_v2r8(dx00,dy00,dz00);
1006             rsq10            = gmx_fjsp_calc_rsq_v2r8(dx10,dy10,dz10);
1007             rsq20            = gmx_fjsp_calc_rsq_v2r8(dx20,dy20,dz20);
1008             rsq30            = gmx_fjsp_calc_rsq_v2r8(dx30,dy30,dz30);
1009
1010             rinv00           = gmx_fjsp_invsqrt_v2r8(rsq00);
1011             rinv10           = gmx_fjsp_invsqrt_v2r8(rsq10);
1012             rinv20           = gmx_fjsp_invsqrt_v2r8(rsq20);
1013             rinv30           = gmx_fjsp_invsqrt_v2r8(rsq30);
1014
1015             rinvsq00         = _fjsp_mul_v2r8(rinv00,rinv00);
1016             rinvsq10         = _fjsp_mul_v2r8(rinv10,rinv10);
1017             rinvsq20         = _fjsp_mul_v2r8(rinv20,rinv20);
1018             rinvsq30         = _fjsp_mul_v2r8(rinv30,rinv30);
1019
1020             /* Load parameters for j particles */
1021             jq0              = gmx_fjsp_load_2real_swizzle_v2r8(charge+jnrA+0,charge+jnrB+0);
1022             vdwjidx0A        = 2*vdwtype[jnrA+0];
1023             vdwjidx0B        = 2*vdwtype[jnrB+0];
1024
1025             fjx0             = _fjsp_setzero_v2r8();
1026             fjy0             = _fjsp_setzero_v2r8();
1027             fjz0             = _fjsp_setzero_v2r8();
1028
1029             /**************************
1030              * CALCULATE INTERACTIONS *
1031              **************************/
1032
1033             if (gmx_fjsp_any_lt_v2r8(rsq00,rcutoff2))
1034             {
1035
1036             r00              = _fjsp_mul_v2r8(rsq00,rinv00);
1037
1038             /* Compute parameters for interactions between i and j atoms */
1039             gmx_fjsp_load_2pair_swizzle_v2r8(vdwparam+vdwioffset0+vdwjidx0A,
1040                                          vdwparam+vdwioffset0+vdwjidx0B,&c6_00,&c12_00);
1041
1042             /* LENNARD-JONES DISPERSION/REPULSION */
1043
1044             rinvsix          = _fjsp_mul_v2r8(_fjsp_mul_v2r8(rinvsq00,rinvsq00),rinvsq00);
1045             vvdw6            = _fjsp_mul_v2r8(c6_00,rinvsix);
1046             vvdw12           = _fjsp_mul_v2r8(c12_00,_fjsp_mul_v2r8(rinvsix,rinvsix));
1047             vvdw             = _fjsp_msub_v2r8( vvdw12,one_twelfth, _fjsp_mul_v2r8(vvdw6,one_sixth) );
1048             fvdw             = _fjsp_mul_v2r8(_fjsp_sub_v2r8(vvdw12,vvdw6),rinvsq00);
1049
1050             d                = _fjsp_sub_v2r8(r00,rswitch);
1051             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1052             d2               = _fjsp_mul_v2r8(d,d);
1053             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1054
1055             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1056
1057             /* Evaluate switch function */
1058             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1059             fvdw             = _fjsp_msub_v2r8( fvdw,sw , _fjsp_mul_v2r8(rinv00,_fjsp_mul_v2r8(vvdw,dsw)) );
1060             cutoff_mask      = _fjsp_cmplt_v2r8(rsq00,rcutoff2);
1061
1062             fscal            = fvdw;
1063
1064             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1065
1066             /* Update vectorial force */
1067             fix0             = _fjsp_madd_v2r8(dx00,fscal,fix0);
1068             fiy0             = _fjsp_madd_v2r8(dy00,fscal,fiy0);
1069             fiz0             = _fjsp_madd_v2r8(dz00,fscal,fiz0);
1070
1071             fjx0             = _fjsp_madd_v2r8(dx00,fscal,fjx0);
1072             fjy0             = _fjsp_madd_v2r8(dy00,fscal,fjy0);
1073             fjz0             = _fjsp_madd_v2r8(dz00,fscal,fjz0);
1074
1075             }
1076
1077             /**************************
1078              * CALCULATE INTERACTIONS *
1079              **************************/
1080
1081             if (gmx_fjsp_any_lt_v2r8(rsq10,rcutoff2))
1082             {
1083
1084             r10              = _fjsp_mul_v2r8(rsq10,rinv10);
1085
1086             /* Compute parameters for interactions between i and j atoms */
1087             qq10             = _fjsp_mul_v2r8(iq1,jq0);
1088
1089             /* EWALD ELECTROSTATICS */
1090
1091             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1092             ewrt             = _fjsp_mul_v2r8(r10,ewtabscale);
1093             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
1094             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
1095             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
1096
1097             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
1098             ewtabD           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[1] );
1099             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
1100             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
1101             ewtabFn          = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[1] +2);
1102             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
1103             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
1104             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
1105             velec            = _fjsp_mul_v2r8(qq10,_fjsp_sub_v2r8(rinv10,velec));
1106             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq10,rinv10),_fjsp_sub_v2r8(rinvsq10,felec));
1107
1108             d                = _fjsp_sub_v2r8(r10,rswitch);
1109             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1110             d2               = _fjsp_mul_v2r8(d,d);
1111             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1112
1113             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1114
1115             /* Evaluate switch function */
1116             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1117             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv10,_fjsp_mul_v2r8(velec,dsw)) );
1118             cutoff_mask      = _fjsp_cmplt_v2r8(rsq10,rcutoff2);
1119
1120             fscal            = felec;
1121
1122             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1123
1124             /* Update vectorial force */
1125             fix1             = _fjsp_madd_v2r8(dx10,fscal,fix1);
1126             fiy1             = _fjsp_madd_v2r8(dy10,fscal,fiy1);
1127             fiz1             = _fjsp_madd_v2r8(dz10,fscal,fiz1);
1128
1129             fjx0             = _fjsp_madd_v2r8(dx10,fscal,fjx0);
1130             fjy0             = _fjsp_madd_v2r8(dy10,fscal,fjy0);
1131             fjz0             = _fjsp_madd_v2r8(dz10,fscal,fjz0);
1132
1133             }
1134
1135             /**************************
1136              * CALCULATE INTERACTIONS *
1137              **************************/
1138
1139             if (gmx_fjsp_any_lt_v2r8(rsq20,rcutoff2))
1140             {
1141
1142             r20              = _fjsp_mul_v2r8(rsq20,rinv20);
1143
1144             /* Compute parameters for interactions between i and j atoms */
1145             qq20             = _fjsp_mul_v2r8(iq2,jq0);
1146
1147             /* EWALD ELECTROSTATICS */
1148
1149             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1150             ewrt             = _fjsp_mul_v2r8(r20,ewtabscale);
1151             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
1152             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
1153             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
1154
1155             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
1156             ewtabD           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[1] );
1157             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
1158             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
1159             ewtabFn          = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[1] +2);
1160             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
1161             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
1162             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
1163             velec            = _fjsp_mul_v2r8(qq20,_fjsp_sub_v2r8(rinv20,velec));
1164             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq20,rinv20),_fjsp_sub_v2r8(rinvsq20,felec));
1165
1166             d                = _fjsp_sub_v2r8(r20,rswitch);
1167             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1168             d2               = _fjsp_mul_v2r8(d,d);
1169             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1170
1171             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1172
1173             /* Evaluate switch function */
1174             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1175             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv20,_fjsp_mul_v2r8(velec,dsw)) );
1176             cutoff_mask      = _fjsp_cmplt_v2r8(rsq20,rcutoff2);
1177
1178             fscal            = felec;
1179
1180             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1181
1182             /* Update vectorial force */
1183             fix2             = _fjsp_madd_v2r8(dx20,fscal,fix2);
1184             fiy2             = _fjsp_madd_v2r8(dy20,fscal,fiy2);
1185             fiz2             = _fjsp_madd_v2r8(dz20,fscal,fiz2);
1186
1187             fjx0             = _fjsp_madd_v2r8(dx20,fscal,fjx0);
1188             fjy0             = _fjsp_madd_v2r8(dy20,fscal,fjy0);
1189             fjz0             = _fjsp_madd_v2r8(dz20,fscal,fjz0);
1190
1191             }
1192
1193             /**************************
1194              * CALCULATE INTERACTIONS *
1195              **************************/
1196
1197             if (gmx_fjsp_any_lt_v2r8(rsq30,rcutoff2))
1198             {
1199
1200             r30              = _fjsp_mul_v2r8(rsq30,rinv30);
1201
1202             /* Compute parameters for interactions between i and j atoms */
1203             qq30             = _fjsp_mul_v2r8(iq3,jq0);
1204
1205             /* EWALD ELECTROSTATICS */
1206
1207             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1208             ewrt             = _fjsp_mul_v2r8(r30,ewtabscale);
1209             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
1210             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
1211             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
1212
1213             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
1214             ewtabD           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[1] );
1215             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
1216             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
1217             ewtabFn          = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[1] +2);
1218             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
1219             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
1220             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
1221             velec            = _fjsp_mul_v2r8(qq30,_fjsp_sub_v2r8(rinv30,velec));
1222             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq30,rinv30),_fjsp_sub_v2r8(rinvsq30,felec));
1223
1224             d                = _fjsp_sub_v2r8(r30,rswitch);
1225             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1226             d2               = _fjsp_mul_v2r8(d,d);
1227             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1228
1229             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1230
1231             /* Evaluate switch function */
1232             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1233             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv30,_fjsp_mul_v2r8(velec,dsw)) );
1234             cutoff_mask      = _fjsp_cmplt_v2r8(rsq30,rcutoff2);
1235
1236             fscal            = felec;
1237
1238             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1239
1240             /* Update vectorial force */
1241             fix3             = _fjsp_madd_v2r8(dx30,fscal,fix3);
1242             fiy3             = _fjsp_madd_v2r8(dy30,fscal,fiy3);
1243             fiz3             = _fjsp_madd_v2r8(dz30,fscal,fiz3);
1244
1245             fjx0             = _fjsp_madd_v2r8(dx30,fscal,fjx0);
1246             fjy0             = _fjsp_madd_v2r8(dy30,fscal,fjy0);
1247             fjz0             = _fjsp_madd_v2r8(dz30,fscal,fjz0);
1248
1249             }
1250
1251             gmx_fjsp_decrement_1rvec_2ptr_swizzle_v2r8(f+j_coord_offsetA,f+j_coord_offsetB,fjx0,fjy0,fjz0);
1252
1253             /* Inner loop uses 257 flops */
1254         }
1255
1256         if(jidx<j_index_end)
1257         {
1258
1259             jnrA             = jjnr[jidx];
1260             j_coord_offsetA  = DIM*jnrA;
1261
1262             /* load j atom coordinates */
1263             gmx_fjsp_load_1rvec_1ptr_swizzle_v2r8(x+j_coord_offsetA,
1264                                               &jx0,&jy0,&jz0);
1265
1266             /* Calculate displacement vector */
1267             dx00             = _fjsp_sub_v2r8(ix0,jx0);
1268             dy00             = _fjsp_sub_v2r8(iy0,jy0);
1269             dz00             = _fjsp_sub_v2r8(iz0,jz0);
1270             dx10             = _fjsp_sub_v2r8(ix1,jx0);
1271             dy10             = _fjsp_sub_v2r8(iy1,jy0);
1272             dz10             = _fjsp_sub_v2r8(iz1,jz0);
1273             dx20             = _fjsp_sub_v2r8(ix2,jx0);
1274             dy20             = _fjsp_sub_v2r8(iy2,jy0);
1275             dz20             = _fjsp_sub_v2r8(iz2,jz0);
1276             dx30             = _fjsp_sub_v2r8(ix3,jx0);
1277             dy30             = _fjsp_sub_v2r8(iy3,jy0);
1278             dz30             = _fjsp_sub_v2r8(iz3,jz0);
1279
1280             /* Calculate squared distance and things based on it */
1281             rsq00            = gmx_fjsp_calc_rsq_v2r8(dx00,dy00,dz00);
1282             rsq10            = gmx_fjsp_calc_rsq_v2r8(dx10,dy10,dz10);
1283             rsq20            = gmx_fjsp_calc_rsq_v2r8(dx20,dy20,dz20);
1284             rsq30            = gmx_fjsp_calc_rsq_v2r8(dx30,dy30,dz30);
1285
1286             rinv00           = gmx_fjsp_invsqrt_v2r8(rsq00);
1287             rinv10           = gmx_fjsp_invsqrt_v2r8(rsq10);
1288             rinv20           = gmx_fjsp_invsqrt_v2r8(rsq20);
1289             rinv30           = gmx_fjsp_invsqrt_v2r8(rsq30);
1290
1291             rinvsq00         = _fjsp_mul_v2r8(rinv00,rinv00);
1292             rinvsq10         = _fjsp_mul_v2r8(rinv10,rinv10);
1293             rinvsq20         = _fjsp_mul_v2r8(rinv20,rinv20);
1294             rinvsq30         = _fjsp_mul_v2r8(rinv30,rinv30);
1295
1296             /* Load parameters for j particles */
1297             jq0              = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(),charge+jnrA+0);
1298             vdwjidx0A        = 2*vdwtype[jnrA+0];
1299
1300             fjx0             = _fjsp_setzero_v2r8();
1301             fjy0             = _fjsp_setzero_v2r8();
1302             fjz0             = _fjsp_setzero_v2r8();
1303
1304             /**************************
1305              * CALCULATE INTERACTIONS *
1306              **************************/
1307
1308             if (gmx_fjsp_any_lt_v2r8(rsq00,rcutoff2))
1309             {
1310
1311             r00              = _fjsp_mul_v2r8(rsq00,rinv00);
1312
1313             /* Compute parameters for interactions between i and j atoms */
1314             gmx_fjsp_load_1pair_swizzle_v2r8(vdwparam+vdwioffset0+vdwjidx0A,&c6_00,&c12_00);
1315
1316             /* LENNARD-JONES DISPERSION/REPULSION */
1317
1318             rinvsix          = _fjsp_mul_v2r8(_fjsp_mul_v2r8(rinvsq00,rinvsq00),rinvsq00);
1319             vvdw6            = _fjsp_mul_v2r8(c6_00,rinvsix);
1320             vvdw12           = _fjsp_mul_v2r8(c12_00,_fjsp_mul_v2r8(rinvsix,rinvsix));
1321             vvdw             = _fjsp_msub_v2r8( vvdw12,one_twelfth, _fjsp_mul_v2r8(vvdw6,one_sixth) );
1322             fvdw             = _fjsp_mul_v2r8(_fjsp_sub_v2r8(vvdw12,vvdw6),rinvsq00);
1323
1324             d                = _fjsp_sub_v2r8(r00,rswitch);
1325             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1326             d2               = _fjsp_mul_v2r8(d,d);
1327             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1328
1329             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1330
1331             /* Evaluate switch function */
1332             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1333             fvdw             = _fjsp_msub_v2r8( fvdw,sw , _fjsp_mul_v2r8(rinv00,_fjsp_mul_v2r8(vvdw,dsw)) );
1334             cutoff_mask      = _fjsp_cmplt_v2r8(rsq00,rcutoff2);
1335
1336             fscal            = fvdw;
1337
1338             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1339
1340             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
1341
1342             /* Update vectorial force */
1343             fix0             = _fjsp_madd_v2r8(dx00,fscal,fix0);
1344             fiy0             = _fjsp_madd_v2r8(dy00,fscal,fiy0);
1345             fiz0             = _fjsp_madd_v2r8(dz00,fscal,fiz0);
1346
1347             fjx0             = _fjsp_madd_v2r8(dx00,fscal,fjx0);
1348             fjy0             = _fjsp_madd_v2r8(dy00,fscal,fjy0);
1349             fjz0             = _fjsp_madd_v2r8(dz00,fscal,fjz0);
1350
1351             }
1352
1353             /**************************
1354              * CALCULATE INTERACTIONS *
1355              **************************/
1356
1357             if (gmx_fjsp_any_lt_v2r8(rsq10,rcutoff2))
1358             {
1359
1360             r10              = _fjsp_mul_v2r8(rsq10,rinv10);
1361
1362             /* Compute parameters for interactions between i and j atoms */
1363             qq10             = _fjsp_mul_v2r8(iq1,jq0);
1364
1365             /* EWALD ELECTROSTATICS */
1366
1367             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1368             ewrt             = _fjsp_mul_v2r8(r10,ewtabscale);
1369             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
1370             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
1371             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
1372
1373             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
1374             ewtabD           = _fjsp_setzero_v2r8();
1375             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
1376             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
1377             ewtabFn          = _fjsp_setzero_v2r8();
1378             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
1379             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
1380             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
1381             velec            = _fjsp_mul_v2r8(qq10,_fjsp_sub_v2r8(rinv10,velec));
1382             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq10,rinv10),_fjsp_sub_v2r8(rinvsq10,felec));
1383
1384             d                = _fjsp_sub_v2r8(r10,rswitch);
1385             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1386             d2               = _fjsp_mul_v2r8(d,d);
1387             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1388
1389             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1390
1391             /* Evaluate switch function */
1392             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1393             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv10,_fjsp_mul_v2r8(velec,dsw)) );
1394             cutoff_mask      = _fjsp_cmplt_v2r8(rsq10,rcutoff2);
1395
1396             fscal            = felec;
1397
1398             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1399
1400             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
1401
1402             /* Update vectorial force */
1403             fix1             = _fjsp_madd_v2r8(dx10,fscal,fix1);
1404             fiy1             = _fjsp_madd_v2r8(dy10,fscal,fiy1);
1405             fiz1             = _fjsp_madd_v2r8(dz10,fscal,fiz1);
1406
1407             fjx0             = _fjsp_madd_v2r8(dx10,fscal,fjx0);
1408             fjy0             = _fjsp_madd_v2r8(dy10,fscal,fjy0);
1409             fjz0             = _fjsp_madd_v2r8(dz10,fscal,fjz0);
1410
1411             }
1412
1413             /**************************
1414              * CALCULATE INTERACTIONS *
1415              **************************/
1416
1417             if (gmx_fjsp_any_lt_v2r8(rsq20,rcutoff2))
1418             {
1419
1420             r20              = _fjsp_mul_v2r8(rsq20,rinv20);
1421
1422             /* Compute parameters for interactions between i and j atoms */
1423             qq20             = _fjsp_mul_v2r8(iq2,jq0);
1424
1425             /* EWALD ELECTROSTATICS */
1426
1427             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1428             ewrt             = _fjsp_mul_v2r8(r20,ewtabscale);
1429             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
1430             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
1431             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
1432
1433             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
1434             ewtabD           = _fjsp_setzero_v2r8();
1435             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
1436             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
1437             ewtabFn          = _fjsp_setzero_v2r8();
1438             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
1439             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
1440             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
1441             velec            = _fjsp_mul_v2r8(qq20,_fjsp_sub_v2r8(rinv20,velec));
1442             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq20,rinv20),_fjsp_sub_v2r8(rinvsq20,felec));
1443
1444             d                = _fjsp_sub_v2r8(r20,rswitch);
1445             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1446             d2               = _fjsp_mul_v2r8(d,d);
1447             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1448
1449             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1450
1451             /* Evaluate switch function */
1452             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1453             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv20,_fjsp_mul_v2r8(velec,dsw)) );
1454             cutoff_mask      = _fjsp_cmplt_v2r8(rsq20,rcutoff2);
1455
1456             fscal            = felec;
1457
1458             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1459
1460             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
1461
1462             /* Update vectorial force */
1463             fix2             = _fjsp_madd_v2r8(dx20,fscal,fix2);
1464             fiy2             = _fjsp_madd_v2r8(dy20,fscal,fiy2);
1465             fiz2             = _fjsp_madd_v2r8(dz20,fscal,fiz2);
1466
1467             fjx0             = _fjsp_madd_v2r8(dx20,fscal,fjx0);
1468             fjy0             = _fjsp_madd_v2r8(dy20,fscal,fjy0);
1469             fjz0             = _fjsp_madd_v2r8(dz20,fscal,fjz0);
1470
1471             }
1472
1473             /**************************
1474              * CALCULATE INTERACTIONS *
1475              **************************/
1476
1477             if (gmx_fjsp_any_lt_v2r8(rsq30,rcutoff2))
1478             {
1479
1480             r30              = _fjsp_mul_v2r8(rsq30,rinv30);
1481
1482             /* Compute parameters for interactions between i and j atoms */
1483             qq30             = _fjsp_mul_v2r8(iq3,jq0);
1484
1485             /* EWALD ELECTROSTATICS */
1486
1487             /* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1488             ewrt             = _fjsp_mul_v2r8(r30,ewtabscale);
1489             itab_tmp         = _fjsp_dtox_v2r8(ewrt);
1490             eweps            = _fjsp_sub_v2r8(ewrt,_fjsp_xtod_v2r8(itab_tmp));
1491             _fjsp_store_v2r8(&ewconv.simd,itab_tmp);
1492
1493             ewtabF           = _fjsp_load_v2r8( ewtab + 4*ewconv.i[0] );
1494             ewtabD           = _fjsp_setzero_v2r8();
1495             GMX_FJSP_TRANSPOSE2_V2R8(ewtabF,ewtabD);
1496             ewtabV           = _fjsp_loadl_v2r8(_fjsp_setzero_v2r8(), ewtab + 4*ewconv.i[0] +2);
1497             ewtabFn          = _fjsp_setzero_v2r8();
1498             GMX_FJSP_TRANSPOSE2_V2R8(ewtabV,ewtabFn);
1499             felec            = _fjsp_madd_v2r8(eweps,ewtabD,ewtabF);
1500             velec            = _fjsp_nmsub_v2r8(_fjsp_mul_v2r8(ewtabhalfspace,eweps) ,_fjsp_add_v2r8(ewtabF,felec), ewtabV);
1501             velec            = _fjsp_mul_v2r8(qq30,_fjsp_sub_v2r8(rinv30,velec));
1502             felec            = _fjsp_mul_v2r8(_fjsp_mul_v2r8(qq30,rinv30),_fjsp_sub_v2r8(rinvsq30,felec));
1503
1504             d                = _fjsp_sub_v2r8(r30,rswitch);
1505             d                = _fjsp_max_v2r8(d,_fjsp_setzero_v2r8());
1506             d2               = _fjsp_mul_v2r8(d,d);
1507             sw               = _fjsp_add_v2r8(one,_fjsp_mul_v2r8(d2,_fjsp_mul_v2r8(d,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swV5,swV4),swV3))));
1508
1509             dsw              = _fjsp_mul_v2r8(d2,_fjsp_madd_v2r8(d,_fjsp_madd_v2r8(d,swF4,swF3),swF2));
1510
1511             /* Evaluate switch function */
1512             /* fscal'=f'/r=-(v*sw)'/r=-(v'*sw+v*dsw)/r=-v'*sw/r-v*dsw/r=fscal*sw-v*dsw/r */
1513             felec            = _fjsp_msub_v2r8( felec,sw , _fjsp_mul_v2r8(rinv30,_fjsp_mul_v2r8(velec,dsw)) );
1514             cutoff_mask      = _fjsp_cmplt_v2r8(rsq30,rcutoff2);
1515
1516             fscal            = felec;
1517
1518             fscal            = _fjsp_and_v2r8(fscal,cutoff_mask);
1519
1520             fscal            = _fjsp_unpacklo_v2r8(fscal,_fjsp_setzero_v2r8());
1521
1522             /* Update vectorial force */
1523             fix3             = _fjsp_madd_v2r8(dx30,fscal,fix3);
1524             fiy3             = _fjsp_madd_v2r8(dy30,fscal,fiy3);
1525             fiz3             = _fjsp_madd_v2r8(dz30,fscal,fiz3);
1526
1527             fjx0             = _fjsp_madd_v2r8(dx30,fscal,fjx0);
1528             fjy0             = _fjsp_madd_v2r8(dy30,fscal,fjy0);
1529             fjz0             = _fjsp_madd_v2r8(dz30,fscal,fjz0);
1530
1531             }
1532
1533             gmx_fjsp_decrement_1rvec_1ptr_swizzle_v2r8(f+j_coord_offsetA,fjx0,fjy0,fjz0);
1534
1535             /* Inner loop uses 257 flops */
1536         }
1537
1538         /* End of innermost loop */
1539
1540         gmx_fjsp_update_iforce_4atom_swizzle_v2r8(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1541                                               f+i_coord_offset,fshift+i_shift_offset);
1542
1543         /* Increment number of inner iterations */
1544         inneriter                  += j_index_end - j_index_start;
1545
1546         /* Outer loop uses 24 flops */
1547     }
1548
1549     /* Increment number of outer iterations */
1550     outeriter        += nri;
1551
1552     /* Update outer/inner flops */
1553
1554     inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4_F,outeriter*24 + inneriter*257);
1555 }