/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecRFCut_VdwCSTab_GeomW4W4_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecRFCut_VdwCSTab_GeomW4W4_sse4_1_single.c
Location:	line 126, column 22
Description:	Value stored to 'two' during its initialization is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecRFCut_VdwCSTab_GeomW4W4_VF_sse4_1_single
54	* Electrostatics interaction: ReactionField
55	* VdW interaction: CubicSplineTable
56	* Geometry: Water4-Water4
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecRFCut_VdwCSTab_GeomW4W4_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwioffset3;
92	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
93	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
94	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
95	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
96	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
97	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
98	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
99	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
100	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
101	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
102	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
103	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
104	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
105	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
106	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
107	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
108	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
109	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
110	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
111	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
112	real *charge;
113	int nvdwtype;
114	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
115	int *vdwtype;
116	real *vdwparam;
117	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
118	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
119	__m128i vfitab;
120	__m128i ifour = _mm_set1_epi32(4);
121	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
122	real *vftab;
123	__m128 dummy_mask,cutoff_mask;
124	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
125	__m128 one = _mm_set1_ps(1.0);
126	__m128 two = _mm_set1_ps(2.0);
	Value stored to 'two' during its initialization is never read
127	x = xx[0];
128	f = ff[0];
129
130	nri = nlist->nri;
131	iinr = nlist->iinr;
132	jindex = nlist->jindex;
133	jjnr = nlist->jjnr;
134	shiftidx = nlist->shift;
135	gid = nlist->gid;
136	shiftvec = fr->shift_vec[0];
137	fshift = fr->fshift[0];
138	facel = _mm_set1_ps(fr->epsfac);
139	charge = mdatoms->chargeA;
140	krf = _mm_set1_ps(fr->ic->k_rf);
141	krf2 = _mm_set1_ps(fr->ic->k_rf*2.0);
142	crf = _mm_set1_ps(fr->ic->c_rf);
143	nvdwtype = fr->ntype;
144	vdwparam = fr->nbfp;
145	vdwtype = mdatoms->typeA;
146
147	vftab = kernel_data->table_vdw->data;
148	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
149
150	/* Setup water-specific parameters */
151	inr = nlist->iinr[0];
152	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
153	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
154	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
155	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
156
157	jq1 = _mm_set1_ps(charge[inr+1]);
158	jq2 = _mm_set1_ps(charge[inr+2]);
159	jq3 = _mm_set1_ps(charge[inr+3]);
160	vdwjidx0A = 2*vdwtype[inr+0];
161	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
162	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
163	qq11 = _mm_mul_ps(iq1,jq1);
164	qq12 = _mm_mul_ps(iq1,jq2);
165	qq13 = _mm_mul_ps(iq1,jq3);
166	qq21 = _mm_mul_ps(iq2,jq1);
167	qq22 = _mm_mul_ps(iq2,jq2);
168	qq23 = _mm_mul_ps(iq2,jq3);
169	qq31 = _mm_mul_ps(iq3,jq1);
170	qq32 = _mm_mul_ps(iq3,jq2);
171	qq33 = _mm_mul_ps(iq3,jq3);
172
173	/* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
174	rcutoff_scalar = fr->rcoulomb;
175	rcutoff = _mm_set1_ps(rcutoff_scalar);
176	rcutoff2 = _mm_mul_ps(rcutoff,rcutoff);
177
178	/* Avoid stupid compiler warnings */
179	jnrA = jnrB = jnrC = jnrD = 0;
180	j_coord_offsetA = 0;
181	j_coord_offsetB = 0;
182	j_coord_offsetC = 0;
183	j_coord_offsetD = 0;
184
185	outeriter = 0;
186	inneriter = 0;
187
188	for(iidx=0;iidx<4*DIM3;iidx++)
189	{
190	scratch[iidx] = 0.0;
191	}
192
193	/* Start outer loop over neighborlists */
194	for(iidx=0; iidx<nri; iidx++)
195	{
196	/* Load shift vector for this list */
197	i_shift_offset = DIM3*shiftidx[iidx];
198
199	/* Load limits for loop over neighbors */
200	j_index_start = jindex[iidx];
201	j_index_end = jindex[iidx+1];
202
203	/* Get outer coordinate index */
204	inr = iinr[iidx];
205	i_coord_offset = DIM3*inr;
206
207	/* Load i particle coords and add shift vector */
208	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
209	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
210
211	fix0 = _mm_setzero_ps();
212	fiy0 = _mm_setzero_ps();
213	fiz0 = _mm_setzero_ps();
214	fix1 = _mm_setzero_ps();
215	fiy1 = _mm_setzero_ps();
216	fiz1 = _mm_setzero_ps();
217	fix2 = _mm_setzero_ps();
218	fiy2 = _mm_setzero_ps();
219	fiz2 = _mm_setzero_ps();
220	fix3 = _mm_setzero_ps();
221	fiy3 = _mm_setzero_ps();
222	fiz3 = _mm_setzero_ps();
223
224	/* Reset potential sums */
225	velecsum = _mm_setzero_ps();
226	vvdwsum = _mm_setzero_ps();
227
228	/* Start inner kernel loop */
229	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
230	{
231
232	/* Get j neighbor index, and coordinate index */
233	jnrA = jjnr[jidx];
234	jnrB = jjnr[jidx+1];
235	jnrC = jjnr[jidx+2];
236	jnrD = jjnr[jidx+3];
237	j_coord_offsetA = DIM3*jnrA;
238	j_coord_offsetB = DIM3*jnrB;
239	j_coord_offsetC = DIM3*jnrC;
240	j_coord_offsetD = DIM3*jnrD;
241
242	/* load j atom coordinates */
243	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
244	x+j_coord_offsetC,x+j_coord_offsetD,
245	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
246	&jy2,&jz2,&jx3,&jy3,&jz3);
247
248	/* Calculate displacement vector */
249	dx00 = _mm_sub_ps(ix0,jx0);
250	dy00 = _mm_sub_ps(iy0,jy0);
251	dz00 = _mm_sub_ps(iz0,jz0);
252	dx11 = _mm_sub_ps(ix1,jx1);
253	dy11 = _mm_sub_ps(iy1,jy1);
254	dz11 = _mm_sub_ps(iz1,jz1);
255	dx12 = _mm_sub_ps(ix1,jx2);
256	dy12 = _mm_sub_ps(iy1,jy2);
257	dz12 = _mm_sub_ps(iz1,jz2);
258	dx13 = _mm_sub_ps(ix1,jx3);
259	dy13 = _mm_sub_ps(iy1,jy3);
260	dz13 = _mm_sub_ps(iz1,jz3);
261	dx21 = _mm_sub_ps(ix2,jx1);
262	dy21 = _mm_sub_ps(iy2,jy1);
263	dz21 = _mm_sub_ps(iz2,jz1);
264	dx22 = _mm_sub_ps(ix2,jx2);
265	dy22 = _mm_sub_ps(iy2,jy2);
266	dz22 = _mm_sub_ps(iz2,jz2);
267	dx23 = _mm_sub_ps(ix2,jx3);
268	dy23 = _mm_sub_ps(iy2,jy3);
269	dz23 = _mm_sub_ps(iz2,jz3);
270	dx31 = _mm_sub_ps(ix3,jx1);
271	dy31 = _mm_sub_ps(iy3,jy1);
272	dz31 = _mm_sub_ps(iz3,jz1);
273	dx32 = _mm_sub_ps(ix3,jx2);
274	dy32 = _mm_sub_ps(iy3,jy2);
275	dz32 = _mm_sub_ps(iz3,jz2);
276	dx33 = _mm_sub_ps(ix3,jx3);
277	dy33 = _mm_sub_ps(iy3,jy3);
278	dz33 = _mm_sub_ps(iz3,jz3);
279
280	/* Calculate squared distance and things based on it */
281	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
282	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
283	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
284	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
285	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
286	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
287	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
288	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
289	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
290	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
291
292	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
293	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
294	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
295	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
296	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
297	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
298	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
299	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
300	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
301	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
302
303	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
304	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
305	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
306	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
307	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
308	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
309	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
310	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
311	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
312
313	fjx0 = _mm_setzero_ps();
314	fjy0 = _mm_setzero_ps();
315	fjz0 = _mm_setzero_ps();
316	fjx1 = _mm_setzero_ps();
317	fjy1 = _mm_setzero_ps();
318	fjz1 = _mm_setzero_ps();
319	fjx2 = _mm_setzero_ps();
320	fjy2 = _mm_setzero_ps();
321	fjz2 = _mm_setzero_ps();
322	fjx3 = _mm_setzero_ps();
323	fjy3 = _mm_setzero_ps();
324	fjz3 = _mm_setzero_ps();
325
326	/**************************
327	* CALCULATE INTERACTIONS *
328	**************************/
329
330	if (gmx_mm_any_lt(rsq00,rcutoff2))
331	{
332
333	r00 = _mm_mul_ps(rsq00,rinv00);
334
335	/* Calculate table index by multiplying r with table scale and truncate to integer */
336	rt = _mm_mul_ps(r00,vftabscale);
337	vfitab = _mm_cvttps_epi32(rt);
338	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
339	vfitab = _mm_slli_epi32(vfitab,3);
340
341	/* CUBIC SPLINE TABLE DISPERSION */
342	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
343	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
344	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
345	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
346	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
347	Heps = _mm_mul_ps(vfeps,H);
348	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
349	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
350	vvdw6 = _mm_mul_ps(c6_00,VV);
351	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
352	fvdw6 = _mm_mul_ps(c6_00,FF);
353
354	/* CUBIC SPLINE TABLE REPULSION */
355	vfitab = _mm_add_epi32(vfitab,ifour);
356	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
357	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
358	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
359	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
360	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
361	Heps = _mm_mul_ps(vfeps,H);
362	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
363	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
364	vvdw12 = _mm_mul_ps(c12_00,VV);
365	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
366	fvdw12 = _mm_mul_ps(c12_00,FF);
367	vvdw = _mm_add_ps(vvdw12,vvdw6);
368	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
369
370	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
371
372	/* Update potential sum for this i atom from the interaction with this j atom. */
373	vvdw = _mm_and_ps(vvdw,cutoff_mask);
374	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
375
376	fscal = fvdw;
377
378	fscal = _mm_and_ps(fscal,cutoff_mask);
379
380	/* Calculate temporary vectorial force */
381	tx = _mm_mul_ps(fscal,dx00);
382	ty = _mm_mul_ps(fscal,dy00);
383	tz = _mm_mul_ps(fscal,dz00);
384
385	/* Update vectorial force */
386	fix0 = _mm_add_ps(fix0,tx);
387	fiy0 = _mm_add_ps(fiy0,ty);
388	fiz0 = _mm_add_ps(fiz0,tz);
389
390	fjx0 = _mm_add_ps(fjx0,tx);
391	fjy0 = _mm_add_ps(fjy0,ty);
392	fjz0 = _mm_add_ps(fjz0,tz);
393
394	}
395
396	/**************************
397	* CALCULATE INTERACTIONS *
398	**************************/
399
400	if (gmx_mm_any_lt(rsq11,rcutoff2))
401	{
402
403	/* REACTION-FIELD ELECTROSTATICS */
404	velec = _mm_mul_ps(qq11,_mm_sub_ps(_mm_add_ps(rinv11,_mm_mul_ps(krf,rsq11)),crf));
405	felec = _mm_mul_ps(qq11,_mm_sub_ps(_mm_mul_ps(rinv11,rinvsq11),krf2));
406
407	cutoff_mask = _mm_cmplt_ps(rsq11,rcutoff2);
408
409	/* Update potential sum for this i atom from the interaction with this j atom. */
410	velec = _mm_and_ps(velec,cutoff_mask);
411	velecsum = _mm_add_ps(velecsum,velec);
412
413	fscal = felec;
414
415	fscal = _mm_and_ps(fscal,cutoff_mask);
416
417	/* Calculate temporary vectorial force */
418	tx = _mm_mul_ps(fscal,dx11);
419	ty = _mm_mul_ps(fscal,dy11);
420	tz = _mm_mul_ps(fscal,dz11);
421
422	/* Update vectorial force */
423	fix1 = _mm_add_ps(fix1,tx);
424	fiy1 = _mm_add_ps(fiy1,ty);
425	fiz1 = _mm_add_ps(fiz1,tz);
426
427	fjx1 = _mm_add_ps(fjx1,tx);
428	fjy1 = _mm_add_ps(fjy1,ty);
429	fjz1 = _mm_add_ps(fjz1,tz);
430
431	}
432
433	/**************************
434	* CALCULATE INTERACTIONS *
435	**************************/
436
437	if (gmx_mm_any_lt(rsq12,rcutoff2))
438	{
439
440	/* REACTION-FIELD ELECTROSTATICS */
441	velec = _mm_mul_ps(qq12,_mm_sub_ps(_mm_add_ps(rinv12,_mm_mul_ps(krf,rsq12)),crf));
442	felec = _mm_mul_ps(qq12,_mm_sub_ps(_mm_mul_ps(rinv12,rinvsq12),krf2));
443
444	cutoff_mask = _mm_cmplt_ps(rsq12,rcutoff2);
445
446	/* Update potential sum for this i atom from the interaction with this j atom. */
447	velec = _mm_and_ps(velec,cutoff_mask);
448	velecsum = _mm_add_ps(velecsum,velec);
449
450	fscal = felec;
451
452	fscal = _mm_and_ps(fscal,cutoff_mask);
453
454	/* Calculate temporary vectorial force */
455	tx = _mm_mul_ps(fscal,dx12);
456	ty = _mm_mul_ps(fscal,dy12);
457	tz = _mm_mul_ps(fscal,dz12);
458
459	/* Update vectorial force */
460	fix1 = _mm_add_ps(fix1,tx);
461	fiy1 = _mm_add_ps(fiy1,ty);
462	fiz1 = _mm_add_ps(fiz1,tz);
463
464	fjx2 = _mm_add_ps(fjx2,tx);
465	fjy2 = _mm_add_ps(fjy2,ty);
466	fjz2 = _mm_add_ps(fjz2,tz);
467
468	}
469
470	/**************************
471	* CALCULATE INTERACTIONS *
472	**************************/
473
474	if (gmx_mm_any_lt(rsq13,rcutoff2))
475	{
476
477	/* REACTION-FIELD ELECTROSTATICS */
478	velec = _mm_mul_ps(qq13,_mm_sub_ps(_mm_add_ps(rinv13,_mm_mul_ps(krf,rsq13)),crf));
479	felec = _mm_mul_ps(qq13,_mm_sub_ps(_mm_mul_ps(rinv13,rinvsq13),krf2));
480
481	cutoff_mask = _mm_cmplt_ps(rsq13,rcutoff2);
482
483	/* Update potential sum for this i atom from the interaction with this j atom. */
484	velec = _mm_and_ps(velec,cutoff_mask);
485	velecsum = _mm_add_ps(velecsum,velec);
486
487	fscal = felec;
488
489	fscal = _mm_and_ps(fscal,cutoff_mask);
490
491	/* Calculate temporary vectorial force */
492	tx = _mm_mul_ps(fscal,dx13);
493	ty = _mm_mul_ps(fscal,dy13);
494	tz = _mm_mul_ps(fscal,dz13);
495
496	/* Update vectorial force */
497	fix1 = _mm_add_ps(fix1,tx);
498	fiy1 = _mm_add_ps(fiy1,ty);
499	fiz1 = _mm_add_ps(fiz1,tz);
500
501	fjx3 = _mm_add_ps(fjx3,tx);
502	fjy3 = _mm_add_ps(fjy3,ty);
503	fjz3 = _mm_add_ps(fjz3,tz);
504
505	}
506
507	/**************************
508	* CALCULATE INTERACTIONS *
509	**************************/
510
511	if (gmx_mm_any_lt(rsq21,rcutoff2))
512	{
513
514	/* REACTION-FIELD ELECTROSTATICS */
515	velec = _mm_mul_ps(qq21,_mm_sub_ps(_mm_add_ps(rinv21,_mm_mul_ps(krf,rsq21)),crf));
516	felec = _mm_mul_ps(qq21,_mm_sub_ps(_mm_mul_ps(rinv21,rinvsq21),krf2));
517
518	cutoff_mask = _mm_cmplt_ps(rsq21,rcutoff2);
519
520	/* Update potential sum for this i atom from the interaction with this j atom. */
521	velec = _mm_and_ps(velec,cutoff_mask);
522	velecsum = _mm_add_ps(velecsum,velec);
523
524	fscal = felec;
525
526	fscal = _mm_and_ps(fscal,cutoff_mask);
527
528	/* Calculate temporary vectorial force */
529	tx = _mm_mul_ps(fscal,dx21);
530	ty = _mm_mul_ps(fscal,dy21);
531	tz = _mm_mul_ps(fscal,dz21);
532
533	/* Update vectorial force */
534	fix2 = _mm_add_ps(fix2,tx);
535	fiy2 = _mm_add_ps(fiy2,ty);
536	fiz2 = _mm_add_ps(fiz2,tz);
537
538	fjx1 = _mm_add_ps(fjx1,tx);
539	fjy1 = _mm_add_ps(fjy1,ty);
540	fjz1 = _mm_add_ps(fjz1,tz);
541
542	}
543
544	/**************************
545	* CALCULATE INTERACTIONS *
546	**************************/
547
548	if (gmx_mm_any_lt(rsq22,rcutoff2))
549	{
550
551	/* REACTION-FIELD ELECTROSTATICS */
552	velec = _mm_mul_ps(qq22,_mm_sub_ps(_mm_add_ps(rinv22,_mm_mul_ps(krf,rsq22)),crf));
553	felec = _mm_mul_ps(qq22,_mm_sub_ps(_mm_mul_ps(rinv22,rinvsq22),krf2));
554
555	cutoff_mask = _mm_cmplt_ps(rsq22,rcutoff2);
556
557	/* Update potential sum for this i atom from the interaction with this j atom. */
558	velec = _mm_and_ps(velec,cutoff_mask);
559	velecsum = _mm_add_ps(velecsum,velec);
560
561	fscal = felec;
562
563	fscal = _mm_and_ps(fscal,cutoff_mask);
564
565	/* Calculate temporary vectorial force */
566	tx = _mm_mul_ps(fscal,dx22);
567	ty = _mm_mul_ps(fscal,dy22);
568	tz = _mm_mul_ps(fscal,dz22);
569
570	/* Update vectorial force */
571	fix2 = _mm_add_ps(fix2,tx);
572	fiy2 = _mm_add_ps(fiy2,ty);
573	fiz2 = _mm_add_ps(fiz2,tz);
574
575	fjx2 = _mm_add_ps(fjx2,tx);
576	fjy2 = _mm_add_ps(fjy2,ty);
577	fjz2 = _mm_add_ps(fjz2,tz);
578
579	}
580
581	/**************************
582	* CALCULATE INTERACTIONS *
583	**************************/
584
585	if (gmx_mm_any_lt(rsq23,rcutoff2))
586	{
587
588	/* REACTION-FIELD ELECTROSTATICS */
589	velec = _mm_mul_ps(qq23,_mm_sub_ps(_mm_add_ps(rinv23,_mm_mul_ps(krf,rsq23)),crf));
590	felec = _mm_mul_ps(qq23,_mm_sub_ps(_mm_mul_ps(rinv23,rinvsq23),krf2));
591
592	cutoff_mask = _mm_cmplt_ps(rsq23,rcutoff2);
593
594	/* Update potential sum for this i atom from the interaction with this j atom. */
595	velec = _mm_and_ps(velec,cutoff_mask);
596	velecsum = _mm_add_ps(velecsum,velec);
597
598	fscal = felec;
599
600	fscal = _mm_and_ps(fscal,cutoff_mask);
601
602	/* Calculate temporary vectorial force */
603	tx = _mm_mul_ps(fscal,dx23);
604	ty = _mm_mul_ps(fscal,dy23);
605	tz = _mm_mul_ps(fscal,dz23);
606
607	/* Update vectorial force */
608	fix2 = _mm_add_ps(fix2,tx);
609	fiy2 = _mm_add_ps(fiy2,ty);
610	fiz2 = _mm_add_ps(fiz2,tz);
611
612	fjx3 = _mm_add_ps(fjx3,tx);
613	fjy3 = _mm_add_ps(fjy3,ty);
614	fjz3 = _mm_add_ps(fjz3,tz);
615
616	}
617
618	/**************************
619	* CALCULATE INTERACTIONS *
620	**************************/
621
622	if (gmx_mm_any_lt(rsq31,rcutoff2))
623	{
624
625	/* REACTION-FIELD ELECTROSTATICS */
626	velec = _mm_mul_ps(qq31,_mm_sub_ps(_mm_add_ps(rinv31,_mm_mul_ps(krf,rsq31)),crf));
627	felec = _mm_mul_ps(qq31,_mm_sub_ps(_mm_mul_ps(rinv31,rinvsq31),krf2));
628
629	cutoff_mask = _mm_cmplt_ps(rsq31,rcutoff2);
630
631	/* Update potential sum for this i atom from the interaction with this j atom. */
632	velec = _mm_and_ps(velec,cutoff_mask);
633	velecsum = _mm_add_ps(velecsum,velec);
634
635	fscal = felec;
636
637	fscal = _mm_and_ps(fscal,cutoff_mask);
638
639	/* Calculate temporary vectorial force */
640	tx = _mm_mul_ps(fscal,dx31);
641	ty = _mm_mul_ps(fscal,dy31);
642	tz = _mm_mul_ps(fscal,dz31);
643
644	/* Update vectorial force */
645	fix3 = _mm_add_ps(fix3,tx);
646	fiy3 = _mm_add_ps(fiy3,ty);
647	fiz3 = _mm_add_ps(fiz3,tz);
648
649	fjx1 = _mm_add_ps(fjx1,tx);
650	fjy1 = _mm_add_ps(fjy1,ty);
651	fjz1 = _mm_add_ps(fjz1,tz);
652
653	}
654
655	/**************************
656	* CALCULATE INTERACTIONS *
657	**************************/
658
659	if (gmx_mm_any_lt(rsq32,rcutoff2))
660	{
661
662	/* REACTION-FIELD ELECTROSTATICS */
663	velec = _mm_mul_ps(qq32,_mm_sub_ps(_mm_add_ps(rinv32,_mm_mul_ps(krf,rsq32)),crf));
664	felec = _mm_mul_ps(qq32,_mm_sub_ps(_mm_mul_ps(rinv32,rinvsq32),krf2));
665
666	cutoff_mask = _mm_cmplt_ps(rsq32,rcutoff2);
667
668	/* Update potential sum for this i atom from the interaction with this j atom. */
669	velec = _mm_and_ps(velec,cutoff_mask);
670	velecsum = _mm_add_ps(velecsum,velec);
671
672	fscal = felec;
673
674	fscal = _mm_and_ps(fscal,cutoff_mask);
675
676	/* Calculate temporary vectorial force */
677	tx = _mm_mul_ps(fscal,dx32);
678	ty = _mm_mul_ps(fscal,dy32);
679	tz = _mm_mul_ps(fscal,dz32);
680
681	/* Update vectorial force */
682	fix3 = _mm_add_ps(fix3,tx);
683	fiy3 = _mm_add_ps(fiy3,ty);
684	fiz3 = _mm_add_ps(fiz3,tz);
685
686	fjx2 = _mm_add_ps(fjx2,tx);
687	fjy2 = _mm_add_ps(fjy2,ty);
688	fjz2 = _mm_add_ps(fjz2,tz);
689
690	}
691
692	/**************************
693	* CALCULATE INTERACTIONS *
694	**************************/
695
696	if (gmx_mm_any_lt(rsq33,rcutoff2))
697	{
698
699	/* REACTION-FIELD ELECTROSTATICS */
700	velec = _mm_mul_ps(qq33,_mm_sub_ps(_mm_add_ps(rinv33,_mm_mul_ps(krf,rsq33)),crf));
701	felec = _mm_mul_ps(qq33,_mm_sub_ps(_mm_mul_ps(rinv33,rinvsq33),krf2));
702
703	cutoff_mask = _mm_cmplt_ps(rsq33,rcutoff2);
704
705	/* Update potential sum for this i atom from the interaction with this j atom. */
706	velec = _mm_and_ps(velec,cutoff_mask);
707	velecsum = _mm_add_ps(velecsum,velec);
708
709	fscal = felec;
710
711	fscal = _mm_and_ps(fscal,cutoff_mask);
712
713	/* Calculate temporary vectorial force */
714	tx = _mm_mul_ps(fscal,dx33);
715	ty = _mm_mul_ps(fscal,dy33);
716	tz = _mm_mul_ps(fscal,dz33);
717
718	/* Update vectorial force */
719	fix3 = _mm_add_ps(fix3,tx);
720	fiy3 = _mm_add_ps(fiy3,ty);
721	fiz3 = _mm_add_ps(fiz3,tz);
722
723	fjx3 = _mm_add_ps(fjx3,tx);
724	fjy3 = _mm_add_ps(fjy3,ty);
725	fjz3 = _mm_add_ps(fjz3,tz);
726
727	}
728
729	fjptrA = f+j_coord_offsetA;
730	fjptrB = f+j_coord_offsetB;
731	fjptrC = f+j_coord_offsetC;
732	fjptrD = f+j_coord_offsetD;
733
734	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
735	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
736	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
737
738	/* Inner loop uses 387 flops */
739	}
740
741	if(jidx<j_index_end)
742	{
743
744	/* Get j neighbor index, and coordinate index */
745	jnrlistA = jjnr[jidx];
746	jnrlistB = jjnr[jidx+1];
747	jnrlistC = jjnr[jidx+2];
748	jnrlistD = jjnr[jidx+3];
749	/* Sign of each element will be negative for non-real atoms.
750	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
751	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
752	*/
753	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
754	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
755	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
756	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
757	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
758	j_coord_offsetA = DIM3*jnrA;
759	j_coord_offsetB = DIM3*jnrB;
760	j_coord_offsetC = DIM3*jnrC;
761	j_coord_offsetD = DIM3*jnrD;
762
763	/* load j atom coordinates */
764	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
765	x+j_coord_offsetC,x+j_coord_offsetD,
766	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
767	&jy2,&jz2,&jx3,&jy3,&jz3);
768
769	/* Calculate displacement vector */
770	dx00 = _mm_sub_ps(ix0,jx0);
771	dy00 = _mm_sub_ps(iy0,jy0);
772	dz00 = _mm_sub_ps(iz0,jz0);
773	dx11 = _mm_sub_ps(ix1,jx1);
774	dy11 = _mm_sub_ps(iy1,jy1);
775	dz11 = _mm_sub_ps(iz1,jz1);
776	dx12 = _mm_sub_ps(ix1,jx2);
777	dy12 = _mm_sub_ps(iy1,jy2);
778	dz12 = _mm_sub_ps(iz1,jz2);
779	dx13 = _mm_sub_ps(ix1,jx3);
780	dy13 = _mm_sub_ps(iy1,jy3);
781	dz13 = _mm_sub_ps(iz1,jz3);
782	dx21 = _mm_sub_ps(ix2,jx1);
783	dy21 = _mm_sub_ps(iy2,jy1);
784	dz21 = _mm_sub_ps(iz2,jz1);
785	dx22 = _mm_sub_ps(ix2,jx2);
786	dy22 = _mm_sub_ps(iy2,jy2);
787	dz22 = _mm_sub_ps(iz2,jz2);
788	dx23 = _mm_sub_ps(ix2,jx3);
789	dy23 = _mm_sub_ps(iy2,jy3);
790	dz23 = _mm_sub_ps(iz2,jz3);
791	dx31 = _mm_sub_ps(ix3,jx1);
792	dy31 = _mm_sub_ps(iy3,jy1);
793	dz31 = _mm_sub_ps(iz3,jz1);
794	dx32 = _mm_sub_ps(ix3,jx2);
795	dy32 = _mm_sub_ps(iy3,jy2);
796	dz32 = _mm_sub_ps(iz3,jz2);
797	dx33 = _mm_sub_ps(ix3,jx3);
798	dy33 = _mm_sub_ps(iy3,jy3);
799	dz33 = _mm_sub_ps(iz3,jz3);
800
801	/* Calculate squared distance and things based on it */
802	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
803	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
804	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
805	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
806	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
807	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
808	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
809	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
810	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
811	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
812
813	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
814	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
815	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
816	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
817	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
818	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
819	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
820	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
821	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
822	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
823
824	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
825	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
826	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
827	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
828	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
829	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
830	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
831	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
832	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
833
834	fjx0 = _mm_setzero_ps();
835	fjy0 = _mm_setzero_ps();
836	fjz0 = _mm_setzero_ps();
837	fjx1 = _mm_setzero_ps();
838	fjy1 = _mm_setzero_ps();
839	fjz1 = _mm_setzero_ps();
840	fjx2 = _mm_setzero_ps();
841	fjy2 = _mm_setzero_ps();
842	fjz2 = _mm_setzero_ps();
843	fjx3 = _mm_setzero_ps();
844	fjy3 = _mm_setzero_ps();
845	fjz3 = _mm_setzero_ps();
846
847	/**************************
848	* CALCULATE INTERACTIONS *
849	**************************/
850
851	if (gmx_mm_any_lt(rsq00,rcutoff2))
852	{
853
854	r00 = _mm_mul_ps(rsq00,rinv00);
855	r00 = _mm_andnot_ps(dummy_mask,r00);
856
857	/* Calculate table index by multiplying r with table scale and truncate to integer */
858	rt = _mm_mul_ps(r00,vftabscale);
859	vfitab = _mm_cvttps_epi32(rt);
860	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
861	vfitab = _mm_slli_epi32(vfitab,3);
862
863	/* CUBIC SPLINE TABLE DISPERSION */
864	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
865	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
866	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
867	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
868	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
869	Heps = _mm_mul_ps(vfeps,H);
870	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
871	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
872	vvdw6 = _mm_mul_ps(c6_00,VV);
873	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
874	fvdw6 = _mm_mul_ps(c6_00,FF);
875
876	/* CUBIC SPLINE TABLE REPULSION */
877	vfitab = _mm_add_epi32(vfitab,ifour);
878	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
879	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
880	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
881	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
882	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
883	Heps = _mm_mul_ps(vfeps,H);
884	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
885	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
886	vvdw12 = _mm_mul_ps(c12_00,VV);
887	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
888	fvdw12 = _mm_mul_ps(c12_00,FF);
889	vvdw = _mm_add_ps(vvdw12,vvdw6);
890	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
891
892	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
893
894	/* Update potential sum for this i atom from the interaction with this j atom. */
895	vvdw = _mm_and_ps(vvdw,cutoff_mask);
896	vvdw = _mm_andnot_ps(dummy_mask,vvdw);
897	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
898
899	fscal = fvdw;
900
901	fscal = _mm_and_ps(fscal,cutoff_mask);
902
903	fscal = _mm_andnot_ps(dummy_mask,fscal);
904
905	/* Calculate temporary vectorial force */
906	tx = _mm_mul_ps(fscal,dx00);
907	ty = _mm_mul_ps(fscal,dy00);
908	tz = _mm_mul_ps(fscal,dz00);
909
910	/* Update vectorial force */
911	fix0 = _mm_add_ps(fix0,tx);
912	fiy0 = _mm_add_ps(fiy0,ty);
913	fiz0 = _mm_add_ps(fiz0,tz);
914
915	fjx0 = _mm_add_ps(fjx0,tx);
916	fjy0 = _mm_add_ps(fjy0,ty);
917	fjz0 = _mm_add_ps(fjz0,tz);
918
919	}
920
921	/**************************
922	* CALCULATE INTERACTIONS *
923	**************************/
924
925	if (gmx_mm_any_lt(rsq11,rcutoff2))
926	{
927
928	/* REACTION-FIELD ELECTROSTATICS */
929	velec = _mm_mul_ps(qq11,_mm_sub_ps(_mm_add_ps(rinv11,_mm_mul_ps(krf,rsq11)),crf));
930	felec = _mm_mul_ps(qq11,_mm_sub_ps(_mm_mul_ps(rinv11,rinvsq11),krf2));
931
932	cutoff_mask = _mm_cmplt_ps(rsq11,rcutoff2);
933
934	/* Update potential sum for this i atom from the interaction with this j atom. */
935	velec = _mm_and_ps(velec,cutoff_mask);
936	velec = _mm_andnot_ps(dummy_mask,velec);
937	velecsum = _mm_add_ps(velecsum,velec);
938
939	fscal = felec;
940
941	fscal = _mm_and_ps(fscal,cutoff_mask);
942
943	fscal = _mm_andnot_ps(dummy_mask,fscal);
944
945	/* Calculate temporary vectorial force */
946	tx = _mm_mul_ps(fscal,dx11);
947	ty = _mm_mul_ps(fscal,dy11);
948	tz = _mm_mul_ps(fscal,dz11);
949
950	/* Update vectorial force */
951	fix1 = _mm_add_ps(fix1,tx);
952	fiy1 = _mm_add_ps(fiy1,ty);
953	fiz1 = _mm_add_ps(fiz1,tz);
954
955	fjx1 = _mm_add_ps(fjx1,tx);
956	fjy1 = _mm_add_ps(fjy1,ty);
957	fjz1 = _mm_add_ps(fjz1,tz);
958
959	}
960
961	/**************************
962	* CALCULATE INTERACTIONS *
963	**************************/
964
965	if (gmx_mm_any_lt(rsq12,rcutoff2))
966	{
967
968	/* REACTION-FIELD ELECTROSTATICS */
969	velec = _mm_mul_ps(qq12,_mm_sub_ps(_mm_add_ps(rinv12,_mm_mul_ps(krf,rsq12)),crf));
970	felec = _mm_mul_ps(qq12,_mm_sub_ps(_mm_mul_ps(rinv12,rinvsq12),krf2));
971
972	cutoff_mask = _mm_cmplt_ps(rsq12,rcutoff2);
973
974	/* Update potential sum for this i atom from the interaction with this j atom. */
975	velec = _mm_and_ps(velec,cutoff_mask);
976	velec = _mm_andnot_ps(dummy_mask,velec);
977	velecsum = _mm_add_ps(velecsum,velec);
978
979	fscal = felec;
980
981	fscal = _mm_and_ps(fscal,cutoff_mask);
982
983	fscal = _mm_andnot_ps(dummy_mask,fscal);
984
985	/* Calculate temporary vectorial force */
986	tx = _mm_mul_ps(fscal,dx12);
987	ty = _mm_mul_ps(fscal,dy12);
988	tz = _mm_mul_ps(fscal,dz12);
989
990	/* Update vectorial force */
991	fix1 = _mm_add_ps(fix1,tx);
992	fiy1 = _mm_add_ps(fiy1,ty);
993	fiz1 = _mm_add_ps(fiz1,tz);
994
995	fjx2 = _mm_add_ps(fjx2,tx);
996	fjy2 = _mm_add_ps(fjy2,ty);
997	fjz2 = _mm_add_ps(fjz2,tz);
998
999	}
1000
1001	/**************************
1002	* CALCULATE INTERACTIONS *
1003	**************************/
1004
1005	if (gmx_mm_any_lt(rsq13,rcutoff2))
1006	{
1007
1008	/* REACTION-FIELD ELECTROSTATICS */
1009	velec = _mm_mul_ps(qq13,_mm_sub_ps(_mm_add_ps(rinv13,_mm_mul_ps(krf,rsq13)),crf));
1010	felec = _mm_mul_ps(qq13,_mm_sub_ps(_mm_mul_ps(rinv13,rinvsq13),krf2));
1011
1012	cutoff_mask = _mm_cmplt_ps(rsq13,rcutoff2);
1013
1014	/* Update potential sum for this i atom from the interaction with this j atom. */
1015	velec = _mm_and_ps(velec,cutoff_mask);
1016	velec = _mm_andnot_ps(dummy_mask,velec);
1017	velecsum = _mm_add_ps(velecsum,velec);
1018
1019	fscal = felec;
1020
1021	fscal = _mm_and_ps(fscal,cutoff_mask);
1022
1023	fscal = _mm_andnot_ps(dummy_mask,fscal);
1024
1025	/* Calculate temporary vectorial force */
1026	tx = _mm_mul_ps(fscal,dx13);
1027	ty = _mm_mul_ps(fscal,dy13);
1028	tz = _mm_mul_ps(fscal,dz13);
1029
1030	/* Update vectorial force */
1031	fix1 = _mm_add_ps(fix1,tx);
1032	fiy1 = _mm_add_ps(fiy1,ty);
1033	fiz1 = _mm_add_ps(fiz1,tz);
1034
1035	fjx3 = _mm_add_ps(fjx3,tx);
1036	fjy3 = _mm_add_ps(fjy3,ty);
1037	fjz3 = _mm_add_ps(fjz3,tz);
1038
1039	}
1040
1041	/**************************
1042	* CALCULATE INTERACTIONS *
1043	**************************/
1044
1045	if (gmx_mm_any_lt(rsq21,rcutoff2))
1046	{
1047
1048	/* REACTION-FIELD ELECTROSTATICS */
1049	velec = _mm_mul_ps(qq21,_mm_sub_ps(_mm_add_ps(rinv21,_mm_mul_ps(krf,rsq21)),crf));
1050	felec = _mm_mul_ps(qq21,_mm_sub_ps(_mm_mul_ps(rinv21,rinvsq21),krf2));
1051
1052	cutoff_mask = _mm_cmplt_ps(rsq21,rcutoff2);
1053
1054	/* Update potential sum for this i atom from the interaction with this j atom. */
1055	velec = _mm_and_ps(velec,cutoff_mask);
1056	velec = _mm_andnot_ps(dummy_mask,velec);
1057	velecsum = _mm_add_ps(velecsum,velec);
1058
1059	fscal = felec;
1060
1061	fscal = _mm_and_ps(fscal,cutoff_mask);
1062
1063	fscal = _mm_andnot_ps(dummy_mask,fscal);
1064
1065	/* Calculate temporary vectorial force */
1066	tx = _mm_mul_ps(fscal,dx21);
1067	ty = _mm_mul_ps(fscal,dy21);
1068	tz = _mm_mul_ps(fscal,dz21);
1069
1070	/* Update vectorial force */
1071	fix2 = _mm_add_ps(fix2,tx);
1072	fiy2 = _mm_add_ps(fiy2,ty);
1073	fiz2 = _mm_add_ps(fiz2,tz);
1074
1075	fjx1 = _mm_add_ps(fjx1,tx);
1076	fjy1 = _mm_add_ps(fjy1,ty);
1077	fjz1 = _mm_add_ps(fjz1,tz);
1078
1079	}
1080
1081	/**************************
1082	* CALCULATE INTERACTIONS *
1083	**************************/
1084
1085	if (gmx_mm_any_lt(rsq22,rcutoff2))
1086	{
1087
1088	/* REACTION-FIELD ELECTROSTATICS */
1089	velec = _mm_mul_ps(qq22,_mm_sub_ps(_mm_add_ps(rinv22,_mm_mul_ps(krf,rsq22)),crf));
1090	felec = _mm_mul_ps(qq22,_mm_sub_ps(_mm_mul_ps(rinv22,rinvsq22),krf2));
1091
1092	cutoff_mask = _mm_cmplt_ps(rsq22,rcutoff2);
1093
1094	/* Update potential sum for this i atom from the interaction with this j atom. */
1095	velec = _mm_and_ps(velec,cutoff_mask);
1096	velec = _mm_andnot_ps(dummy_mask,velec);
1097	velecsum = _mm_add_ps(velecsum,velec);
1098
1099	fscal = felec;
1100
1101	fscal = _mm_and_ps(fscal,cutoff_mask);
1102
1103	fscal = _mm_andnot_ps(dummy_mask,fscal);
1104
1105	/* Calculate temporary vectorial force */
1106	tx = _mm_mul_ps(fscal,dx22);
1107	ty = _mm_mul_ps(fscal,dy22);
1108	tz = _mm_mul_ps(fscal,dz22);
1109
1110	/* Update vectorial force */
1111	fix2 = _mm_add_ps(fix2,tx);
1112	fiy2 = _mm_add_ps(fiy2,ty);
1113	fiz2 = _mm_add_ps(fiz2,tz);
1114
1115	fjx2 = _mm_add_ps(fjx2,tx);
1116	fjy2 = _mm_add_ps(fjy2,ty);
1117	fjz2 = _mm_add_ps(fjz2,tz);
1118
1119	}
1120
1121	/**************************
1122	* CALCULATE INTERACTIONS *
1123	**************************/
1124
1125	if (gmx_mm_any_lt(rsq23,rcutoff2))
1126	{
1127
1128	/* REACTION-FIELD ELECTROSTATICS */
1129	velec = _mm_mul_ps(qq23,_mm_sub_ps(_mm_add_ps(rinv23,_mm_mul_ps(krf,rsq23)),crf));
1130	felec = _mm_mul_ps(qq23,_mm_sub_ps(_mm_mul_ps(rinv23,rinvsq23),krf2));
1131
1132	cutoff_mask = _mm_cmplt_ps(rsq23,rcutoff2);
1133
1134	/* Update potential sum for this i atom from the interaction with this j atom. */
1135	velec = _mm_and_ps(velec,cutoff_mask);
1136	velec = _mm_andnot_ps(dummy_mask,velec);
1137	velecsum = _mm_add_ps(velecsum,velec);
1138
1139	fscal = felec;
1140
1141	fscal = _mm_and_ps(fscal,cutoff_mask);
1142
1143	fscal = _mm_andnot_ps(dummy_mask,fscal);
1144
1145	/* Calculate temporary vectorial force */
1146	tx = _mm_mul_ps(fscal,dx23);
1147	ty = _mm_mul_ps(fscal,dy23);
1148	tz = _mm_mul_ps(fscal,dz23);
1149
1150	/* Update vectorial force */
1151	fix2 = _mm_add_ps(fix2,tx);
1152	fiy2 = _mm_add_ps(fiy2,ty);
1153	fiz2 = _mm_add_ps(fiz2,tz);
1154
1155	fjx3 = _mm_add_ps(fjx3,tx);
1156	fjy3 = _mm_add_ps(fjy3,ty);
1157	fjz3 = _mm_add_ps(fjz3,tz);
1158
1159	}
1160
1161	/**************************
1162	* CALCULATE INTERACTIONS *
1163	**************************/
1164
1165	if (gmx_mm_any_lt(rsq31,rcutoff2))
1166	{
1167
1168	/* REACTION-FIELD ELECTROSTATICS */
1169	velec = _mm_mul_ps(qq31,_mm_sub_ps(_mm_add_ps(rinv31,_mm_mul_ps(krf,rsq31)),crf));
1170	felec = _mm_mul_ps(qq31,_mm_sub_ps(_mm_mul_ps(rinv31,rinvsq31),krf2));
1171
1172	cutoff_mask = _mm_cmplt_ps(rsq31,rcutoff2);
1173
1174	/* Update potential sum for this i atom from the interaction with this j atom. */
1175	velec = _mm_and_ps(velec,cutoff_mask);
1176	velec = _mm_andnot_ps(dummy_mask,velec);
1177	velecsum = _mm_add_ps(velecsum,velec);
1178
1179	fscal = felec;
1180
1181	fscal = _mm_and_ps(fscal,cutoff_mask);
1182
1183	fscal = _mm_andnot_ps(dummy_mask,fscal);
1184
1185	/* Calculate temporary vectorial force */
1186	tx = _mm_mul_ps(fscal,dx31);
1187	ty = _mm_mul_ps(fscal,dy31);
1188	tz = _mm_mul_ps(fscal,dz31);
1189
1190	/* Update vectorial force */
1191	fix3 = _mm_add_ps(fix3,tx);
1192	fiy3 = _mm_add_ps(fiy3,ty);
1193	fiz3 = _mm_add_ps(fiz3,tz);
1194
1195	fjx1 = _mm_add_ps(fjx1,tx);
1196	fjy1 = _mm_add_ps(fjy1,ty);
1197	fjz1 = _mm_add_ps(fjz1,tz);
1198
1199	}
1200
1201	/**************************
1202	* CALCULATE INTERACTIONS *
1203	**************************/
1204
1205	if (gmx_mm_any_lt(rsq32,rcutoff2))
1206	{
1207
1208	/* REACTION-FIELD ELECTROSTATICS */
1209	velec = _mm_mul_ps(qq32,_mm_sub_ps(_mm_add_ps(rinv32,_mm_mul_ps(krf,rsq32)),crf));
1210	felec = _mm_mul_ps(qq32,_mm_sub_ps(_mm_mul_ps(rinv32,rinvsq32),krf2));
1211
1212	cutoff_mask = _mm_cmplt_ps(rsq32,rcutoff2);
1213
1214	/* Update potential sum for this i atom from the interaction with this j atom. */
1215	velec = _mm_and_ps(velec,cutoff_mask);
1216	velec = _mm_andnot_ps(dummy_mask,velec);
1217	velecsum = _mm_add_ps(velecsum,velec);
1218
1219	fscal = felec;
1220
1221	fscal = _mm_and_ps(fscal,cutoff_mask);
1222
1223	fscal = _mm_andnot_ps(dummy_mask,fscal);
1224
1225	/* Calculate temporary vectorial force */
1226	tx = _mm_mul_ps(fscal,dx32);
1227	ty = _mm_mul_ps(fscal,dy32);
1228	tz = _mm_mul_ps(fscal,dz32);
1229
1230	/* Update vectorial force */
1231	fix3 = _mm_add_ps(fix3,tx);
1232	fiy3 = _mm_add_ps(fiy3,ty);
1233	fiz3 = _mm_add_ps(fiz3,tz);
1234
1235	fjx2 = _mm_add_ps(fjx2,tx);
1236	fjy2 = _mm_add_ps(fjy2,ty);
1237	fjz2 = _mm_add_ps(fjz2,tz);
1238
1239	}
1240
1241	/**************************
1242	* CALCULATE INTERACTIONS *
1243	**************************/
1244
1245	if (gmx_mm_any_lt(rsq33,rcutoff2))
1246	{
1247
1248	/* REACTION-FIELD ELECTROSTATICS */
1249	velec = _mm_mul_ps(qq33,_mm_sub_ps(_mm_add_ps(rinv33,_mm_mul_ps(krf,rsq33)),crf));
1250	felec = _mm_mul_ps(qq33,_mm_sub_ps(_mm_mul_ps(rinv33,rinvsq33),krf2));
1251
1252	cutoff_mask = _mm_cmplt_ps(rsq33,rcutoff2);
1253
1254	/* Update potential sum for this i atom from the interaction with this j atom. */
1255	velec = _mm_and_ps(velec,cutoff_mask);
1256	velec = _mm_andnot_ps(dummy_mask,velec);
1257	velecsum = _mm_add_ps(velecsum,velec);
1258
1259	fscal = felec;
1260
1261	fscal = _mm_and_ps(fscal,cutoff_mask);
1262
1263	fscal = _mm_andnot_ps(dummy_mask,fscal);
1264
1265	/* Calculate temporary vectorial force */
1266	tx = _mm_mul_ps(fscal,dx33);
1267	ty = _mm_mul_ps(fscal,dy33);
1268	tz = _mm_mul_ps(fscal,dz33);
1269
1270	/* Update vectorial force */
1271	fix3 = _mm_add_ps(fix3,tx);
1272	fiy3 = _mm_add_ps(fiy3,ty);
1273	fiz3 = _mm_add_ps(fiz3,tz);
1274
1275	fjx3 = _mm_add_ps(fjx3,tx);
1276	fjy3 = _mm_add_ps(fjy3,ty);
1277	fjz3 = _mm_add_ps(fjz3,tz);
1278
1279	}
1280
1281	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1282	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1283	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1284	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1285
1286	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1287	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1288	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1289
1290	/* Inner loop uses 388 flops */
1291	}
1292
1293	/* End of innermost loop */
1294
1295	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1296	f+i_coord_offset,fshift+i_shift_offset);
1297
1298	ggid = gid[iidx];
1299	/* Update potential energies */
1300	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
1301	gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
1302
1303	/* Increment number of inner iterations */
1304	inneriter += j_index_end - j_index_start;
1305
1306	/* Outer loop uses 26 flops */
1307	}
1308
1309	/* Increment number of outer iterations */
1310	outeriter += nri;
1311
1312	/* Update outer/inner flops */
1313
1314	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_VF,outeriter26 + inneriter388)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_VF] += outeriter26 + inneriter388;
1315	}
1316	/*
1317	* Gromacs nonbonded kernel: nb_kernel_ElecRFCut_VdwCSTab_GeomW4W4_F_sse4_1_single
1318	* Electrostatics interaction: ReactionField
1319	* VdW interaction: CubicSplineTable
1320	* Geometry: Water4-Water4
1321	* Calculate force/pot: Force
1322	*/
1323	void
1324	nb_kernel_ElecRFCut_VdwCSTab_GeomW4W4_F_sse4_1_single
1325	(t_nblist * gmx_restrict nlist,
1326	rvec * gmx_restrict xx,
1327	rvec * gmx_restrict ff,
1328	t_forcerec * gmx_restrict fr,
1329	t_mdatoms * gmx_restrict mdatoms,
1330	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
1331	t_nrnb * gmx_restrict nrnb)
1332	{
1333	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
1334	* just 0 for non-waters.
1335	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
1336	* jnr indices corresponding to data put in the four positions in the SIMD register.
1337	*/
1338	int i_shift_offset,i_coord_offset,outeriter,inneriter;
1339	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
1340	int jnrA,jnrB,jnrC,jnrD;
1341	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
1342	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
1343	int iinr,jindex,jjnr,shiftidx,*gid;
1344	real rcutoff_scalar;
1345	real shiftvec,fshift,x,f;
1346	real fjptrA,fjptrB,fjptrC,fjptrD;
1347	real scratch[4*DIM3];
1348	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
1349	int vdwioffset0;
1350	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
1351	int vdwioffset1;
1352	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
1353	int vdwioffset2;
1354	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
1355	int vdwioffset3;
1356	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
1357	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
1358	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
1359	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
1360	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
1361	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
1362	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
1363	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
1364	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
1365	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
1366	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
1367	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
1368	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
1369	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
1370	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
1371	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
1372	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
1373	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
1374	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
1375	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
1376	real *charge;
1377	int nvdwtype;
1378	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
1379	int *vdwtype;
1380	real *vdwparam;
1381	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
1382	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
1383	__m128i vfitab;
1384	__m128i ifour = _mm_set1_epi32(4);
1385	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
1386	real *vftab;
1387	__m128 dummy_mask,cutoff_mask;
1388	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
1389	__m128 one = _mm_set1_ps(1.0);
1390	__m128 two = _mm_set1_ps(2.0);
1391	x = xx[0];
1392	f = ff[0];
1393
1394	nri = nlist->nri;
1395	iinr = nlist->iinr;
1396	jindex = nlist->jindex;
1397	jjnr = nlist->jjnr;
1398	shiftidx = nlist->shift;
1399	gid = nlist->gid;
1400	shiftvec = fr->shift_vec[0];
1401	fshift = fr->fshift[0];
1402	facel = _mm_set1_ps(fr->epsfac);
1403	charge = mdatoms->chargeA;
1404	krf = _mm_set1_ps(fr->ic->k_rf);
1405	krf2 = _mm_set1_ps(fr->ic->k_rf*2.0);
1406	crf = _mm_set1_ps(fr->ic->c_rf);
1407	nvdwtype = fr->ntype;
1408	vdwparam = fr->nbfp;
1409	vdwtype = mdatoms->typeA;
1410
1411	vftab = kernel_data->table_vdw->data;
1412	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
1413
1414	/* Setup water-specific parameters */
1415	inr = nlist->iinr[0];
1416	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
1417	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
1418	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
1419	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
1420
1421	jq1 = _mm_set1_ps(charge[inr+1]);
1422	jq2 = _mm_set1_ps(charge[inr+2]);
1423	jq3 = _mm_set1_ps(charge[inr+3]);
1424	vdwjidx0A = 2*vdwtype[inr+0];
1425	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
1426	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
1427	qq11 = _mm_mul_ps(iq1,jq1);
1428	qq12 = _mm_mul_ps(iq1,jq2);
1429	qq13 = _mm_mul_ps(iq1,jq3);
1430	qq21 = _mm_mul_ps(iq2,jq1);
1431	qq22 = _mm_mul_ps(iq2,jq2);
1432	qq23 = _mm_mul_ps(iq2,jq3);
1433	qq31 = _mm_mul_ps(iq3,jq1);
1434	qq32 = _mm_mul_ps(iq3,jq2);
1435	qq33 = _mm_mul_ps(iq3,jq3);
1436
1437	/* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
1438	rcutoff_scalar = fr->rcoulomb;
1439	rcutoff = _mm_set1_ps(rcutoff_scalar);
1440	rcutoff2 = _mm_mul_ps(rcutoff,rcutoff);
1441
1442	/* Avoid stupid compiler warnings */
1443	jnrA = jnrB = jnrC = jnrD = 0;
1444	j_coord_offsetA = 0;
1445	j_coord_offsetB = 0;
1446	j_coord_offsetC = 0;
1447	j_coord_offsetD = 0;
1448
1449	outeriter = 0;
1450	inneriter = 0;
1451
1452	for(iidx=0;iidx<4*DIM3;iidx++)
1453	{
1454	scratch[iidx] = 0.0;
1455	}
1456
1457	/* Start outer loop over neighborlists */
1458	for(iidx=0; iidx<nri; iidx++)
1459	{
1460	/* Load shift vector for this list */
1461	i_shift_offset = DIM3*shiftidx[iidx];
1462
1463	/* Load limits for loop over neighbors */
1464	j_index_start = jindex[iidx];
1465	j_index_end = jindex[iidx+1];
1466
1467	/* Get outer coordinate index */
1468	inr = iinr[iidx];
1469	i_coord_offset = DIM3*inr;
1470
1471	/* Load i particle coords and add shift vector */
1472	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
1473	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
1474
1475	fix0 = _mm_setzero_ps();
1476	fiy0 = _mm_setzero_ps();
1477	fiz0 = _mm_setzero_ps();
1478	fix1 = _mm_setzero_ps();
1479	fiy1 = _mm_setzero_ps();
1480	fiz1 = _mm_setzero_ps();
1481	fix2 = _mm_setzero_ps();
1482	fiy2 = _mm_setzero_ps();
1483	fiz2 = _mm_setzero_ps();
1484	fix3 = _mm_setzero_ps();
1485	fiy3 = _mm_setzero_ps();
1486	fiz3 = _mm_setzero_ps();
1487
1488	/* Start inner kernel loop */
1489	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1490	{
1491
1492	/* Get j neighbor index, and coordinate index */
1493	jnrA = jjnr[jidx];
1494	jnrB = jjnr[jidx+1];
1495	jnrC = jjnr[jidx+2];
1496	jnrD = jjnr[jidx+3];
1497	j_coord_offsetA = DIM3*jnrA;
1498	j_coord_offsetB = DIM3*jnrB;
1499	j_coord_offsetC = DIM3*jnrC;
1500	j_coord_offsetD = DIM3*jnrD;
1501
1502	/* load j atom coordinates */
1503	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1504	x+j_coord_offsetC,x+j_coord_offsetD,
1505	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1506	&jy2,&jz2,&jx3,&jy3,&jz3);
1507
1508	/* Calculate displacement vector */
1509	dx00 = _mm_sub_ps(ix0,jx0);
1510	dy00 = _mm_sub_ps(iy0,jy0);
1511	dz00 = _mm_sub_ps(iz0,jz0);
1512	dx11 = _mm_sub_ps(ix1,jx1);
1513	dy11 = _mm_sub_ps(iy1,jy1);
1514	dz11 = _mm_sub_ps(iz1,jz1);
1515	dx12 = _mm_sub_ps(ix1,jx2);
1516	dy12 = _mm_sub_ps(iy1,jy2);
1517	dz12 = _mm_sub_ps(iz1,jz2);
1518	dx13 = _mm_sub_ps(ix1,jx3);
1519	dy13 = _mm_sub_ps(iy1,jy3);
1520	dz13 = _mm_sub_ps(iz1,jz3);
1521	dx21 = _mm_sub_ps(ix2,jx1);
1522	dy21 = _mm_sub_ps(iy2,jy1);
1523	dz21 = _mm_sub_ps(iz2,jz1);
1524	dx22 = _mm_sub_ps(ix2,jx2);
1525	dy22 = _mm_sub_ps(iy2,jy2);
1526	dz22 = _mm_sub_ps(iz2,jz2);
1527	dx23 = _mm_sub_ps(ix2,jx3);
1528	dy23 = _mm_sub_ps(iy2,jy3);
1529	dz23 = _mm_sub_ps(iz2,jz3);
1530	dx31 = _mm_sub_ps(ix3,jx1);
1531	dy31 = _mm_sub_ps(iy3,jy1);
1532	dz31 = _mm_sub_ps(iz3,jz1);
1533	dx32 = _mm_sub_ps(ix3,jx2);
1534	dy32 = _mm_sub_ps(iy3,jy2);
1535	dz32 = _mm_sub_ps(iz3,jz2);
1536	dx33 = _mm_sub_ps(ix3,jx3);
1537	dy33 = _mm_sub_ps(iy3,jy3);
1538	dz33 = _mm_sub_ps(iz3,jz3);
1539
1540	/* Calculate squared distance and things based on it */
1541	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1542	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1543	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1544	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1545	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1546	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1547	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1548	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1549	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1550	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1551
1552	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1553	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1554	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1555	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
1556	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1557	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1558	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
1559	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
1560	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
1561	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
1562
1563	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1564	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1565	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
1566	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1567	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1568	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
1569	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
1570	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
1571	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
1572
1573	fjx0 = _mm_setzero_ps();
1574	fjy0 = _mm_setzero_ps();
1575	fjz0 = _mm_setzero_ps();
1576	fjx1 = _mm_setzero_ps();
1577	fjy1 = _mm_setzero_ps();
1578	fjz1 = _mm_setzero_ps();
1579	fjx2 = _mm_setzero_ps();
1580	fjy2 = _mm_setzero_ps();
1581	fjz2 = _mm_setzero_ps();
1582	fjx3 = _mm_setzero_ps();
1583	fjy3 = _mm_setzero_ps();
1584	fjz3 = _mm_setzero_ps();
1585
1586	/**************************
1587	* CALCULATE INTERACTIONS *
1588	**************************/
1589
1590	if (gmx_mm_any_lt(rsq00,rcutoff2))
1591	{
1592
1593	r00 = _mm_mul_ps(rsq00,rinv00);
1594
1595	/* Calculate table index by multiplying r with table scale and truncate to integer */
1596	rt = _mm_mul_ps(r00,vftabscale);
1597	vfitab = _mm_cvttps_epi32(rt);
1598	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1599	vfitab = _mm_slli_epi32(vfitab,3);
1600
1601	/* CUBIC SPLINE TABLE DISPERSION */
1602	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1603	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1604	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1605	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1606	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1607	Heps = _mm_mul_ps(vfeps,H);
1608	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1609	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1610	fvdw6 = _mm_mul_ps(c6_00,FF);
1611
1612	/* CUBIC SPLINE TABLE REPULSION */
1613	vfitab = _mm_add_epi32(vfitab,ifour);
1614	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1615	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1616	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1617	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1618	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1619	Heps = _mm_mul_ps(vfeps,H);
1620	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1621	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1622	fvdw12 = _mm_mul_ps(c12_00,FF);
1623	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
1624
1625	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
1626
1627	fscal = fvdw;
1628
1629	fscal = _mm_and_ps(fscal,cutoff_mask);
1630
1631	/* Calculate temporary vectorial force */
1632	tx = _mm_mul_ps(fscal,dx00);
1633	ty = _mm_mul_ps(fscal,dy00);
1634	tz = _mm_mul_ps(fscal,dz00);
1635
1636	/* Update vectorial force */
1637	fix0 = _mm_add_ps(fix0,tx);
1638	fiy0 = _mm_add_ps(fiy0,ty);
1639	fiz0 = _mm_add_ps(fiz0,tz);
1640
1641	fjx0 = _mm_add_ps(fjx0,tx);
1642	fjy0 = _mm_add_ps(fjy0,ty);
1643	fjz0 = _mm_add_ps(fjz0,tz);
1644
1645	}
1646
1647	/**************************
1648	* CALCULATE INTERACTIONS *
1649	**************************/
1650
1651	if (gmx_mm_any_lt(rsq11,rcutoff2))
1652	{
1653
1654	/* REACTION-FIELD ELECTROSTATICS */
1655	felec = _mm_mul_ps(qq11,_mm_sub_ps(_mm_mul_ps(rinv11,rinvsq11),krf2));
1656
1657	cutoff_mask = _mm_cmplt_ps(rsq11,rcutoff2);
1658
1659	fscal = felec;
1660
1661	fscal = _mm_and_ps(fscal,cutoff_mask);
1662
1663	/* Calculate temporary vectorial force */
1664	tx = _mm_mul_ps(fscal,dx11);
1665	ty = _mm_mul_ps(fscal,dy11);
1666	tz = _mm_mul_ps(fscal,dz11);
1667
1668	/* Update vectorial force */
1669	fix1 = _mm_add_ps(fix1,tx);
1670	fiy1 = _mm_add_ps(fiy1,ty);
1671	fiz1 = _mm_add_ps(fiz1,tz);
1672
1673	fjx1 = _mm_add_ps(fjx1,tx);
1674	fjy1 = _mm_add_ps(fjy1,ty);
1675	fjz1 = _mm_add_ps(fjz1,tz);
1676
1677	}
1678
1679	/**************************
1680	* CALCULATE INTERACTIONS *
1681	**************************/
1682
1683	if (gmx_mm_any_lt(rsq12,rcutoff2))
1684	{
1685
1686	/* REACTION-FIELD ELECTROSTATICS */
1687	felec = _mm_mul_ps(qq12,_mm_sub_ps(_mm_mul_ps(rinv12,rinvsq12),krf2));
1688
1689	cutoff_mask = _mm_cmplt_ps(rsq12,rcutoff2);
1690
1691	fscal = felec;
1692
1693	fscal = _mm_and_ps(fscal,cutoff_mask);
1694
1695	/* Calculate temporary vectorial force */
1696	tx = _mm_mul_ps(fscal,dx12);
1697	ty = _mm_mul_ps(fscal,dy12);
1698	tz = _mm_mul_ps(fscal,dz12);
1699
1700	/* Update vectorial force */
1701	fix1 = _mm_add_ps(fix1,tx);
1702	fiy1 = _mm_add_ps(fiy1,ty);
1703	fiz1 = _mm_add_ps(fiz1,tz);
1704
1705	fjx2 = _mm_add_ps(fjx2,tx);
1706	fjy2 = _mm_add_ps(fjy2,ty);
1707	fjz2 = _mm_add_ps(fjz2,tz);
1708
1709	}
1710
1711	/**************************
1712	* CALCULATE INTERACTIONS *
1713	**************************/
1714
1715	if (gmx_mm_any_lt(rsq13,rcutoff2))
1716	{
1717
1718	/* REACTION-FIELD ELECTROSTATICS */
1719	felec = _mm_mul_ps(qq13,_mm_sub_ps(_mm_mul_ps(rinv13,rinvsq13),krf2));
1720
1721	cutoff_mask = _mm_cmplt_ps(rsq13,rcutoff2);
1722
1723	fscal = felec;
1724
1725	fscal = _mm_and_ps(fscal,cutoff_mask);
1726
1727	/* Calculate temporary vectorial force */
1728	tx = _mm_mul_ps(fscal,dx13);
1729	ty = _mm_mul_ps(fscal,dy13);
1730	tz = _mm_mul_ps(fscal,dz13);
1731
1732	/* Update vectorial force */
1733	fix1 = _mm_add_ps(fix1,tx);
1734	fiy1 = _mm_add_ps(fiy1,ty);
1735	fiz1 = _mm_add_ps(fiz1,tz);
1736
1737	fjx3 = _mm_add_ps(fjx3,tx);
1738	fjy3 = _mm_add_ps(fjy3,ty);
1739	fjz3 = _mm_add_ps(fjz3,tz);
1740
1741	}
1742
1743	/**************************
1744	* CALCULATE INTERACTIONS *
1745	**************************/
1746
1747	if (gmx_mm_any_lt(rsq21,rcutoff2))
1748	{
1749
1750	/* REACTION-FIELD ELECTROSTATICS */
1751	felec = _mm_mul_ps(qq21,_mm_sub_ps(_mm_mul_ps(rinv21,rinvsq21),krf2));
1752
1753	cutoff_mask = _mm_cmplt_ps(rsq21,rcutoff2);
1754
1755	fscal = felec;
1756
1757	fscal = _mm_and_ps(fscal,cutoff_mask);
1758
1759	/* Calculate temporary vectorial force */
1760	tx = _mm_mul_ps(fscal,dx21);
1761	ty = _mm_mul_ps(fscal,dy21);
1762	tz = _mm_mul_ps(fscal,dz21);
1763
1764	/* Update vectorial force */
1765	fix2 = _mm_add_ps(fix2,tx);
1766	fiy2 = _mm_add_ps(fiy2,ty);
1767	fiz2 = _mm_add_ps(fiz2,tz);
1768
1769	fjx1 = _mm_add_ps(fjx1,tx);
1770	fjy1 = _mm_add_ps(fjy1,ty);
1771	fjz1 = _mm_add_ps(fjz1,tz);
1772
1773	}
1774
1775	/**************************
1776	* CALCULATE INTERACTIONS *
1777	**************************/
1778
1779	if (gmx_mm_any_lt(rsq22,rcutoff2))
1780	{
1781
1782	/* REACTION-FIELD ELECTROSTATICS */
1783	felec = _mm_mul_ps(qq22,_mm_sub_ps(_mm_mul_ps(rinv22,rinvsq22),krf2));
1784
1785	cutoff_mask = _mm_cmplt_ps(rsq22,rcutoff2);
1786
1787	fscal = felec;
1788
1789	fscal = _mm_and_ps(fscal,cutoff_mask);
1790
1791	/* Calculate temporary vectorial force */
1792	tx = _mm_mul_ps(fscal,dx22);
1793	ty = _mm_mul_ps(fscal,dy22);
1794	tz = _mm_mul_ps(fscal,dz22);
1795
1796	/* Update vectorial force */
1797	fix2 = _mm_add_ps(fix2,tx);
1798	fiy2 = _mm_add_ps(fiy2,ty);
1799	fiz2 = _mm_add_ps(fiz2,tz);
1800
1801	fjx2 = _mm_add_ps(fjx2,tx);
1802	fjy2 = _mm_add_ps(fjy2,ty);
1803	fjz2 = _mm_add_ps(fjz2,tz);
1804
1805	}
1806
1807	/**************************
1808	* CALCULATE INTERACTIONS *
1809	**************************/
1810
1811	if (gmx_mm_any_lt(rsq23,rcutoff2))
1812	{
1813
1814	/* REACTION-FIELD ELECTROSTATICS */
1815	felec = _mm_mul_ps(qq23,_mm_sub_ps(_mm_mul_ps(rinv23,rinvsq23),krf2));
1816
1817	cutoff_mask = _mm_cmplt_ps(rsq23,rcutoff2);
1818
1819	fscal = felec;
1820
1821	fscal = _mm_and_ps(fscal,cutoff_mask);
1822
1823	/* Calculate temporary vectorial force */
1824	tx = _mm_mul_ps(fscal,dx23);
1825	ty = _mm_mul_ps(fscal,dy23);
1826	tz = _mm_mul_ps(fscal,dz23);
1827
1828	/* Update vectorial force */
1829	fix2 = _mm_add_ps(fix2,tx);
1830	fiy2 = _mm_add_ps(fiy2,ty);
1831	fiz2 = _mm_add_ps(fiz2,tz);
1832
1833	fjx3 = _mm_add_ps(fjx3,tx);
1834	fjy3 = _mm_add_ps(fjy3,ty);
1835	fjz3 = _mm_add_ps(fjz3,tz);
1836
1837	}
1838
1839	/**************************
1840	* CALCULATE INTERACTIONS *
1841	**************************/
1842
1843	if (gmx_mm_any_lt(rsq31,rcutoff2))
1844	{
1845
1846	/* REACTION-FIELD ELECTROSTATICS */
1847	felec = _mm_mul_ps(qq31,_mm_sub_ps(_mm_mul_ps(rinv31,rinvsq31),krf2));
1848
1849	cutoff_mask = _mm_cmplt_ps(rsq31,rcutoff2);
1850
1851	fscal = felec;
1852
1853	fscal = _mm_and_ps(fscal,cutoff_mask);
1854
1855	/* Calculate temporary vectorial force */
1856	tx = _mm_mul_ps(fscal,dx31);
1857	ty = _mm_mul_ps(fscal,dy31);
1858	tz = _mm_mul_ps(fscal,dz31);
1859
1860	/* Update vectorial force */
1861	fix3 = _mm_add_ps(fix3,tx);
1862	fiy3 = _mm_add_ps(fiy3,ty);
1863	fiz3 = _mm_add_ps(fiz3,tz);
1864
1865	fjx1 = _mm_add_ps(fjx1,tx);
1866	fjy1 = _mm_add_ps(fjy1,ty);
1867	fjz1 = _mm_add_ps(fjz1,tz);
1868
1869	}
1870
1871	/**************************
1872	* CALCULATE INTERACTIONS *
1873	**************************/
1874
1875	if (gmx_mm_any_lt(rsq32,rcutoff2))
1876	{
1877
1878	/* REACTION-FIELD ELECTROSTATICS */
1879	felec = _mm_mul_ps(qq32,_mm_sub_ps(_mm_mul_ps(rinv32,rinvsq32),krf2));
1880
1881	cutoff_mask = _mm_cmplt_ps(rsq32,rcutoff2);
1882
1883	fscal = felec;
1884
1885	fscal = _mm_and_ps(fscal,cutoff_mask);
1886
1887	/* Calculate temporary vectorial force */
1888	tx = _mm_mul_ps(fscal,dx32);
1889	ty = _mm_mul_ps(fscal,dy32);
1890	tz = _mm_mul_ps(fscal,dz32);
1891
1892	/* Update vectorial force */
1893	fix3 = _mm_add_ps(fix3,tx);
1894	fiy3 = _mm_add_ps(fiy3,ty);
1895	fiz3 = _mm_add_ps(fiz3,tz);
1896
1897	fjx2 = _mm_add_ps(fjx2,tx);
1898	fjy2 = _mm_add_ps(fjy2,ty);
1899	fjz2 = _mm_add_ps(fjz2,tz);
1900
1901	}
1902
1903	/**************************
1904	* CALCULATE INTERACTIONS *
1905	**************************/
1906
1907	if (gmx_mm_any_lt(rsq33,rcutoff2))
1908	{
1909
1910	/* REACTION-FIELD ELECTROSTATICS */
1911	felec = _mm_mul_ps(qq33,_mm_sub_ps(_mm_mul_ps(rinv33,rinvsq33),krf2));
1912
1913	cutoff_mask = _mm_cmplt_ps(rsq33,rcutoff2);
1914
1915	fscal = felec;
1916
1917	fscal = _mm_and_ps(fscal,cutoff_mask);
1918
1919	/* Calculate temporary vectorial force */
1920	tx = _mm_mul_ps(fscal,dx33);
1921	ty = _mm_mul_ps(fscal,dy33);
1922	tz = _mm_mul_ps(fscal,dz33);
1923
1924	/* Update vectorial force */
1925	fix3 = _mm_add_ps(fix3,tx);
1926	fiy3 = _mm_add_ps(fiy3,ty);
1927	fiz3 = _mm_add_ps(fiz3,tz);
1928
1929	fjx3 = _mm_add_ps(fjx3,tx);
1930	fjy3 = _mm_add_ps(fjy3,ty);
1931	fjz3 = _mm_add_ps(fjz3,tz);
1932
1933	}
1934
1935	fjptrA = f+j_coord_offsetA;
1936	fjptrB = f+j_coord_offsetB;
1937	fjptrC = f+j_coord_offsetC;
1938	fjptrD = f+j_coord_offsetD;
1939
1940	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1941	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1942	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1943
1944	/* Inner loop uses 324 flops */
1945	}
1946
1947	if(jidx<j_index_end)
1948	{
1949
1950	/* Get j neighbor index, and coordinate index */
1951	jnrlistA = jjnr[jidx];
1952	jnrlistB = jjnr[jidx+1];
1953	jnrlistC = jjnr[jidx+2];
1954	jnrlistD = jjnr[jidx+3];
1955	/* Sign of each element will be negative for non-real atoms.
1956	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1957	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1958	*/
1959	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1960	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
1961	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
1962	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
1963	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
1964	j_coord_offsetA = DIM3*jnrA;
1965	j_coord_offsetB = DIM3*jnrB;
1966	j_coord_offsetC = DIM3*jnrC;
1967	j_coord_offsetD = DIM3*jnrD;
1968
1969	/* load j atom coordinates */
1970	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1971	x+j_coord_offsetC,x+j_coord_offsetD,
1972	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1973	&jy2,&jz2,&jx3,&jy3,&jz3);
1974
1975	/* Calculate displacement vector */
1976	dx00 = _mm_sub_ps(ix0,jx0);
1977	dy00 = _mm_sub_ps(iy0,jy0);
1978	dz00 = _mm_sub_ps(iz0,jz0);
1979	dx11 = _mm_sub_ps(ix1,jx1);
1980	dy11 = _mm_sub_ps(iy1,jy1);
1981	dz11 = _mm_sub_ps(iz1,jz1);
1982	dx12 = _mm_sub_ps(ix1,jx2);
1983	dy12 = _mm_sub_ps(iy1,jy2);
1984	dz12 = _mm_sub_ps(iz1,jz2);
1985	dx13 = _mm_sub_ps(ix1,jx3);
1986	dy13 = _mm_sub_ps(iy1,jy3);
1987	dz13 = _mm_sub_ps(iz1,jz3);
1988	dx21 = _mm_sub_ps(ix2,jx1);
1989	dy21 = _mm_sub_ps(iy2,jy1);
1990	dz21 = _mm_sub_ps(iz2,jz1);
1991	dx22 = _mm_sub_ps(ix2,jx2);
1992	dy22 = _mm_sub_ps(iy2,jy2);
1993	dz22 = _mm_sub_ps(iz2,jz2);
1994	dx23 = _mm_sub_ps(ix2,jx3);
1995	dy23 = _mm_sub_ps(iy2,jy3);
1996	dz23 = _mm_sub_ps(iz2,jz3);
1997	dx31 = _mm_sub_ps(ix3,jx1);
1998	dy31 = _mm_sub_ps(iy3,jy1);
1999	dz31 = _mm_sub_ps(iz3,jz1);
2000	dx32 = _mm_sub_ps(ix3,jx2);
2001	dy32 = _mm_sub_ps(iy3,jy2);
2002	dz32 = _mm_sub_ps(iz3,jz2);
2003	dx33 = _mm_sub_ps(ix3,jx3);
2004	dy33 = _mm_sub_ps(iy3,jy3);
2005	dz33 = _mm_sub_ps(iz3,jz3);
2006
2007	/* Calculate squared distance and things based on it */
2008	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
2009	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
2010	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
2011	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
2012	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
2013	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
2014	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
2015	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
2016	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
2017	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
2018
2019	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
2020	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
2021	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
2022	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
2023	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
2024	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
2025	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
2026	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
2027	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
2028	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
2029
2030	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
2031	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
2032	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
2033	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
2034	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
2035	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
2036	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
2037	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
2038	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
2039
2040	fjx0 = _mm_setzero_ps();
2041	fjy0 = _mm_setzero_ps();
2042	fjz0 = _mm_setzero_ps();
2043	fjx1 = _mm_setzero_ps();
2044	fjy1 = _mm_setzero_ps();
2045	fjz1 = _mm_setzero_ps();
2046	fjx2 = _mm_setzero_ps();
2047	fjy2 = _mm_setzero_ps();
2048	fjz2 = _mm_setzero_ps();
2049	fjx3 = _mm_setzero_ps();
2050	fjy3 = _mm_setzero_ps();
2051	fjz3 = _mm_setzero_ps();
2052
2053	/**************************
2054	* CALCULATE INTERACTIONS *
2055	**************************/
2056
2057	if (gmx_mm_any_lt(rsq00,rcutoff2))
2058	{
2059
2060	r00 = _mm_mul_ps(rsq00,rinv00);
2061	r00 = _mm_andnot_ps(dummy_mask,r00);
2062
2063	/* Calculate table index by multiplying r with table scale and truncate to integer */
2064	rt = _mm_mul_ps(r00,vftabscale);
2065	vfitab = _mm_cvttps_epi32(rt);
2066	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2067	vfitab = _mm_slli_epi32(vfitab,3);
2068
2069	/* CUBIC SPLINE TABLE DISPERSION */
2070	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
2071	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
2072	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
2073	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
2074	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
2075	Heps = _mm_mul_ps(vfeps,H);
2076	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
2077	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
2078	fvdw6 = _mm_mul_ps(c6_00,FF);
2079
2080	/* CUBIC SPLINE TABLE REPULSION */
2081	vfitab = _mm_add_epi32(vfitab,ifour);
2082	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
2083	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
2084	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
2085	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
2086	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
2087	Heps = _mm_mul_ps(vfeps,H);
2088	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
2089	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
2090	fvdw12 = _mm_mul_ps(c12_00,FF);
2091	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
2092
2093	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
2094
2095	fscal = fvdw;
2096
2097	fscal = _mm_and_ps(fscal,cutoff_mask);
2098
2099	fscal = _mm_andnot_ps(dummy_mask,fscal);
2100
2101	/* Calculate temporary vectorial force */
2102	tx = _mm_mul_ps(fscal,dx00);
2103	ty = _mm_mul_ps(fscal,dy00);
2104	tz = _mm_mul_ps(fscal,dz00);
2105
2106	/* Update vectorial force */
2107	fix0 = _mm_add_ps(fix0,tx);
2108	fiy0 = _mm_add_ps(fiy0,ty);
2109	fiz0 = _mm_add_ps(fiz0,tz);
2110
2111	fjx0 = _mm_add_ps(fjx0,tx);
2112	fjy0 = _mm_add_ps(fjy0,ty);
2113	fjz0 = _mm_add_ps(fjz0,tz);
2114
2115	}
2116
2117	/**************************
2118	* CALCULATE INTERACTIONS *
2119	**************************/
2120
2121	if (gmx_mm_any_lt(rsq11,rcutoff2))
2122	{
2123
2124	/* REACTION-FIELD ELECTROSTATICS */
2125	felec = _mm_mul_ps(qq11,_mm_sub_ps(_mm_mul_ps(rinv11,rinvsq11),krf2));
2126
2127	cutoff_mask = _mm_cmplt_ps(rsq11,rcutoff2);
2128
2129	fscal = felec;
2130
2131	fscal = _mm_and_ps(fscal,cutoff_mask);
2132
2133	fscal = _mm_andnot_ps(dummy_mask,fscal);
2134
2135	/* Calculate temporary vectorial force */
2136	tx = _mm_mul_ps(fscal,dx11);
2137	ty = _mm_mul_ps(fscal,dy11);
2138	tz = _mm_mul_ps(fscal,dz11);
2139
2140	/* Update vectorial force */
2141	fix1 = _mm_add_ps(fix1,tx);
2142	fiy1 = _mm_add_ps(fiy1,ty);
2143	fiz1 = _mm_add_ps(fiz1,tz);
2144
2145	fjx1 = _mm_add_ps(fjx1,tx);
2146	fjy1 = _mm_add_ps(fjy1,ty);
2147	fjz1 = _mm_add_ps(fjz1,tz);
2148
2149	}
2150
2151	/**************************
2152	* CALCULATE INTERACTIONS *
2153	**************************/
2154
2155	if (gmx_mm_any_lt(rsq12,rcutoff2))
2156	{
2157
2158	/* REACTION-FIELD ELECTROSTATICS */
2159	felec = _mm_mul_ps(qq12,_mm_sub_ps(_mm_mul_ps(rinv12,rinvsq12),krf2));
2160
2161	cutoff_mask = _mm_cmplt_ps(rsq12,rcutoff2);
2162
2163	fscal = felec;
2164
2165	fscal = _mm_and_ps(fscal,cutoff_mask);
2166
2167	fscal = _mm_andnot_ps(dummy_mask,fscal);
2168
2169	/* Calculate temporary vectorial force */
2170	tx = _mm_mul_ps(fscal,dx12);
2171	ty = _mm_mul_ps(fscal,dy12);
2172	tz = _mm_mul_ps(fscal,dz12);
2173
2174	/* Update vectorial force */
2175	fix1 = _mm_add_ps(fix1,tx);
2176	fiy1 = _mm_add_ps(fiy1,ty);
2177	fiz1 = _mm_add_ps(fiz1,tz);
2178
2179	fjx2 = _mm_add_ps(fjx2,tx);
2180	fjy2 = _mm_add_ps(fjy2,ty);
2181	fjz2 = _mm_add_ps(fjz2,tz);
2182
2183	}
2184
2185	/**************************
2186	* CALCULATE INTERACTIONS *
2187	**************************/
2188
2189	if (gmx_mm_any_lt(rsq13,rcutoff2))
2190	{
2191
2192	/* REACTION-FIELD ELECTROSTATICS */
2193	felec = _mm_mul_ps(qq13,_mm_sub_ps(_mm_mul_ps(rinv13,rinvsq13),krf2));
2194
2195	cutoff_mask = _mm_cmplt_ps(rsq13,rcutoff2);
2196
2197	fscal = felec;
2198
2199	fscal = _mm_and_ps(fscal,cutoff_mask);
2200
2201	fscal = _mm_andnot_ps(dummy_mask,fscal);
2202
2203	/* Calculate temporary vectorial force */
2204	tx = _mm_mul_ps(fscal,dx13);
2205	ty = _mm_mul_ps(fscal,dy13);
2206	tz = _mm_mul_ps(fscal,dz13);
2207
2208	/* Update vectorial force */
2209	fix1 = _mm_add_ps(fix1,tx);
2210	fiy1 = _mm_add_ps(fiy1,ty);
2211	fiz1 = _mm_add_ps(fiz1,tz);
2212
2213	fjx3 = _mm_add_ps(fjx3,tx);
2214	fjy3 = _mm_add_ps(fjy3,ty);
2215	fjz3 = _mm_add_ps(fjz3,tz);
2216
2217	}
2218
2219	/**************************
2220	* CALCULATE INTERACTIONS *
2221	**************************/
2222
2223	if (gmx_mm_any_lt(rsq21,rcutoff2))
2224	{
2225
2226	/* REACTION-FIELD ELECTROSTATICS */
2227	felec = _mm_mul_ps(qq21,_mm_sub_ps(_mm_mul_ps(rinv21,rinvsq21),krf2));
2228
2229	cutoff_mask = _mm_cmplt_ps(rsq21,rcutoff2);
2230
2231	fscal = felec;
2232
2233	fscal = _mm_and_ps(fscal,cutoff_mask);
2234
2235	fscal = _mm_andnot_ps(dummy_mask,fscal);
2236
2237	/* Calculate temporary vectorial force */
2238	tx = _mm_mul_ps(fscal,dx21);
2239	ty = _mm_mul_ps(fscal,dy21);
2240	tz = _mm_mul_ps(fscal,dz21);
2241
2242	/* Update vectorial force */
2243	fix2 = _mm_add_ps(fix2,tx);
2244	fiy2 = _mm_add_ps(fiy2,ty);
2245	fiz2 = _mm_add_ps(fiz2,tz);
2246
2247	fjx1 = _mm_add_ps(fjx1,tx);
2248	fjy1 = _mm_add_ps(fjy1,ty);
2249	fjz1 = _mm_add_ps(fjz1,tz);
2250
2251	}
2252
2253	/**************************
2254	* CALCULATE INTERACTIONS *
2255	**************************/
2256
2257	if (gmx_mm_any_lt(rsq22,rcutoff2))
2258	{
2259
2260	/* REACTION-FIELD ELECTROSTATICS */
2261	felec = _mm_mul_ps(qq22,_mm_sub_ps(_mm_mul_ps(rinv22,rinvsq22),krf2));
2262
2263	cutoff_mask = _mm_cmplt_ps(rsq22,rcutoff2);
2264
2265	fscal = felec;
2266
2267	fscal = _mm_and_ps(fscal,cutoff_mask);
2268
2269	fscal = _mm_andnot_ps(dummy_mask,fscal);
2270
2271	/* Calculate temporary vectorial force */
2272	tx = _mm_mul_ps(fscal,dx22);
2273	ty = _mm_mul_ps(fscal,dy22);
2274	tz = _mm_mul_ps(fscal,dz22);
2275
2276	/* Update vectorial force */
2277	fix2 = _mm_add_ps(fix2,tx);
2278	fiy2 = _mm_add_ps(fiy2,ty);
2279	fiz2 = _mm_add_ps(fiz2,tz);
2280
2281	fjx2 = _mm_add_ps(fjx2,tx);
2282	fjy2 = _mm_add_ps(fjy2,ty);
2283	fjz2 = _mm_add_ps(fjz2,tz);
2284
2285	}
2286
2287	/**************************
2288	* CALCULATE INTERACTIONS *
2289	**************************/
2290
2291	if (gmx_mm_any_lt(rsq23,rcutoff2))
2292	{
2293
2294	/* REACTION-FIELD ELECTROSTATICS */
2295	felec = _mm_mul_ps(qq23,_mm_sub_ps(_mm_mul_ps(rinv23,rinvsq23),krf2));
2296
2297	cutoff_mask = _mm_cmplt_ps(rsq23,rcutoff2);
2298
2299	fscal = felec;
2300
2301	fscal = _mm_and_ps(fscal,cutoff_mask);
2302
2303	fscal = _mm_andnot_ps(dummy_mask,fscal);
2304
2305	/* Calculate temporary vectorial force */
2306	tx = _mm_mul_ps(fscal,dx23);
2307	ty = _mm_mul_ps(fscal,dy23);
2308	tz = _mm_mul_ps(fscal,dz23);
2309
2310	/* Update vectorial force */
2311	fix2 = _mm_add_ps(fix2,tx);
2312	fiy2 = _mm_add_ps(fiy2,ty);
2313	fiz2 = _mm_add_ps(fiz2,tz);
2314
2315	fjx3 = _mm_add_ps(fjx3,tx);
2316	fjy3 = _mm_add_ps(fjy3,ty);
2317	fjz3 = _mm_add_ps(fjz3,tz);
2318
2319	}
2320
2321	/**************************
2322	* CALCULATE INTERACTIONS *
2323	**************************/
2324
2325	if (gmx_mm_any_lt(rsq31,rcutoff2))
2326	{
2327
2328	/* REACTION-FIELD ELECTROSTATICS */
2329	felec = _mm_mul_ps(qq31,_mm_sub_ps(_mm_mul_ps(rinv31,rinvsq31),krf2));
2330
2331	cutoff_mask = _mm_cmplt_ps(rsq31,rcutoff2);
2332
2333	fscal = felec;
2334
2335	fscal = _mm_and_ps(fscal,cutoff_mask);
2336
2337	fscal = _mm_andnot_ps(dummy_mask,fscal);
2338
2339	/* Calculate temporary vectorial force */
2340	tx = _mm_mul_ps(fscal,dx31);
2341	ty = _mm_mul_ps(fscal,dy31);
2342	tz = _mm_mul_ps(fscal,dz31);
2343
2344	/* Update vectorial force */
2345	fix3 = _mm_add_ps(fix3,tx);
2346	fiy3 = _mm_add_ps(fiy3,ty);
2347	fiz3 = _mm_add_ps(fiz3,tz);
2348
2349	fjx1 = _mm_add_ps(fjx1,tx);
2350	fjy1 = _mm_add_ps(fjy1,ty);
2351	fjz1 = _mm_add_ps(fjz1,tz);
2352
2353	}
2354
2355	/**************************
2356	* CALCULATE INTERACTIONS *
2357	**************************/
2358
2359	if (gmx_mm_any_lt(rsq32,rcutoff2))
2360	{
2361
2362	/* REACTION-FIELD ELECTROSTATICS */
2363	felec = _mm_mul_ps(qq32,_mm_sub_ps(_mm_mul_ps(rinv32,rinvsq32),krf2));
2364
2365	cutoff_mask = _mm_cmplt_ps(rsq32,rcutoff2);
2366
2367	fscal = felec;
2368
2369	fscal = _mm_and_ps(fscal,cutoff_mask);
2370
2371	fscal = _mm_andnot_ps(dummy_mask,fscal);
2372
2373	/* Calculate temporary vectorial force */
2374	tx = _mm_mul_ps(fscal,dx32);
2375	ty = _mm_mul_ps(fscal,dy32);
2376	tz = _mm_mul_ps(fscal,dz32);
2377
2378	/* Update vectorial force */
2379	fix3 = _mm_add_ps(fix3,tx);
2380	fiy3 = _mm_add_ps(fiy3,ty);
2381	fiz3 = _mm_add_ps(fiz3,tz);
2382
2383	fjx2 = _mm_add_ps(fjx2,tx);
2384	fjy2 = _mm_add_ps(fjy2,ty);
2385	fjz2 = _mm_add_ps(fjz2,tz);
2386
2387	}
2388
2389	/**************************
2390	* CALCULATE INTERACTIONS *
2391	**************************/
2392
2393	if (gmx_mm_any_lt(rsq33,rcutoff2))
2394	{
2395
2396	/* REACTION-FIELD ELECTROSTATICS */
2397	felec = _mm_mul_ps(qq33,_mm_sub_ps(_mm_mul_ps(rinv33,rinvsq33),krf2));
2398
2399	cutoff_mask = _mm_cmplt_ps(rsq33,rcutoff2);
2400
2401	fscal = felec;
2402
2403	fscal = _mm_and_ps(fscal,cutoff_mask);
2404
2405	fscal = _mm_andnot_ps(dummy_mask,fscal);
2406
2407	/* Calculate temporary vectorial force */
2408	tx = _mm_mul_ps(fscal,dx33);
2409	ty = _mm_mul_ps(fscal,dy33);
2410	tz = _mm_mul_ps(fscal,dz33);
2411
2412	/* Update vectorial force */
2413	fix3 = _mm_add_ps(fix3,tx);
2414	fiy3 = _mm_add_ps(fiy3,ty);
2415	fiz3 = _mm_add_ps(fiz3,tz);
2416
2417	fjx3 = _mm_add_ps(fjx3,tx);
2418	fjy3 = _mm_add_ps(fjy3,ty);
2419	fjz3 = _mm_add_ps(fjz3,tz);
2420
2421	}
2422
2423	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
2424	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
2425	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
2426	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
2427
2428	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
2429	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
2430	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
2431
2432	/* Inner loop uses 325 flops */
2433	}
2434
2435	/* End of innermost loop */
2436
2437	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
2438	f+i_coord_offset,fshift+i_shift_offset);
2439
2440	/* Increment number of inner iterations */
2441	inneriter += j_index_end - j_index_start;
2442
2443	/* Outer loop uses 24 flops */
2444	}
2445
2446	/* Increment number of outer iterations */
2447	outeriter += nri;
2448
2449	/* Update outer/inner flops */
2450
2451	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_F,outeriter24 + inneriter325)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_F] += outeriter24 + inneriter 325;
2452	}