/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwLJ_GeomW3P1_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwLJ_GeomW3P1_sse4_1_single.c
Location:	line 143, column 5
Description:	Value stored to 'j_coord_offsetB' is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwLJ_GeomW3P1_VF_sse4_1_single
54	* Electrostatics interaction: Ewald
55	* VdW interaction: LennardJones
56	* Geometry: Water3-Particle
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecEw_VdwLJ_GeomW3P1_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
92	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
93	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
94	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
95	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
96	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
97	real *charge;
98	int nvdwtype;
99	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
100	int *vdwtype;
101	real *vdwparam;
102	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
103	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
104	__m128i ewitab;
105	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
106	real *ewtab;
107	__m128 dummy_mask,cutoff_mask;
108	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
109	__m128 one = _mm_set1_ps(1.0);
110	__m128 two = _mm_set1_ps(2.0);
111	x = xx[0];
112	f = ff[0];
113
114	nri = nlist->nri;
115	iinr = nlist->iinr;
116	jindex = nlist->jindex;
117	jjnr = nlist->jjnr;
118	shiftidx = nlist->shift;
119	gid = nlist->gid;
120	shiftvec = fr->shift_vec[0];
121	fshift = fr->fshift[0];
122	facel = _mm_set1_ps(fr->epsfac);
123	charge = mdatoms->chargeA;
124	nvdwtype = fr->ntype;
125	vdwparam = fr->nbfp;
126	vdwtype = mdatoms->typeA;
127
128	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
129	ewtab = fr->ic->tabq_coul_FDV0;
130	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
131	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
132
133	/* Setup water-specific parameters */
134	inr = nlist->iinr[0];
135	iq0 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
136	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
137	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
138	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
139
140	/* Avoid stupid compiler warnings */
141	jnrA = jnrB = jnrC = jnrD = 0;
142	j_coord_offsetA = 0;
143	j_coord_offsetB = 0;
	Value stored to 'j_coord_offsetB' is never read
144	j_coord_offsetC = 0;
145	j_coord_offsetD = 0;
146
147	outeriter = 0;
148	inneriter = 0;
149
150	for(iidx=0;iidx<4*DIM3;iidx++)
151	{
152	scratch[iidx] = 0.0;
153	}
154
155	/* Start outer loop over neighborlists */
156	for(iidx=0; iidx<nri; iidx++)
157	{
158	/* Load shift vector for this list */
159	i_shift_offset = DIM3*shiftidx[iidx];
160
161	/* Load limits for loop over neighbors */
162	j_index_start = jindex[iidx];
163	j_index_end = jindex[iidx+1];
164
165	/* Get outer coordinate index */
166	inr = iinr[iidx];
167	i_coord_offset = DIM3*inr;
168
169	/* Load i particle coords and add shift vector */
170	gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
171	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
172
173	fix0 = _mm_setzero_ps();
174	fiy0 = _mm_setzero_ps();
175	fiz0 = _mm_setzero_ps();
176	fix1 = _mm_setzero_ps();
177	fiy1 = _mm_setzero_ps();
178	fiz1 = _mm_setzero_ps();
179	fix2 = _mm_setzero_ps();
180	fiy2 = _mm_setzero_ps();
181	fiz2 = _mm_setzero_ps();
182
183	/* Reset potential sums */
184	velecsum = _mm_setzero_ps();
185	vvdwsum = _mm_setzero_ps();
186
187	/* Start inner kernel loop */
188	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
189	{
190
191	/* Get j neighbor index, and coordinate index */
192	jnrA = jjnr[jidx];
193	jnrB = jjnr[jidx+1];
194	jnrC = jjnr[jidx+2];
195	jnrD = jjnr[jidx+3];
196	j_coord_offsetA = DIM3*jnrA;
197	j_coord_offsetB = DIM3*jnrB;
198	j_coord_offsetC = DIM3*jnrC;
199	j_coord_offsetD = DIM3*jnrD;
200
201	/* load j atom coordinates */
202	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
203	x+j_coord_offsetC,x+j_coord_offsetD,
204	&jx0,&jy0,&jz0);
205
206	/* Calculate displacement vector */
207	dx00 = _mm_sub_ps(ix0,jx0);
208	dy00 = _mm_sub_ps(iy0,jy0);
209	dz00 = _mm_sub_ps(iz0,jz0);
210	dx10 = _mm_sub_ps(ix1,jx0);
211	dy10 = _mm_sub_ps(iy1,jy0);
212	dz10 = _mm_sub_ps(iz1,jz0);
213	dx20 = _mm_sub_ps(ix2,jx0);
214	dy20 = _mm_sub_ps(iy2,jy0);
215	dz20 = _mm_sub_ps(iz2,jz0);
216
217	/* Calculate squared distance and things based on it */
218	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
219	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
220	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
221
222	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
223	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
224	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
225
226	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
227	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
228	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
229
230	/* Load parameters for j particles */
231	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
232	charge+jnrC+0,charge+jnrD+0);
233	vdwjidx0A = 2*vdwtype[jnrA+0];
234	vdwjidx0B = 2*vdwtype[jnrB+0];
235	vdwjidx0C = 2*vdwtype[jnrC+0];
236	vdwjidx0D = 2*vdwtype[jnrD+0];
237
238	fjx0 = _mm_setzero_ps();
239	fjy0 = _mm_setzero_ps();
240	fjz0 = _mm_setzero_ps();
241
242	/**************************
243	* CALCULATE INTERACTIONS *
244	**************************/
245
246	r00 = _mm_mul_ps(rsq00,rinv00);
247
248	/* Compute parameters for interactions between i and j atoms */
249	qq00 = _mm_mul_ps(iq0,jq0);
250	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
251	vdwparam+vdwioffset0+vdwjidx0B,
252	vdwparam+vdwioffset0+vdwjidx0C,
253	vdwparam+vdwioffset0+vdwjidx0D,
254	&c6_00,&c12_00);
255
256	/* EWALD ELECTROSTATICS */
257
258	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
259	ewrt = _mm_mul_ps(r00,ewtabscale);
260	ewitab = _mm_cvttps_epi32(ewrt);
261	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
262	ewitab = _mm_slli_epi32(ewitab,2);
263	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
264	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
265	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
266	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
267	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
268	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
269	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
270	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
271	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
272
273	/* LENNARD-JONES DISPERSION/REPULSION */
274
275	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
276	vvdw6 = _mm_mul_ps(c6_00,rinvsix);
277	vvdw12 = _mm_mul_ps(c12_00,_mm_mul_ps(rinvsix,rinvsix));
278	vvdw = _mm_sub_ps( _mm_mul_ps(vvdw12,one_twelfth) , _mm_mul_ps(vvdw6,one_sixth) );
279	fvdw = _mm_mul_ps(_mm_sub_ps(vvdw12,vvdw6),rinvsq00);
280
281	/* Update potential sum for this i atom from the interaction with this j atom. */
282	velecsum = _mm_add_ps(velecsum,velec);
283	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
284
285	fscal = _mm_add_ps(felec,fvdw);
286
287	/* Calculate temporary vectorial force */
288	tx = _mm_mul_ps(fscal,dx00);
289	ty = _mm_mul_ps(fscal,dy00);
290	tz = _mm_mul_ps(fscal,dz00);
291
292	/* Update vectorial force */
293	fix0 = _mm_add_ps(fix0,tx);
294	fiy0 = _mm_add_ps(fiy0,ty);
295	fiz0 = _mm_add_ps(fiz0,tz);
296
297	fjx0 = _mm_add_ps(fjx0,tx);
298	fjy0 = _mm_add_ps(fjy0,ty);
299	fjz0 = _mm_add_ps(fjz0,tz);
300
301	/**************************
302	* CALCULATE INTERACTIONS *
303	**************************/
304
305	r10 = _mm_mul_ps(rsq10,rinv10);
306
307	/* Compute parameters for interactions between i and j atoms */
308	qq10 = _mm_mul_ps(iq1,jq0);
309
310	/* EWALD ELECTROSTATICS */
311
312	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
313	ewrt = _mm_mul_ps(r10,ewtabscale);
314	ewitab = _mm_cvttps_epi32(ewrt);
315	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
316	ewitab = _mm_slli_epi32(ewitab,2);
317	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
318	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
319	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
320	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
321	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
322	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
323	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
324	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
325	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
326
327	/* Update potential sum for this i atom from the interaction with this j atom. */
328	velecsum = _mm_add_ps(velecsum,velec);
329
330	fscal = felec;
331
332	/* Calculate temporary vectorial force */
333	tx = _mm_mul_ps(fscal,dx10);
334	ty = _mm_mul_ps(fscal,dy10);
335	tz = _mm_mul_ps(fscal,dz10);
336
337	/* Update vectorial force */
338	fix1 = _mm_add_ps(fix1,tx);
339	fiy1 = _mm_add_ps(fiy1,ty);
340	fiz1 = _mm_add_ps(fiz1,tz);
341
342	fjx0 = _mm_add_ps(fjx0,tx);
343	fjy0 = _mm_add_ps(fjy0,ty);
344	fjz0 = _mm_add_ps(fjz0,tz);
345
346	/**************************
347	* CALCULATE INTERACTIONS *
348	**************************/
349
350	r20 = _mm_mul_ps(rsq20,rinv20);
351
352	/* Compute parameters for interactions between i and j atoms */
353	qq20 = _mm_mul_ps(iq2,jq0);
354
355	/* EWALD ELECTROSTATICS */
356
357	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
358	ewrt = _mm_mul_ps(r20,ewtabscale);
359	ewitab = _mm_cvttps_epi32(ewrt);
360	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
361	ewitab = _mm_slli_epi32(ewitab,2);
362	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
363	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
364	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
365	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
366	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
367	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
368	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
369	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
370	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
371
372	/* Update potential sum for this i atom from the interaction with this j atom. */
373	velecsum = _mm_add_ps(velecsum,velec);
374
375	fscal = felec;
376
377	/* Calculate temporary vectorial force */
378	tx = _mm_mul_ps(fscal,dx20);
379	ty = _mm_mul_ps(fscal,dy20);
380	tz = _mm_mul_ps(fscal,dz20);
381
382	/* Update vectorial force */
383	fix2 = _mm_add_ps(fix2,tx);
384	fiy2 = _mm_add_ps(fiy2,ty);
385	fiz2 = _mm_add_ps(fiz2,tz);
386
387	fjx0 = _mm_add_ps(fjx0,tx);
388	fjy0 = _mm_add_ps(fjy0,ty);
389	fjz0 = _mm_add_ps(fjz0,tz);
390
391	fjptrA = f+j_coord_offsetA;
392	fjptrB = f+j_coord_offsetB;
393	fjptrC = f+j_coord_offsetC;
394	fjptrD = f+j_coord_offsetD;
395
396	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
397
398	/* Inner loop uses 135 flops */
399	}
400
401	if(jidx<j_index_end)
402	{
403
404	/* Get j neighbor index, and coordinate index */
405	jnrlistA = jjnr[jidx];
406	jnrlistB = jjnr[jidx+1];
407	jnrlistC = jjnr[jidx+2];
408	jnrlistD = jjnr[jidx+3];
409	/* Sign of each element will be negative for non-real atoms.
410	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
411	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
412	*/
413	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
414	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
415	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
416	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
417	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
418	j_coord_offsetA = DIM3*jnrA;
419	j_coord_offsetB = DIM3*jnrB;
420	j_coord_offsetC = DIM3*jnrC;
421	j_coord_offsetD = DIM3*jnrD;
422
423	/* load j atom coordinates */
424	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
425	x+j_coord_offsetC,x+j_coord_offsetD,
426	&jx0,&jy0,&jz0);
427
428	/* Calculate displacement vector */
429	dx00 = _mm_sub_ps(ix0,jx0);
430	dy00 = _mm_sub_ps(iy0,jy0);
431	dz00 = _mm_sub_ps(iz0,jz0);
432	dx10 = _mm_sub_ps(ix1,jx0);
433	dy10 = _mm_sub_ps(iy1,jy0);
434	dz10 = _mm_sub_ps(iz1,jz0);
435	dx20 = _mm_sub_ps(ix2,jx0);
436	dy20 = _mm_sub_ps(iy2,jy0);
437	dz20 = _mm_sub_ps(iz2,jz0);
438
439	/* Calculate squared distance and things based on it */
440	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
441	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
442	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
443
444	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
445	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
446	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
447
448	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
449	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
450	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
451
452	/* Load parameters for j particles */
453	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
454	charge+jnrC+0,charge+jnrD+0);
455	vdwjidx0A = 2*vdwtype[jnrA+0];
456	vdwjidx0B = 2*vdwtype[jnrB+0];
457	vdwjidx0C = 2*vdwtype[jnrC+0];
458	vdwjidx0D = 2*vdwtype[jnrD+0];
459
460	fjx0 = _mm_setzero_ps();
461	fjy0 = _mm_setzero_ps();
462	fjz0 = _mm_setzero_ps();
463
464	/**************************
465	* CALCULATE INTERACTIONS *
466	**************************/
467
468	r00 = _mm_mul_ps(rsq00,rinv00);
469	r00 = _mm_andnot_ps(dummy_mask,r00);
470
471	/* Compute parameters for interactions between i and j atoms */
472	qq00 = _mm_mul_ps(iq0,jq0);
473	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
474	vdwparam+vdwioffset0+vdwjidx0B,
475	vdwparam+vdwioffset0+vdwjidx0C,
476	vdwparam+vdwioffset0+vdwjidx0D,
477	&c6_00,&c12_00);
478
479	/* EWALD ELECTROSTATICS */
480
481	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
482	ewrt = _mm_mul_ps(r00,ewtabscale);
483	ewitab = _mm_cvttps_epi32(ewrt);
484	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
485	ewitab = _mm_slli_epi32(ewitab,2);
486	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
487	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
488	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
489	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
490	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
491	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
492	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
493	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
494	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
495
496	/* LENNARD-JONES DISPERSION/REPULSION */
497
498	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
499	vvdw6 = _mm_mul_ps(c6_00,rinvsix);
500	vvdw12 = _mm_mul_ps(c12_00,_mm_mul_ps(rinvsix,rinvsix));
501	vvdw = _mm_sub_ps( _mm_mul_ps(vvdw12,one_twelfth) , _mm_mul_ps(vvdw6,one_sixth) );
502	fvdw = _mm_mul_ps(_mm_sub_ps(vvdw12,vvdw6),rinvsq00);
503
504	/* Update potential sum for this i atom from the interaction with this j atom. */
505	velec = _mm_andnot_ps(dummy_mask,velec);
506	velecsum = _mm_add_ps(velecsum,velec);
507	vvdw = _mm_andnot_ps(dummy_mask,vvdw);
508	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
509
510	fscal = _mm_add_ps(felec,fvdw);
511
512	fscal = _mm_andnot_ps(dummy_mask,fscal);
513
514	/* Calculate temporary vectorial force */
515	tx = _mm_mul_ps(fscal,dx00);
516	ty = _mm_mul_ps(fscal,dy00);
517	tz = _mm_mul_ps(fscal,dz00);
518
519	/* Update vectorial force */
520	fix0 = _mm_add_ps(fix0,tx);
521	fiy0 = _mm_add_ps(fiy0,ty);
522	fiz0 = _mm_add_ps(fiz0,tz);
523
524	fjx0 = _mm_add_ps(fjx0,tx);
525	fjy0 = _mm_add_ps(fjy0,ty);
526	fjz0 = _mm_add_ps(fjz0,tz);
527
528	/**************************
529	* CALCULATE INTERACTIONS *
530	**************************/
531
532	r10 = _mm_mul_ps(rsq10,rinv10);
533	r10 = _mm_andnot_ps(dummy_mask,r10);
534
535	/* Compute parameters for interactions between i and j atoms */
536	qq10 = _mm_mul_ps(iq1,jq0);
537
538	/* EWALD ELECTROSTATICS */
539
540	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
541	ewrt = _mm_mul_ps(r10,ewtabscale);
542	ewitab = _mm_cvttps_epi32(ewrt);
543	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
544	ewitab = _mm_slli_epi32(ewitab,2);
545	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
546	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
547	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
548	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
549	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
550	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
551	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
552	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
553	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
554
555	/* Update potential sum for this i atom from the interaction with this j atom. */
556	velec = _mm_andnot_ps(dummy_mask,velec);
557	velecsum = _mm_add_ps(velecsum,velec);
558
559	fscal = felec;
560
561	fscal = _mm_andnot_ps(dummy_mask,fscal);
562
563	/* Calculate temporary vectorial force */
564	tx = _mm_mul_ps(fscal,dx10);
565	ty = _mm_mul_ps(fscal,dy10);
566	tz = _mm_mul_ps(fscal,dz10);
567
568	/* Update vectorial force */
569	fix1 = _mm_add_ps(fix1,tx);
570	fiy1 = _mm_add_ps(fiy1,ty);
571	fiz1 = _mm_add_ps(fiz1,tz);
572
573	fjx0 = _mm_add_ps(fjx0,tx);
574	fjy0 = _mm_add_ps(fjy0,ty);
575	fjz0 = _mm_add_ps(fjz0,tz);
576
577	/**************************
578	* CALCULATE INTERACTIONS *
579	**************************/
580
581	r20 = _mm_mul_ps(rsq20,rinv20);
582	r20 = _mm_andnot_ps(dummy_mask,r20);
583
584	/* Compute parameters for interactions between i and j atoms */
585	qq20 = _mm_mul_ps(iq2,jq0);
586
587	/* EWALD ELECTROSTATICS */
588
589	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
590	ewrt = _mm_mul_ps(r20,ewtabscale);
591	ewitab = _mm_cvttps_epi32(ewrt);
592	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
593	ewitab = _mm_slli_epi32(ewitab,2);
594	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
595	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
596	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
597	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
598	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
599	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
600	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
601	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
602	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
603
604	/* Update potential sum for this i atom from the interaction with this j atom. */
605	velec = _mm_andnot_ps(dummy_mask,velec);
606	velecsum = _mm_add_ps(velecsum,velec);
607
608	fscal = felec;
609
610	fscal = _mm_andnot_ps(dummy_mask,fscal);
611
612	/* Calculate temporary vectorial force */
613	tx = _mm_mul_ps(fscal,dx20);
614	ty = _mm_mul_ps(fscal,dy20);
615	tz = _mm_mul_ps(fscal,dz20);
616
617	/* Update vectorial force */
618	fix2 = _mm_add_ps(fix2,tx);
619	fiy2 = _mm_add_ps(fiy2,ty);
620	fiz2 = _mm_add_ps(fiz2,tz);
621
622	fjx0 = _mm_add_ps(fjx0,tx);
623	fjy0 = _mm_add_ps(fjy0,ty);
624	fjz0 = _mm_add_ps(fjz0,tz);
625
626	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
627	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
628	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
629	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
630
631	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
632
633	/* Inner loop uses 138 flops */
634	}
635
636	/* End of innermost loop */
637
638	gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
639	f+i_coord_offset,fshift+i_shift_offset);
640
641	ggid = gid[iidx];
642	/* Update potential energies */
643	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
644	gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
645
646	/* Increment number of inner iterations */
647	inneriter += j_index_end - j_index_start;
648
649	/* Outer loop uses 20 flops */
650	}
651
652	/* Increment number of outer iterations */
653	outeriter += nri;
654
655	/* Update outer/inner flops */
656
657	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W3_VF,outeriter20 + inneriter138)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W3_VF] += outeriter20 + inneriter 138;
658	}
659	/*
660	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwLJ_GeomW3P1_F_sse4_1_single
661	* Electrostatics interaction: Ewald
662	* VdW interaction: LennardJones
663	* Geometry: Water3-Particle
664	* Calculate force/pot: Force
665	*/
666	void
667	nb_kernel_ElecEw_VdwLJ_GeomW3P1_F_sse4_1_single
668	(t_nblist * gmx_restrict nlist,
669	rvec * gmx_restrict xx,
670	rvec * gmx_restrict ff,
671	t_forcerec * gmx_restrict fr,
672	t_mdatoms * gmx_restrict mdatoms,
673	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
674	t_nrnb * gmx_restrict nrnb)
675	{
676	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
677	* just 0 for non-waters.
678	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
679	* jnr indices corresponding to data put in the four positions in the SIMD register.
680	*/
681	int i_shift_offset,i_coord_offset,outeriter,inneriter;
682	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
683	int jnrA,jnrB,jnrC,jnrD;
684	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
685	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
686	int iinr,jindex,jjnr,shiftidx,*gid;
687	real rcutoff_scalar;
688	real shiftvec,fshift,x,f;
689	real fjptrA,fjptrB,fjptrC,fjptrD;
690	real scratch[4*DIM3];
691	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
692	int vdwioffset0;
693	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
694	int vdwioffset1;
695	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
696	int vdwioffset2;
697	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
698	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
699	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
700	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
701	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
702	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
703	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
704	real *charge;
705	int nvdwtype;
706	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
707	int *vdwtype;
708	real *vdwparam;
709	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
710	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
711	__m128i ewitab;
712	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
713	real *ewtab;
714	__m128 dummy_mask,cutoff_mask;
715	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
716	__m128 one = _mm_set1_ps(1.0);
717	__m128 two = _mm_set1_ps(2.0);
718	x = xx[0];
719	f = ff[0];
720
721	nri = nlist->nri;
722	iinr = nlist->iinr;
723	jindex = nlist->jindex;
724	jjnr = nlist->jjnr;
725	shiftidx = nlist->shift;
726	gid = nlist->gid;
727	shiftvec = fr->shift_vec[0];
728	fshift = fr->fshift[0];
729	facel = _mm_set1_ps(fr->epsfac);
730	charge = mdatoms->chargeA;
731	nvdwtype = fr->ntype;
732	vdwparam = fr->nbfp;
733	vdwtype = mdatoms->typeA;
734
735	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
736	ewtab = fr->ic->tabq_coul_F;
737	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
738	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
739
740	/* Setup water-specific parameters */
741	inr = nlist->iinr[0];
742	iq0 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
743	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
744	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
745	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
746
747	/* Avoid stupid compiler warnings */
748	jnrA = jnrB = jnrC = jnrD = 0;
749	j_coord_offsetA = 0;
750	j_coord_offsetB = 0;
751	j_coord_offsetC = 0;
752	j_coord_offsetD = 0;
753
754	outeriter = 0;
755	inneriter = 0;
756
757	for(iidx=0;iidx<4*DIM3;iidx++)
758	{
759	scratch[iidx] = 0.0;
760	}
761
762	/* Start outer loop over neighborlists */
763	for(iidx=0; iidx<nri; iidx++)
764	{
765	/* Load shift vector for this list */
766	i_shift_offset = DIM3*shiftidx[iidx];
767
768	/* Load limits for loop over neighbors */
769	j_index_start = jindex[iidx];
770	j_index_end = jindex[iidx+1];
771
772	/* Get outer coordinate index */
773	inr = iinr[iidx];
774	i_coord_offset = DIM3*inr;
775
776	/* Load i particle coords and add shift vector */
777	gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
778	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
779
780	fix0 = _mm_setzero_ps();
781	fiy0 = _mm_setzero_ps();
782	fiz0 = _mm_setzero_ps();
783	fix1 = _mm_setzero_ps();
784	fiy1 = _mm_setzero_ps();
785	fiz1 = _mm_setzero_ps();
786	fix2 = _mm_setzero_ps();
787	fiy2 = _mm_setzero_ps();
788	fiz2 = _mm_setzero_ps();
789
790	/* Start inner kernel loop */
791	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
792	{
793
794	/* Get j neighbor index, and coordinate index */
795	jnrA = jjnr[jidx];
796	jnrB = jjnr[jidx+1];
797	jnrC = jjnr[jidx+2];
798	jnrD = jjnr[jidx+3];
799	j_coord_offsetA = DIM3*jnrA;
800	j_coord_offsetB = DIM3*jnrB;
801	j_coord_offsetC = DIM3*jnrC;
802	j_coord_offsetD = DIM3*jnrD;
803
804	/* load j atom coordinates */
805	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
806	x+j_coord_offsetC,x+j_coord_offsetD,
807	&jx0,&jy0,&jz0);
808
809	/* Calculate displacement vector */
810	dx00 = _mm_sub_ps(ix0,jx0);
811	dy00 = _mm_sub_ps(iy0,jy0);
812	dz00 = _mm_sub_ps(iz0,jz0);
813	dx10 = _mm_sub_ps(ix1,jx0);
814	dy10 = _mm_sub_ps(iy1,jy0);
815	dz10 = _mm_sub_ps(iz1,jz0);
816	dx20 = _mm_sub_ps(ix2,jx0);
817	dy20 = _mm_sub_ps(iy2,jy0);
818	dz20 = _mm_sub_ps(iz2,jz0);
819
820	/* Calculate squared distance and things based on it */
821	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
822	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
823	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
824
825	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
826	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
827	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
828
829	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
830	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
831	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
832
833	/* Load parameters for j particles */
834	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
835	charge+jnrC+0,charge+jnrD+0);
836	vdwjidx0A = 2*vdwtype[jnrA+0];
837	vdwjidx0B = 2*vdwtype[jnrB+0];
838	vdwjidx0C = 2*vdwtype[jnrC+0];
839	vdwjidx0D = 2*vdwtype[jnrD+0];
840
841	fjx0 = _mm_setzero_ps();
842	fjy0 = _mm_setzero_ps();
843	fjz0 = _mm_setzero_ps();
844
845	/**************************
846	* CALCULATE INTERACTIONS *
847	**************************/
848
849	r00 = _mm_mul_ps(rsq00,rinv00);
850
851	/* Compute parameters for interactions between i and j atoms */
852	qq00 = _mm_mul_ps(iq0,jq0);
853	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
854	vdwparam+vdwioffset0+vdwjidx0B,
855	vdwparam+vdwioffset0+vdwjidx0C,
856	vdwparam+vdwioffset0+vdwjidx0D,
857	&c6_00,&c12_00);
858
859	/* EWALD ELECTROSTATICS */
860
861	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
862	ewrt = _mm_mul_ps(r00,ewtabscale);
863	ewitab = _mm_cvttps_epi32(ewrt);
864	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
865	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
866	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
867	&ewtabF,&ewtabFn);
868	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
869	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
870
871	/* LENNARD-JONES DISPERSION/REPULSION */
872
873	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
874	fvdw = _mm_mul_ps(_mm_sub_ps(_mm_mul_ps(c12_00,rinvsix),c6_00),_mm_mul_ps(rinvsix,rinvsq00));
875
876	fscal = _mm_add_ps(felec,fvdw);
877
878	/* Calculate temporary vectorial force */
879	tx = _mm_mul_ps(fscal,dx00);
880	ty = _mm_mul_ps(fscal,dy00);
881	tz = _mm_mul_ps(fscal,dz00);
882
883	/* Update vectorial force */
884	fix0 = _mm_add_ps(fix0,tx);
885	fiy0 = _mm_add_ps(fiy0,ty);
886	fiz0 = _mm_add_ps(fiz0,tz);
887
888	fjx0 = _mm_add_ps(fjx0,tx);
889	fjy0 = _mm_add_ps(fjy0,ty);
890	fjz0 = _mm_add_ps(fjz0,tz);
891
892	/**************************
893	* CALCULATE INTERACTIONS *
894	**************************/
895
896	r10 = _mm_mul_ps(rsq10,rinv10);
897
898	/* Compute parameters for interactions between i and j atoms */
899	qq10 = _mm_mul_ps(iq1,jq0);
900
901	/* EWALD ELECTROSTATICS */
902
903	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
904	ewrt = _mm_mul_ps(r10,ewtabscale);
905	ewitab = _mm_cvttps_epi32(ewrt);
906	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
907	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
908	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
909	&ewtabF,&ewtabFn);
910	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
911	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
912
913	fscal = felec;
914
915	/* Calculate temporary vectorial force */
916	tx = _mm_mul_ps(fscal,dx10);
917	ty = _mm_mul_ps(fscal,dy10);
918	tz = _mm_mul_ps(fscal,dz10);
919
920	/* Update vectorial force */
921	fix1 = _mm_add_ps(fix1,tx);
922	fiy1 = _mm_add_ps(fiy1,ty);
923	fiz1 = _mm_add_ps(fiz1,tz);
924
925	fjx0 = _mm_add_ps(fjx0,tx);
926	fjy0 = _mm_add_ps(fjy0,ty);
927	fjz0 = _mm_add_ps(fjz0,tz);
928
929	/**************************
930	* CALCULATE INTERACTIONS *
931	**************************/
932
933	r20 = _mm_mul_ps(rsq20,rinv20);
934
935	/* Compute parameters for interactions between i and j atoms */
936	qq20 = _mm_mul_ps(iq2,jq0);
937
938	/* EWALD ELECTROSTATICS */
939
940	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
941	ewrt = _mm_mul_ps(r20,ewtabscale);
942	ewitab = _mm_cvttps_epi32(ewrt);
943	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
944	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
945	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
946	&ewtabF,&ewtabFn);
947	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
948	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
949
950	fscal = felec;
951
952	/* Calculate temporary vectorial force */
953	tx = _mm_mul_ps(fscal,dx20);
954	ty = _mm_mul_ps(fscal,dy20);
955	tz = _mm_mul_ps(fscal,dz20);
956
957	/* Update vectorial force */
958	fix2 = _mm_add_ps(fix2,tx);
959	fiy2 = _mm_add_ps(fiy2,ty);
960	fiz2 = _mm_add_ps(fiz2,tz);
961
962	fjx0 = _mm_add_ps(fjx0,tx);
963	fjy0 = _mm_add_ps(fjy0,ty);
964	fjz0 = _mm_add_ps(fjz0,tz);
965
966	fjptrA = f+j_coord_offsetA;
967	fjptrB = f+j_coord_offsetB;
968	fjptrC = f+j_coord_offsetC;
969	fjptrD = f+j_coord_offsetD;
970
971	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
972
973	/* Inner loop uses 115 flops */
974	}
975
976	if(jidx<j_index_end)
977	{
978
979	/* Get j neighbor index, and coordinate index */
980	jnrlistA = jjnr[jidx];
981	jnrlistB = jjnr[jidx+1];
982	jnrlistC = jjnr[jidx+2];
983	jnrlistD = jjnr[jidx+3];
984	/* Sign of each element will be negative for non-real atoms.
985	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
986	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
987	*/
988	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
989	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
990	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
991	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
992	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
993	j_coord_offsetA = DIM3*jnrA;
994	j_coord_offsetB = DIM3*jnrB;
995	j_coord_offsetC = DIM3*jnrC;
996	j_coord_offsetD = DIM3*jnrD;
997
998	/* load j atom coordinates */
999	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1000	x+j_coord_offsetC,x+j_coord_offsetD,
1001	&jx0,&jy0,&jz0);
1002
1003	/* Calculate displacement vector */
1004	dx00 = _mm_sub_ps(ix0,jx0);
1005	dy00 = _mm_sub_ps(iy0,jy0);
1006	dz00 = _mm_sub_ps(iz0,jz0);
1007	dx10 = _mm_sub_ps(ix1,jx0);
1008	dy10 = _mm_sub_ps(iy1,jy0);
1009	dz10 = _mm_sub_ps(iz1,jz0);
1010	dx20 = _mm_sub_ps(ix2,jx0);
1011	dy20 = _mm_sub_ps(iy2,jy0);
1012	dz20 = _mm_sub_ps(iz2,jz0);
1013
1014	/* Calculate squared distance and things based on it */
1015	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1016	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
1017	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
1018
1019	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1020	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
1021	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
1022
1023	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
1024	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
1025	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
1026
1027	/* Load parameters for j particles */
1028	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
1029	charge+jnrC+0,charge+jnrD+0);
1030	vdwjidx0A = 2*vdwtype[jnrA+0];
1031	vdwjidx0B = 2*vdwtype[jnrB+0];
1032	vdwjidx0C = 2*vdwtype[jnrC+0];
1033	vdwjidx0D = 2*vdwtype[jnrD+0];
1034
1035	fjx0 = _mm_setzero_ps();
1036	fjy0 = _mm_setzero_ps();
1037	fjz0 = _mm_setzero_ps();
1038
1039	/**************************
1040	* CALCULATE INTERACTIONS *
1041	**************************/
1042
1043	r00 = _mm_mul_ps(rsq00,rinv00);
1044	r00 = _mm_andnot_ps(dummy_mask,r00);
1045
1046	/* Compute parameters for interactions between i and j atoms */
1047	qq00 = _mm_mul_ps(iq0,jq0);
1048	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
1049	vdwparam+vdwioffset0+vdwjidx0B,
1050	vdwparam+vdwioffset0+vdwjidx0C,
1051	vdwparam+vdwioffset0+vdwjidx0D,
1052	&c6_00,&c12_00);
1053
1054	/* EWALD ELECTROSTATICS */
1055
1056	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1057	ewrt = _mm_mul_ps(r00,ewtabscale);
1058	ewitab = _mm_cvttps_epi32(ewrt);
1059	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1060	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1061	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1062	&ewtabF,&ewtabFn);
1063	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1064	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
1065
1066	/* LENNARD-JONES DISPERSION/REPULSION */
1067
1068	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
1069	fvdw = _mm_mul_ps(_mm_sub_ps(_mm_mul_ps(c12_00,rinvsix),c6_00),_mm_mul_ps(rinvsix,rinvsq00));
1070
1071	fscal = _mm_add_ps(felec,fvdw);
1072
1073	fscal = _mm_andnot_ps(dummy_mask,fscal);
1074
1075	/* Calculate temporary vectorial force */
1076	tx = _mm_mul_ps(fscal,dx00);
1077	ty = _mm_mul_ps(fscal,dy00);
1078	tz = _mm_mul_ps(fscal,dz00);
1079
1080	/* Update vectorial force */
1081	fix0 = _mm_add_ps(fix0,tx);
1082	fiy0 = _mm_add_ps(fiy0,ty);
1083	fiz0 = _mm_add_ps(fiz0,tz);
1084
1085	fjx0 = _mm_add_ps(fjx0,tx);
1086	fjy0 = _mm_add_ps(fjy0,ty);
1087	fjz0 = _mm_add_ps(fjz0,tz);
1088
1089	/**************************
1090	* CALCULATE INTERACTIONS *
1091	**************************/
1092
1093	r10 = _mm_mul_ps(rsq10,rinv10);
1094	r10 = _mm_andnot_ps(dummy_mask,r10);
1095
1096	/* Compute parameters for interactions between i and j atoms */
1097	qq10 = _mm_mul_ps(iq1,jq0);
1098
1099	/* EWALD ELECTROSTATICS */
1100
1101	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1102	ewrt = _mm_mul_ps(r10,ewtabscale);
1103	ewitab = _mm_cvttps_epi32(ewrt);
1104	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1105	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1106	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1107	&ewtabF,&ewtabFn);
1108	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1109	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
1110
1111	fscal = felec;
1112
1113	fscal = _mm_andnot_ps(dummy_mask,fscal);
1114
1115	/* Calculate temporary vectorial force */
1116	tx = _mm_mul_ps(fscal,dx10);
1117	ty = _mm_mul_ps(fscal,dy10);
1118	tz = _mm_mul_ps(fscal,dz10);
1119
1120	/* Update vectorial force */
1121	fix1 = _mm_add_ps(fix1,tx);
1122	fiy1 = _mm_add_ps(fiy1,ty);
1123	fiz1 = _mm_add_ps(fiz1,tz);
1124
1125	fjx0 = _mm_add_ps(fjx0,tx);
1126	fjy0 = _mm_add_ps(fjy0,ty);
1127	fjz0 = _mm_add_ps(fjz0,tz);
1128
1129	/**************************
1130	* CALCULATE INTERACTIONS *
1131	**************************/
1132
1133	r20 = _mm_mul_ps(rsq20,rinv20);
1134	r20 = _mm_andnot_ps(dummy_mask,r20);
1135
1136	/* Compute parameters for interactions between i and j atoms */
1137	qq20 = _mm_mul_ps(iq2,jq0);
1138
1139	/* EWALD ELECTROSTATICS */
1140
1141	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1142	ewrt = _mm_mul_ps(r20,ewtabscale);
1143	ewitab = _mm_cvttps_epi32(ewrt);
1144	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1145	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1146	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1147	&ewtabF,&ewtabFn);
1148	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1149	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
1150
1151	fscal = felec;
1152
1153	fscal = _mm_andnot_ps(dummy_mask,fscal);
1154
1155	/* Calculate temporary vectorial force */
1156	tx = _mm_mul_ps(fscal,dx20);
1157	ty = _mm_mul_ps(fscal,dy20);
1158	tz = _mm_mul_ps(fscal,dz20);
1159
1160	/* Update vectorial force */
1161	fix2 = _mm_add_ps(fix2,tx);
1162	fiy2 = _mm_add_ps(fiy2,ty);
1163	fiz2 = _mm_add_ps(fiz2,tz);
1164
1165	fjx0 = _mm_add_ps(fjx0,tx);
1166	fjy0 = _mm_add_ps(fjy0,ty);
1167	fjz0 = _mm_add_ps(fjz0,tz);
1168
1169	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1170	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1171	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1172	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1173
1174	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1175
1176	/* Inner loop uses 118 flops */
1177	}
1178
1179	/* End of innermost loop */
1180
1181	gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1182	f+i_coord_offset,fshift+i_shift_offset);
1183
1184	/* Increment number of inner iterations */
1185	inneriter += j_index_end - j_index_start;
1186
1187	/* Outer loop uses 18 flops */
1188	}
1189
1190	/* Increment number of outer iterations */
1191	outeriter += nri;
1192
1193	/* Update outer/inner flops */
1194
1195	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W3_F,outeriter18 + inneriter118)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W3_F] += outeriter18 + inneriter 118;
1196	}