/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwLJ_GeomW4W4_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwLJ_GeomW4W4_sse4_1_single.c
Location:	line 143, column 5
Description:	Value stored to 'sh_ewald' is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwLJ_GeomW4W4_VF_sse4_1_single
54	* Electrostatics interaction: Ewald
55	* VdW interaction: LennardJones
56	* Geometry: Water4-Water4
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecEw_VdwLJ_GeomW4W4_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwioffset3;
92	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
93	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
94	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
95	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
96	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
97	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
98	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
99	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
100	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
101	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
102	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
103	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
104	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
105	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
106	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
107	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
108	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
109	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
110	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
111	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
112	real *charge;
113	int nvdwtype;
114	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
115	int *vdwtype;
116	real *vdwparam;
117	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
118	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
119	__m128i ewitab;
120	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
121	real *ewtab;
122	__m128 dummy_mask,cutoff_mask;
123	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
124	__m128 one = _mm_set1_ps(1.0);
125	__m128 two = _mm_set1_ps(2.0);
126	x = xx[0];
127	f = ff[0];
128
129	nri = nlist->nri;
130	iinr = nlist->iinr;
131	jindex = nlist->jindex;
132	jjnr = nlist->jjnr;
133	shiftidx = nlist->shift;
134	gid = nlist->gid;
135	shiftvec = fr->shift_vec[0];
136	fshift = fr->fshift[0];
137	facel = _mm_set1_ps(fr->epsfac);
138	charge = mdatoms->chargeA;
139	nvdwtype = fr->ntype;
140	vdwparam = fr->nbfp;
141	vdwtype = mdatoms->typeA;
142
143	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
	Value stored to 'sh_ewald' is never read
144	ewtab = fr->ic->tabq_coul_FDV0;
145	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
146	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
147
148	/* Setup water-specific parameters */
149	inr = nlist->iinr[0];
150	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
151	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
152	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
153	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
154
155	jq1 = _mm_set1_ps(charge[inr+1]);
156	jq2 = _mm_set1_ps(charge[inr+2]);
157	jq3 = _mm_set1_ps(charge[inr+3]);
158	vdwjidx0A = 2*vdwtype[inr+0];
159	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
160	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
161	qq11 = _mm_mul_ps(iq1,jq1);
162	qq12 = _mm_mul_ps(iq1,jq2);
163	qq13 = _mm_mul_ps(iq1,jq3);
164	qq21 = _mm_mul_ps(iq2,jq1);
165	qq22 = _mm_mul_ps(iq2,jq2);
166	qq23 = _mm_mul_ps(iq2,jq3);
167	qq31 = _mm_mul_ps(iq3,jq1);
168	qq32 = _mm_mul_ps(iq3,jq2);
169	qq33 = _mm_mul_ps(iq3,jq3);
170
171	/* Avoid stupid compiler warnings */
172	jnrA = jnrB = jnrC = jnrD = 0;
173	j_coord_offsetA = 0;
174	j_coord_offsetB = 0;
175	j_coord_offsetC = 0;
176	j_coord_offsetD = 0;
177
178	outeriter = 0;
179	inneriter = 0;
180
181	for(iidx=0;iidx<4*DIM3;iidx++)
182	{
183	scratch[iidx] = 0.0;
184	}
185
186	/* Start outer loop over neighborlists */
187	for(iidx=0; iidx<nri; iidx++)
188	{
189	/* Load shift vector for this list */
190	i_shift_offset = DIM3*shiftidx[iidx];
191
192	/* Load limits for loop over neighbors */
193	j_index_start = jindex[iidx];
194	j_index_end = jindex[iidx+1];
195
196	/* Get outer coordinate index */
197	inr = iinr[iidx];
198	i_coord_offset = DIM3*inr;
199
200	/* Load i particle coords and add shift vector */
201	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
202	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
203
204	fix0 = _mm_setzero_ps();
205	fiy0 = _mm_setzero_ps();
206	fiz0 = _mm_setzero_ps();
207	fix1 = _mm_setzero_ps();
208	fiy1 = _mm_setzero_ps();
209	fiz1 = _mm_setzero_ps();
210	fix2 = _mm_setzero_ps();
211	fiy2 = _mm_setzero_ps();
212	fiz2 = _mm_setzero_ps();
213	fix3 = _mm_setzero_ps();
214	fiy3 = _mm_setzero_ps();
215	fiz3 = _mm_setzero_ps();
216
217	/* Reset potential sums */
218	velecsum = _mm_setzero_ps();
219	vvdwsum = _mm_setzero_ps();
220
221	/* Start inner kernel loop */
222	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
223	{
224
225	/* Get j neighbor index, and coordinate index */
226	jnrA = jjnr[jidx];
227	jnrB = jjnr[jidx+1];
228	jnrC = jjnr[jidx+2];
229	jnrD = jjnr[jidx+3];
230	j_coord_offsetA = DIM3*jnrA;
231	j_coord_offsetB = DIM3*jnrB;
232	j_coord_offsetC = DIM3*jnrC;
233	j_coord_offsetD = DIM3*jnrD;
234
235	/* load j atom coordinates */
236	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
237	x+j_coord_offsetC,x+j_coord_offsetD,
238	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
239	&jy2,&jz2,&jx3,&jy3,&jz3);
240
241	/* Calculate displacement vector */
242	dx00 = _mm_sub_ps(ix0,jx0);
243	dy00 = _mm_sub_ps(iy0,jy0);
244	dz00 = _mm_sub_ps(iz0,jz0);
245	dx11 = _mm_sub_ps(ix1,jx1);
246	dy11 = _mm_sub_ps(iy1,jy1);
247	dz11 = _mm_sub_ps(iz1,jz1);
248	dx12 = _mm_sub_ps(ix1,jx2);
249	dy12 = _mm_sub_ps(iy1,jy2);
250	dz12 = _mm_sub_ps(iz1,jz2);
251	dx13 = _mm_sub_ps(ix1,jx3);
252	dy13 = _mm_sub_ps(iy1,jy3);
253	dz13 = _mm_sub_ps(iz1,jz3);
254	dx21 = _mm_sub_ps(ix2,jx1);
255	dy21 = _mm_sub_ps(iy2,jy1);
256	dz21 = _mm_sub_ps(iz2,jz1);
257	dx22 = _mm_sub_ps(ix2,jx2);
258	dy22 = _mm_sub_ps(iy2,jy2);
259	dz22 = _mm_sub_ps(iz2,jz2);
260	dx23 = _mm_sub_ps(ix2,jx3);
261	dy23 = _mm_sub_ps(iy2,jy3);
262	dz23 = _mm_sub_ps(iz2,jz3);
263	dx31 = _mm_sub_ps(ix3,jx1);
264	dy31 = _mm_sub_ps(iy3,jy1);
265	dz31 = _mm_sub_ps(iz3,jz1);
266	dx32 = _mm_sub_ps(ix3,jx2);
267	dy32 = _mm_sub_ps(iy3,jy2);
268	dz32 = _mm_sub_ps(iz3,jz2);
269	dx33 = _mm_sub_ps(ix3,jx3);
270	dy33 = _mm_sub_ps(iy3,jy3);
271	dz33 = _mm_sub_ps(iz3,jz3);
272
273	/* Calculate squared distance and things based on it */
274	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
275	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
276	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
277	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
278	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
279	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
280	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
281	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
282	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
283	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
284
285	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
286	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
287	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
288	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
289	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
290	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
291	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
292	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
293	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
294
295	rinvsq00 = gmx_mm_inv_psgmx_simd_inv_f(rsq00);
296	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
297	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
298	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
299	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
300	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
301	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
302	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
303	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
304	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
305
306	fjx0 = _mm_setzero_ps();
307	fjy0 = _mm_setzero_ps();
308	fjz0 = _mm_setzero_ps();
309	fjx1 = _mm_setzero_ps();
310	fjy1 = _mm_setzero_ps();
311	fjz1 = _mm_setzero_ps();
312	fjx2 = _mm_setzero_ps();
313	fjy2 = _mm_setzero_ps();
314	fjz2 = _mm_setzero_ps();
315	fjx3 = _mm_setzero_ps();
316	fjy3 = _mm_setzero_ps();
317	fjz3 = _mm_setzero_ps();
318
319	/**************************
320	* CALCULATE INTERACTIONS *
321	**************************/
322
323	/* LENNARD-JONES DISPERSION/REPULSION */
324
325	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
326	vvdw6 = _mm_mul_ps(c6_00,rinvsix);
327	vvdw12 = _mm_mul_ps(c12_00,_mm_mul_ps(rinvsix,rinvsix));
328	vvdw = _mm_sub_ps( _mm_mul_ps(vvdw12,one_twelfth) , _mm_mul_ps(vvdw6,one_sixth) );
329	fvdw = _mm_mul_ps(_mm_sub_ps(vvdw12,vvdw6),rinvsq00);
330
331	/* Update potential sum for this i atom from the interaction with this j atom. */
332	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
333
334	fscal = fvdw;
335
336	/* Calculate temporary vectorial force */
337	tx = _mm_mul_ps(fscal,dx00);
338	ty = _mm_mul_ps(fscal,dy00);
339	tz = _mm_mul_ps(fscal,dz00);
340
341	/* Update vectorial force */
342	fix0 = _mm_add_ps(fix0,tx);
343	fiy0 = _mm_add_ps(fiy0,ty);
344	fiz0 = _mm_add_ps(fiz0,tz);
345
346	fjx0 = _mm_add_ps(fjx0,tx);
347	fjy0 = _mm_add_ps(fjy0,ty);
348	fjz0 = _mm_add_ps(fjz0,tz);
349
350	/**************************
351	* CALCULATE INTERACTIONS *
352	**************************/
353
354	r11 = _mm_mul_ps(rsq11,rinv11);
355
356	/* EWALD ELECTROSTATICS */
357
358	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
359	ewrt = _mm_mul_ps(r11,ewtabscale);
360	ewitab = _mm_cvttps_epi32(ewrt);
361	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
362	ewitab = _mm_slli_epi32(ewitab,2);
363	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
364	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
365	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
366	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
367	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
368	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
369	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
370	velec = _mm_mul_ps(qq11,_mm_sub_ps(rinv11,velec));
371	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
372
373	/* Update potential sum for this i atom from the interaction with this j atom. */
374	velecsum = _mm_add_ps(velecsum,velec);
375
376	fscal = felec;
377
378	/* Calculate temporary vectorial force */
379	tx = _mm_mul_ps(fscal,dx11);
380	ty = _mm_mul_ps(fscal,dy11);
381	tz = _mm_mul_ps(fscal,dz11);
382
383	/* Update vectorial force */
384	fix1 = _mm_add_ps(fix1,tx);
385	fiy1 = _mm_add_ps(fiy1,ty);
386	fiz1 = _mm_add_ps(fiz1,tz);
387
388	fjx1 = _mm_add_ps(fjx1,tx);
389	fjy1 = _mm_add_ps(fjy1,ty);
390	fjz1 = _mm_add_ps(fjz1,tz);
391
392	/**************************
393	* CALCULATE INTERACTIONS *
394	**************************/
395
396	r12 = _mm_mul_ps(rsq12,rinv12);
397
398	/* EWALD ELECTROSTATICS */
399
400	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
401	ewrt = _mm_mul_ps(r12,ewtabscale);
402	ewitab = _mm_cvttps_epi32(ewrt);
403	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
404	ewitab = _mm_slli_epi32(ewitab,2);
405	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
406	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
407	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
408	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
409	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
410	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
411	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
412	velec = _mm_mul_ps(qq12,_mm_sub_ps(rinv12,velec));
413	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
414
415	/* Update potential sum for this i atom from the interaction with this j atom. */
416	velecsum = _mm_add_ps(velecsum,velec);
417
418	fscal = felec;
419
420	/* Calculate temporary vectorial force */
421	tx = _mm_mul_ps(fscal,dx12);
422	ty = _mm_mul_ps(fscal,dy12);
423	tz = _mm_mul_ps(fscal,dz12);
424
425	/* Update vectorial force */
426	fix1 = _mm_add_ps(fix1,tx);
427	fiy1 = _mm_add_ps(fiy1,ty);
428	fiz1 = _mm_add_ps(fiz1,tz);
429
430	fjx2 = _mm_add_ps(fjx2,tx);
431	fjy2 = _mm_add_ps(fjy2,ty);
432	fjz2 = _mm_add_ps(fjz2,tz);
433
434	/**************************
435	* CALCULATE INTERACTIONS *
436	**************************/
437
438	r13 = _mm_mul_ps(rsq13,rinv13);
439
440	/* EWALD ELECTROSTATICS */
441
442	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
443	ewrt = _mm_mul_ps(r13,ewtabscale);
444	ewitab = _mm_cvttps_epi32(ewrt);
445	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
446	ewitab = _mm_slli_epi32(ewitab,2);
447	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
448	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
449	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
450	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
451	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
452	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
453	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
454	velec = _mm_mul_ps(qq13,_mm_sub_ps(rinv13,velec));
455	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
456
457	/* Update potential sum for this i atom from the interaction with this j atom. */
458	velecsum = _mm_add_ps(velecsum,velec);
459
460	fscal = felec;
461
462	/* Calculate temporary vectorial force */
463	tx = _mm_mul_ps(fscal,dx13);
464	ty = _mm_mul_ps(fscal,dy13);
465	tz = _mm_mul_ps(fscal,dz13);
466
467	/* Update vectorial force */
468	fix1 = _mm_add_ps(fix1,tx);
469	fiy1 = _mm_add_ps(fiy1,ty);
470	fiz1 = _mm_add_ps(fiz1,tz);
471
472	fjx3 = _mm_add_ps(fjx3,tx);
473	fjy3 = _mm_add_ps(fjy3,ty);
474	fjz3 = _mm_add_ps(fjz3,tz);
475
476	/**************************
477	* CALCULATE INTERACTIONS *
478	**************************/
479
480	r21 = _mm_mul_ps(rsq21,rinv21);
481
482	/* EWALD ELECTROSTATICS */
483
484	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
485	ewrt = _mm_mul_ps(r21,ewtabscale);
486	ewitab = _mm_cvttps_epi32(ewrt);
487	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
488	ewitab = _mm_slli_epi32(ewitab,2);
489	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
490	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
491	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
492	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
493	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
494	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
495	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
496	velec = _mm_mul_ps(qq21,_mm_sub_ps(rinv21,velec));
497	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
498
499	/* Update potential sum for this i atom from the interaction with this j atom. */
500	velecsum = _mm_add_ps(velecsum,velec);
501
502	fscal = felec;
503
504	/* Calculate temporary vectorial force */
505	tx = _mm_mul_ps(fscal,dx21);
506	ty = _mm_mul_ps(fscal,dy21);
507	tz = _mm_mul_ps(fscal,dz21);
508
509	/* Update vectorial force */
510	fix2 = _mm_add_ps(fix2,tx);
511	fiy2 = _mm_add_ps(fiy2,ty);
512	fiz2 = _mm_add_ps(fiz2,tz);
513
514	fjx1 = _mm_add_ps(fjx1,tx);
515	fjy1 = _mm_add_ps(fjy1,ty);
516	fjz1 = _mm_add_ps(fjz1,tz);
517
518	/**************************
519	* CALCULATE INTERACTIONS *
520	**************************/
521
522	r22 = _mm_mul_ps(rsq22,rinv22);
523
524	/* EWALD ELECTROSTATICS */
525
526	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
527	ewrt = _mm_mul_ps(r22,ewtabscale);
528	ewitab = _mm_cvttps_epi32(ewrt);
529	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
530	ewitab = _mm_slli_epi32(ewitab,2);
531	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
532	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
533	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
534	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
535	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
536	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
537	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
538	velec = _mm_mul_ps(qq22,_mm_sub_ps(rinv22,velec));
539	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
540
541	/* Update potential sum for this i atom from the interaction with this j atom. */
542	velecsum = _mm_add_ps(velecsum,velec);
543
544	fscal = felec;
545
546	/* Calculate temporary vectorial force */
547	tx = _mm_mul_ps(fscal,dx22);
548	ty = _mm_mul_ps(fscal,dy22);
549	tz = _mm_mul_ps(fscal,dz22);
550
551	/* Update vectorial force */
552	fix2 = _mm_add_ps(fix2,tx);
553	fiy2 = _mm_add_ps(fiy2,ty);
554	fiz2 = _mm_add_ps(fiz2,tz);
555
556	fjx2 = _mm_add_ps(fjx2,tx);
557	fjy2 = _mm_add_ps(fjy2,ty);
558	fjz2 = _mm_add_ps(fjz2,tz);
559
560	/**************************
561	* CALCULATE INTERACTIONS *
562	**************************/
563
564	r23 = _mm_mul_ps(rsq23,rinv23);
565
566	/* EWALD ELECTROSTATICS */
567
568	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
569	ewrt = _mm_mul_ps(r23,ewtabscale);
570	ewitab = _mm_cvttps_epi32(ewrt);
571	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
572	ewitab = _mm_slli_epi32(ewitab,2);
573	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
574	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
575	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
576	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
577	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
578	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
579	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
580	velec = _mm_mul_ps(qq23,_mm_sub_ps(rinv23,velec));
581	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
582
583	/* Update potential sum for this i atom from the interaction with this j atom. */
584	velecsum = _mm_add_ps(velecsum,velec);
585
586	fscal = felec;
587
588	/* Calculate temporary vectorial force */
589	tx = _mm_mul_ps(fscal,dx23);
590	ty = _mm_mul_ps(fscal,dy23);
591	tz = _mm_mul_ps(fscal,dz23);
592
593	/* Update vectorial force */
594	fix2 = _mm_add_ps(fix2,tx);
595	fiy2 = _mm_add_ps(fiy2,ty);
596	fiz2 = _mm_add_ps(fiz2,tz);
597
598	fjx3 = _mm_add_ps(fjx3,tx);
599	fjy3 = _mm_add_ps(fjy3,ty);
600	fjz3 = _mm_add_ps(fjz3,tz);
601
602	/**************************
603	* CALCULATE INTERACTIONS *
604	**************************/
605
606	r31 = _mm_mul_ps(rsq31,rinv31);
607
608	/* EWALD ELECTROSTATICS */
609
610	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
611	ewrt = _mm_mul_ps(r31,ewtabscale);
612	ewitab = _mm_cvttps_epi32(ewrt);
613	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
614	ewitab = _mm_slli_epi32(ewitab,2);
615	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
616	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
617	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
618	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
619	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
620	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
621	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
622	velec = _mm_mul_ps(qq31,_mm_sub_ps(rinv31,velec));
623	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
624
625	/* Update potential sum for this i atom from the interaction with this j atom. */
626	velecsum = _mm_add_ps(velecsum,velec);
627
628	fscal = felec;
629
630	/* Calculate temporary vectorial force */
631	tx = _mm_mul_ps(fscal,dx31);
632	ty = _mm_mul_ps(fscal,dy31);
633	tz = _mm_mul_ps(fscal,dz31);
634
635	/* Update vectorial force */
636	fix3 = _mm_add_ps(fix3,tx);
637	fiy3 = _mm_add_ps(fiy3,ty);
638	fiz3 = _mm_add_ps(fiz3,tz);
639
640	fjx1 = _mm_add_ps(fjx1,tx);
641	fjy1 = _mm_add_ps(fjy1,ty);
642	fjz1 = _mm_add_ps(fjz1,tz);
643
644	/**************************
645	* CALCULATE INTERACTIONS *
646	**************************/
647
648	r32 = _mm_mul_ps(rsq32,rinv32);
649
650	/* EWALD ELECTROSTATICS */
651
652	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
653	ewrt = _mm_mul_ps(r32,ewtabscale);
654	ewitab = _mm_cvttps_epi32(ewrt);
655	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
656	ewitab = _mm_slli_epi32(ewitab,2);
657	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
658	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
659	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
660	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
661	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
662	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
663	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
664	velec = _mm_mul_ps(qq32,_mm_sub_ps(rinv32,velec));
665	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
666
667	/* Update potential sum for this i atom from the interaction with this j atom. */
668	velecsum = _mm_add_ps(velecsum,velec);
669
670	fscal = felec;
671
672	/* Calculate temporary vectorial force */
673	tx = _mm_mul_ps(fscal,dx32);
674	ty = _mm_mul_ps(fscal,dy32);
675	tz = _mm_mul_ps(fscal,dz32);
676
677	/* Update vectorial force */
678	fix3 = _mm_add_ps(fix3,tx);
679	fiy3 = _mm_add_ps(fiy3,ty);
680	fiz3 = _mm_add_ps(fiz3,tz);
681
682	fjx2 = _mm_add_ps(fjx2,tx);
683	fjy2 = _mm_add_ps(fjy2,ty);
684	fjz2 = _mm_add_ps(fjz2,tz);
685
686	/**************************
687	* CALCULATE INTERACTIONS *
688	**************************/
689
690	r33 = _mm_mul_ps(rsq33,rinv33);
691
692	/* EWALD ELECTROSTATICS */
693
694	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
695	ewrt = _mm_mul_ps(r33,ewtabscale);
696	ewitab = _mm_cvttps_epi32(ewrt);
697	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
698	ewitab = _mm_slli_epi32(ewitab,2);
699	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
700	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
701	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
702	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
703	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
704	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
705	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
706	velec = _mm_mul_ps(qq33,_mm_sub_ps(rinv33,velec));
707	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
708
709	/* Update potential sum for this i atom from the interaction with this j atom. */
710	velecsum = _mm_add_ps(velecsum,velec);
711
712	fscal = felec;
713
714	/* Calculate temporary vectorial force */
715	tx = _mm_mul_ps(fscal,dx33);
716	ty = _mm_mul_ps(fscal,dy33);
717	tz = _mm_mul_ps(fscal,dz33);
718
719	/* Update vectorial force */
720	fix3 = _mm_add_ps(fix3,tx);
721	fiy3 = _mm_add_ps(fiy3,ty);
722	fiz3 = _mm_add_ps(fiz3,tz);
723
724	fjx3 = _mm_add_ps(fjx3,tx);
725	fjy3 = _mm_add_ps(fjy3,ty);
726	fjz3 = _mm_add_ps(fjz3,tz);
727
728	fjptrA = f+j_coord_offsetA;
729	fjptrB = f+j_coord_offsetB;
730	fjptrC = f+j_coord_offsetC;
731	fjptrD = f+j_coord_offsetD;
732
733	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
734	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
735	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
736
737	/* Inner loop uses 404 flops */
738	}
739
740	if(jidx<j_index_end)
741	{
742
743	/* Get j neighbor index, and coordinate index */
744	jnrlistA = jjnr[jidx];
745	jnrlistB = jjnr[jidx+1];
746	jnrlistC = jjnr[jidx+2];
747	jnrlistD = jjnr[jidx+3];
748	/* Sign of each element will be negative for non-real atoms.
749	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
750	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
751	*/
752	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
753	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
754	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
755	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
756	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
757	j_coord_offsetA = DIM3*jnrA;
758	j_coord_offsetB = DIM3*jnrB;
759	j_coord_offsetC = DIM3*jnrC;
760	j_coord_offsetD = DIM3*jnrD;
761
762	/* load j atom coordinates */
763	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
764	x+j_coord_offsetC,x+j_coord_offsetD,
765	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
766	&jy2,&jz2,&jx3,&jy3,&jz3);
767
768	/* Calculate displacement vector */
769	dx00 = _mm_sub_ps(ix0,jx0);
770	dy00 = _mm_sub_ps(iy0,jy0);
771	dz00 = _mm_sub_ps(iz0,jz0);
772	dx11 = _mm_sub_ps(ix1,jx1);
773	dy11 = _mm_sub_ps(iy1,jy1);
774	dz11 = _mm_sub_ps(iz1,jz1);
775	dx12 = _mm_sub_ps(ix1,jx2);
776	dy12 = _mm_sub_ps(iy1,jy2);
777	dz12 = _mm_sub_ps(iz1,jz2);
778	dx13 = _mm_sub_ps(ix1,jx3);
779	dy13 = _mm_sub_ps(iy1,jy3);
780	dz13 = _mm_sub_ps(iz1,jz3);
781	dx21 = _mm_sub_ps(ix2,jx1);
782	dy21 = _mm_sub_ps(iy2,jy1);
783	dz21 = _mm_sub_ps(iz2,jz1);
784	dx22 = _mm_sub_ps(ix2,jx2);
785	dy22 = _mm_sub_ps(iy2,jy2);
786	dz22 = _mm_sub_ps(iz2,jz2);
787	dx23 = _mm_sub_ps(ix2,jx3);
788	dy23 = _mm_sub_ps(iy2,jy3);
789	dz23 = _mm_sub_ps(iz2,jz3);
790	dx31 = _mm_sub_ps(ix3,jx1);
791	dy31 = _mm_sub_ps(iy3,jy1);
792	dz31 = _mm_sub_ps(iz3,jz1);
793	dx32 = _mm_sub_ps(ix3,jx2);
794	dy32 = _mm_sub_ps(iy3,jy2);
795	dz32 = _mm_sub_ps(iz3,jz2);
796	dx33 = _mm_sub_ps(ix3,jx3);
797	dy33 = _mm_sub_ps(iy3,jy3);
798	dz33 = _mm_sub_ps(iz3,jz3);
799
800	/* Calculate squared distance and things based on it */
801	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
802	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
803	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
804	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
805	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
806	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
807	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
808	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
809	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
810	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
811
812	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
813	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
814	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
815	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
816	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
817	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
818	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
819	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
820	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
821
822	rinvsq00 = gmx_mm_inv_psgmx_simd_inv_f(rsq00);
823	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
824	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
825	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
826	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
827	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
828	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
829	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
830	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
831	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
832
833	fjx0 = _mm_setzero_ps();
834	fjy0 = _mm_setzero_ps();
835	fjz0 = _mm_setzero_ps();
836	fjx1 = _mm_setzero_ps();
837	fjy1 = _mm_setzero_ps();
838	fjz1 = _mm_setzero_ps();
839	fjx2 = _mm_setzero_ps();
840	fjy2 = _mm_setzero_ps();
841	fjz2 = _mm_setzero_ps();
842	fjx3 = _mm_setzero_ps();
843	fjy3 = _mm_setzero_ps();
844	fjz3 = _mm_setzero_ps();
845
846	/**************************
847	* CALCULATE INTERACTIONS *
848	**************************/
849
850	/* LENNARD-JONES DISPERSION/REPULSION */
851
852	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
853	vvdw6 = _mm_mul_ps(c6_00,rinvsix);
854	vvdw12 = _mm_mul_ps(c12_00,_mm_mul_ps(rinvsix,rinvsix));
855	vvdw = _mm_sub_ps( _mm_mul_ps(vvdw12,one_twelfth) , _mm_mul_ps(vvdw6,one_sixth) );
856	fvdw = _mm_mul_ps(_mm_sub_ps(vvdw12,vvdw6),rinvsq00);
857
858	/* Update potential sum for this i atom from the interaction with this j atom. */
859	vvdw = _mm_andnot_ps(dummy_mask,vvdw);
860	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
861
862	fscal = fvdw;
863
864	fscal = _mm_andnot_ps(dummy_mask,fscal);
865
866	/* Calculate temporary vectorial force */
867	tx = _mm_mul_ps(fscal,dx00);
868	ty = _mm_mul_ps(fscal,dy00);
869	tz = _mm_mul_ps(fscal,dz00);
870
871	/* Update vectorial force */
872	fix0 = _mm_add_ps(fix0,tx);
873	fiy0 = _mm_add_ps(fiy0,ty);
874	fiz0 = _mm_add_ps(fiz0,tz);
875
876	fjx0 = _mm_add_ps(fjx0,tx);
877	fjy0 = _mm_add_ps(fjy0,ty);
878	fjz0 = _mm_add_ps(fjz0,tz);
879
880	/**************************
881	* CALCULATE INTERACTIONS *
882	**************************/
883
884	r11 = _mm_mul_ps(rsq11,rinv11);
885	r11 = _mm_andnot_ps(dummy_mask,r11);
886
887	/* EWALD ELECTROSTATICS */
888
889	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
890	ewrt = _mm_mul_ps(r11,ewtabscale);
891	ewitab = _mm_cvttps_epi32(ewrt);
892	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
893	ewitab = _mm_slli_epi32(ewitab,2);
894	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
895	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
896	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
897	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
898	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
899	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
900	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
901	velec = _mm_mul_ps(qq11,_mm_sub_ps(rinv11,velec));
902	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
903
904	/* Update potential sum for this i atom from the interaction with this j atom. */
905	velec = _mm_andnot_ps(dummy_mask,velec);
906	velecsum = _mm_add_ps(velecsum,velec);
907
908	fscal = felec;
909
910	fscal = _mm_andnot_ps(dummy_mask,fscal);
911
912	/* Calculate temporary vectorial force */
913	tx = _mm_mul_ps(fscal,dx11);
914	ty = _mm_mul_ps(fscal,dy11);
915	tz = _mm_mul_ps(fscal,dz11);
916
917	/* Update vectorial force */
918	fix1 = _mm_add_ps(fix1,tx);
919	fiy1 = _mm_add_ps(fiy1,ty);
920	fiz1 = _mm_add_ps(fiz1,tz);
921
922	fjx1 = _mm_add_ps(fjx1,tx);
923	fjy1 = _mm_add_ps(fjy1,ty);
924	fjz1 = _mm_add_ps(fjz1,tz);
925
926	/**************************
927	* CALCULATE INTERACTIONS *
928	**************************/
929
930	r12 = _mm_mul_ps(rsq12,rinv12);
931	r12 = _mm_andnot_ps(dummy_mask,r12);
932
933	/* EWALD ELECTROSTATICS */
934
935	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
936	ewrt = _mm_mul_ps(r12,ewtabscale);
937	ewitab = _mm_cvttps_epi32(ewrt);
938	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
939	ewitab = _mm_slli_epi32(ewitab,2);
940	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
941	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
942	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
943	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
944	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
945	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
946	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
947	velec = _mm_mul_ps(qq12,_mm_sub_ps(rinv12,velec));
948	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
949
950	/* Update potential sum for this i atom from the interaction with this j atom. */
951	velec = _mm_andnot_ps(dummy_mask,velec);
952	velecsum = _mm_add_ps(velecsum,velec);
953
954	fscal = felec;
955
956	fscal = _mm_andnot_ps(dummy_mask,fscal);
957
958	/* Calculate temporary vectorial force */
959	tx = _mm_mul_ps(fscal,dx12);
960	ty = _mm_mul_ps(fscal,dy12);
961	tz = _mm_mul_ps(fscal,dz12);
962
963	/* Update vectorial force */
964	fix1 = _mm_add_ps(fix1,tx);
965	fiy1 = _mm_add_ps(fiy1,ty);
966	fiz1 = _mm_add_ps(fiz1,tz);
967
968	fjx2 = _mm_add_ps(fjx2,tx);
969	fjy2 = _mm_add_ps(fjy2,ty);
970	fjz2 = _mm_add_ps(fjz2,tz);
971
972	/**************************
973	* CALCULATE INTERACTIONS *
974	**************************/
975
976	r13 = _mm_mul_ps(rsq13,rinv13);
977	r13 = _mm_andnot_ps(dummy_mask,r13);
978
979	/* EWALD ELECTROSTATICS */
980
981	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
982	ewrt = _mm_mul_ps(r13,ewtabscale);
983	ewitab = _mm_cvttps_epi32(ewrt);
984	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
985	ewitab = _mm_slli_epi32(ewitab,2);
986	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
987	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
988	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
989	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
990	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
991	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
992	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
993	velec = _mm_mul_ps(qq13,_mm_sub_ps(rinv13,velec));
994	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
995
996	/* Update potential sum for this i atom from the interaction with this j atom. */
997	velec = _mm_andnot_ps(dummy_mask,velec);
998	velecsum = _mm_add_ps(velecsum,velec);
999
1000	fscal = felec;
1001
1002	fscal = _mm_andnot_ps(dummy_mask,fscal);
1003
1004	/* Calculate temporary vectorial force */
1005	tx = _mm_mul_ps(fscal,dx13);
1006	ty = _mm_mul_ps(fscal,dy13);
1007	tz = _mm_mul_ps(fscal,dz13);
1008
1009	/* Update vectorial force */
1010	fix1 = _mm_add_ps(fix1,tx);
1011	fiy1 = _mm_add_ps(fiy1,ty);
1012	fiz1 = _mm_add_ps(fiz1,tz);
1013
1014	fjx3 = _mm_add_ps(fjx3,tx);
1015	fjy3 = _mm_add_ps(fjy3,ty);
1016	fjz3 = _mm_add_ps(fjz3,tz);
1017
1018	/**************************
1019	* CALCULATE INTERACTIONS *
1020	**************************/
1021
1022	r21 = _mm_mul_ps(rsq21,rinv21);
1023	r21 = _mm_andnot_ps(dummy_mask,r21);
1024
1025	/* EWALD ELECTROSTATICS */
1026
1027	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1028	ewrt = _mm_mul_ps(r21,ewtabscale);
1029	ewitab = _mm_cvttps_epi32(ewrt);
1030	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1031	ewitab = _mm_slli_epi32(ewitab,2);
1032	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1033	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1034	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1035	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1036	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1037	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1038	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1039	velec = _mm_mul_ps(qq21,_mm_sub_ps(rinv21,velec));
1040	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
1041
1042	/* Update potential sum for this i atom from the interaction with this j atom. */
1043	velec = _mm_andnot_ps(dummy_mask,velec);
1044	velecsum = _mm_add_ps(velecsum,velec);
1045
1046	fscal = felec;
1047
1048	fscal = _mm_andnot_ps(dummy_mask,fscal);
1049
1050	/* Calculate temporary vectorial force */
1051	tx = _mm_mul_ps(fscal,dx21);
1052	ty = _mm_mul_ps(fscal,dy21);
1053	tz = _mm_mul_ps(fscal,dz21);
1054
1055	/* Update vectorial force */
1056	fix2 = _mm_add_ps(fix2,tx);
1057	fiy2 = _mm_add_ps(fiy2,ty);
1058	fiz2 = _mm_add_ps(fiz2,tz);
1059
1060	fjx1 = _mm_add_ps(fjx1,tx);
1061	fjy1 = _mm_add_ps(fjy1,ty);
1062	fjz1 = _mm_add_ps(fjz1,tz);
1063
1064	/**************************
1065	* CALCULATE INTERACTIONS *
1066	**************************/
1067
1068	r22 = _mm_mul_ps(rsq22,rinv22);
1069	r22 = _mm_andnot_ps(dummy_mask,r22);
1070
1071	/* EWALD ELECTROSTATICS */
1072
1073	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1074	ewrt = _mm_mul_ps(r22,ewtabscale);
1075	ewitab = _mm_cvttps_epi32(ewrt);
1076	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1077	ewitab = _mm_slli_epi32(ewitab,2);
1078	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1079	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1080	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1081	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1082	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1083	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1084	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1085	velec = _mm_mul_ps(qq22,_mm_sub_ps(rinv22,velec));
1086	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
1087
1088	/* Update potential sum for this i atom from the interaction with this j atom. */
1089	velec = _mm_andnot_ps(dummy_mask,velec);
1090	velecsum = _mm_add_ps(velecsum,velec);
1091
1092	fscal = felec;
1093
1094	fscal = _mm_andnot_ps(dummy_mask,fscal);
1095
1096	/* Calculate temporary vectorial force */
1097	tx = _mm_mul_ps(fscal,dx22);
1098	ty = _mm_mul_ps(fscal,dy22);
1099	tz = _mm_mul_ps(fscal,dz22);
1100
1101	/* Update vectorial force */
1102	fix2 = _mm_add_ps(fix2,tx);
1103	fiy2 = _mm_add_ps(fiy2,ty);
1104	fiz2 = _mm_add_ps(fiz2,tz);
1105
1106	fjx2 = _mm_add_ps(fjx2,tx);
1107	fjy2 = _mm_add_ps(fjy2,ty);
1108	fjz2 = _mm_add_ps(fjz2,tz);
1109
1110	/**************************
1111	* CALCULATE INTERACTIONS *
1112	**************************/
1113
1114	r23 = _mm_mul_ps(rsq23,rinv23);
1115	r23 = _mm_andnot_ps(dummy_mask,r23);
1116
1117	/* EWALD ELECTROSTATICS */
1118
1119	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1120	ewrt = _mm_mul_ps(r23,ewtabscale);
1121	ewitab = _mm_cvttps_epi32(ewrt);
1122	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1123	ewitab = _mm_slli_epi32(ewitab,2);
1124	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1125	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1126	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1127	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1128	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1129	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1130	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1131	velec = _mm_mul_ps(qq23,_mm_sub_ps(rinv23,velec));
1132	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
1133
1134	/* Update potential sum for this i atom from the interaction with this j atom. */
1135	velec = _mm_andnot_ps(dummy_mask,velec);
1136	velecsum = _mm_add_ps(velecsum,velec);
1137
1138	fscal = felec;
1139
1140	fscal = _mm_andnot_ps(dummy_mask,fscal);
1141
1142	/* Calculate temporary vectorial force */
1143	tx = _mm_mul_ps(fscal,dx23);
1144	ty = _mm_mul_ps(fscal,dy23);
1145	tz = _mm_mul_ps(fscal,dz23);
1146
1147	/* Update vectorial force */
1148	fix2 = _mm_add_ps(fix2,tx);
1149	fiy2 = _mm_add_ps(fiy2,ty);
1150	fiz2 = _mm_add_ps(fiz2,tz);
1151
1152	fjx3 = _mm_add_ps(fjx3,tx);
1153	fjy3 = _mm_add_ps(fjy3,ty);
1154	fjz3 = _mm_add_ps(fjz3,tz);
1155
1156	/**************************
1157	* CALCULATE INTERACTIONS *
1158	**************************/
1159
1160	r31 = _mm_mul_ps(rsq31,rinv31);
1161	r31 = _mm_andnot_ps(dummy_mask,r31);
1162
1163	/* EWALD ELECTROSTATICS */
1164
1165	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1166	ewrt = _mm_mul_ps(r31,ewtabscale);
1167	ewitab = _mm_cvttps_epi32(ewrt);
1168	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1169	ewitab = _mm_slli_epi32(ewitab,2);
1170	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1171	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1172	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1173	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1174	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1175	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1176	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1177	velec = _mm_mul_ps(qq31,_mm_sub_ps(rinv31,velec));
1178	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
1179
1180	/* Update potential sum for this i atom from the interaction with this j atom. */
1181	velec = _mm_andnot_ps(dummy_mask,velec);
1182	velecsum = _mm_add_ps(velecsum,velec);
1183
1184	fscal = felec;
1185
1186	fscal = _mm_andnot_ps(dummy_mask,fscal);
1187
1188	/* Calculate temporary vectorial force */
1189	tx = _mm_mul_ps(fscal,dx31);
1190	ty = _mm_mul_ps(fscal,dy31);
1191	tz = _mm_mul_ps(fscal,dz31);
1192
1193	/* Update vectorial force */
1194	fix3 = _mm_add_ps(fix3,tx);
1195	fiy3 = _mm_add_ps(fiy3,ty);
1196	fiz3 = _mm_add_ps(fiz3,tz);
1197
1198	fjx1 = _mm_add_ps(fjx1,tx);
1199	fjy1 = _mm_add_ps(fjy1,ty);
1200	fjz1 = _mm_add_ps(fjz1,tz);
1201
1202	/**************************
1203	* CALCULATE INTERACTIONS *
1204	**************************/
1205
1206	r32 = _mm_mul_ps(rsq32,rinv32);
1207	r32 = _mm_andnot_ps(dummy_mask,r32);
1208
1209	/* EWALD ELECTROSTATICS */
1210
1211	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1212	ewrt = _mm_mul_ps(r32,ewtabscale);
1213	ewitab = _mm_cvttps_epi32(ewrt);
1214	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1215	ewitab = _mm_slli_epi32(ewitab,2);
1216	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1217	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1218	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1219	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1220	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1221	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1222	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1223	velec = _mm_mul_ps(qq32,_mm_sub_ps(rinv32,velec));
1224	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
1225
1226	/* Update potential sum for this i atom from the interaction with this j atom. */
1227	velec = _mm_andnot_ps(dummy_mask,velec);
1228	velecsum = _mm_add_ps(velecsum,velec);
1229
1230	fscal = felec;
1231
1232	fscal = _mm_andnot_ps(dummy_mask,fscal);
1233
1234	/* Calculate temporary vectorial force */
1235	tx = _mm_mul_ps(fscal,dx32);
1236	ty = _mm_mul_ps(fscal,dy32);
1237	tz = _mm_mul_ps(fscal,dz32);
1238
1239	/* Update vectorial force */
1240	fix3 = _mm_add_ps(fix3,tx);
1241	fiy3 = _mm_add_ps(fiy3,ty);
1242	fiz3 = _mm_add_ps(fiz3,tz);
1243
1244	fjx2 = _mm_add_ps(fjx2,tx);
1245	fjy2 = _mm_add_ps(fjy2,ty);
1246	fjz2 = _mm_add_ps(fjz2,tz);
1247
1248	/**************************
1249	* CALCULATE INTERACTIONS *
1250	**************************/
1251
1252	r33 = _mm_mul_ps(rsq33,rinv33);
1253	r33 = _mm_andnot_ps(dummy_mask,r33);
1254
1255	/* EWALD ELECTROSTATICS */
1256
1257	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1258	ewrt = _mm_mul_ps(r33,ewtabscale);
1259	ewitab = _mm_cvttps_epi32(ewrt);
1260	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1261	ewitab = _mm_slli_epi32(ewitab,2);
1262	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1263	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1264	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1265	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1266	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1267	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1268	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1269	velec = _mm_mul_ps(qq33,_mm_sub_ps(rinv33,velec));
1270	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
1271
1272	/* Update potential sum for this i atom from the interaction with this j atom. */
1273	velec = _mm_andnot_ps(dummy_mask,velec);
1274	velecsum = _mm_add_ps(velecsum,velec);
1275
1276	fscal = felec;
1277
1278	fscal = _mm_andnot_ps(dummy_mask,fscal);
1279
1280	/* Calculate temporary vectorial force */
1281	tx = _mm_mul_ps(fscal,dx33);
1282	ty = _mm_mul_ps(fscal,dy33);
1283	tz = _mm_mul_ps(fscal,dz33);
1284
1285	/* Update vectorial force */
1286	fix3 = _mm_add_ps(fix3,tx);
1287	fiy3 = _mm_add_ps(fiy3,ty);
1288	fiz3 = _mm_add_ps(fiz3,tz);
1289
1290	fjx3 = _mm_add_ps(fjx3,tx);
1291	fjy3 = _mm_add_ps(fjy3,ty);
1292	fjz3 = _mm_add_ps(fjz3,tz);
1293
1294	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1295	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1296	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1297	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1298
1299	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1300	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1301	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1302
1303	/* Inner loop uses 413 flops */
1304	}
1305
1306	/* End of innermost loop */
1307
1308	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1309	f+i_coord_offset,fshift+i_shift_offset);
1310
1311	ggid = gid[iidx];
1312	/* Update potential energies */
1313	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
1314	gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
1315
1316	/* Increment number of inner iterations */
1317	inneriter += j_index_end - j_index_start;
1318
1319	/* Outer loop uses 26 flops */
1320	}
1321
1322	/* Increment number of outer iterations */
1323	outeriter += nri;
1324
1325	/* Update outer/inner flops */
1326
1327	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_VF,outeriter26 + inneriter413)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_VF] += outeriter26 + inneriter413;
1328	}
1329	/*
1330	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwLJ_GeomW4W4_F_sse4_1_single
1331	* Electrostatics interaction: Ewald
1332	* VdW interaction: LennardJones
1333	* Geometry: Water4-Water4
1334	* Calculate force/pot: Force
1335	*/
1336	void
1337	nb_kernel_ElecEw_VdwLJ_GeomW4W4_F_sse4_1_single
1338	(t_nblist * gmx_restrict nlist,
1339	rvec * gmx_restrict xx,
1340	rvec * gmx_restrict ff,
1341	t_forcerec * gmx_restrict fr,
1342	t_mdatoms * gmx_restrict mdatoms,
1343	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
1344	t_nrnb * gmx_restrict nrnb)
1345	{
1346	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
1347	* just 0 for non-waters.
1348	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
1349	* jnr indices corresponding to data put in the four positions in the SIMD register.
1350	*/
1351	int i_shift_offset,i_coord_offset,outeriter,inneriter;
1352	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
1353	int jnrA,jnrB,jnrC,jnrD;
1354	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
1355	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
1356	int iinr,jindex,jjnr,shiftidx,*gid;
1357	real rcutoff_scalar;
1358	real shiftvec,fshift,x,f;
1359	real fjptrA,fjptrB,fjptrC,fjptrD;
1360	real scratch[4*DIM3];
1361	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
1362	int vdwioffset0;
1363	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
1364	int vdwioffset1;
1365	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
1366	int vdwioffset2;
1367	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
1368	int vdwioffset3;
1369	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
1370	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
1371	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
1372	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
1373	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
1374	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
1375	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
1376	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
1377	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
1378	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
1379	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
1380	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
1381	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
1382	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
1383	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
1384	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
1385	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
1386	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
1387	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
1388	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
1389	real *charge;
1390	int nvdwtype;
1391	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
1392	int *vdwtype;
1393	real *vdwparam;
1394	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
1395	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
1396	__m128i ewitab;
1397	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
1398	real *ewtab;
1399	__m128 dummy_mask,cutoff_mask;
1400	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
1401	__m128 one = _mm_set1_ps(1.0);
1402	__m128 two = _mm_set1_ps(2.0);
1403	x = xx[0];
1404	f = ff[0];
1405
1406	nri = nlist->nri;
1407	iinr = nlist->iinr;
1408	jindex = nlist->jindex;
1409	jjnr = nlist->jjnr;
1410	shiftidx = nlist->shift;
1411	gid = nlist->gid;
1412	shiftvec = fr->shift_vec[0];
1413	fshift = fr->fshift[0];
1414	facel = _mm_set1_ps(fr->epsfac);
1415	charge = mdatoms->chargeA;
1416	nvdwtype = fr->ntype;
1417	vdwparam = fr->nbfp;
1418	vdwtype = mdatoms->typeA;
1419
1420	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
1421	ewtab = fr->ic->tabq_coul_F;
1422	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
1423	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
1424
1425	/* Setup water-specific parameters */
1426	inr = nlist->iinr[0];
1427	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
1428	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
1429	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
1430	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
1431
1432	jq1 = _mm_set1_ps(charge[inr+1]);
1433	jq2 = _mm_set1_ps(charge[inr+2]);
1434	jq3 = _mm_set1_ps(charge[inr+3]);
1435	vdwjidx0A = 2*vdwtype[inr+0];
1436	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
1437	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
1438	qq11 = _mm_mul_ps(iq1,jq1);
1439	qq12 = _mm_mul_ps(iq1,jq2);
1440	qq13 = _mm_mul_ps(iq1,jq3);
1441	qq21 = _mm_mul_ps(iq2,jq1);
1442	qq22 = _mm_mul_ps(iq2,jq2);
1443	qq23 = _mm_mul_ps(iq2,jq3);
1444	qq31 = _mm_mul_ps(iq3,jq1);
1445	qq32 = _mm_mul_ps(iq3,jq2);
1446	qq33 = _mm_mul_ps(iq3,jq3);
1447
1448	/* Avoid stupid compiler warnings */
1449	jnrA = jnrB = jnrC = jnrD = 0;
1450	j_coord_offsetA = 0;
1451	j_coord_offsetB = 0;
1452	j_coord_offsetC = 0;
1453	j_coord_offsetD = 0;
1454
1455	outeriter = 0;
1456	inneriter = 0;
1457
1458	for(iidx=0;iidx<4*DIM3;iidx++)
1459	{
1460	scratch[iidx] = 0.0;
1461	}
1462
1463	/* Start outer loop over neighborlists */
1464	for(iidx=0; iidx<nri; iidx++)
1465	{
1466	/* Load shift vector for this list */
1467	i_shift_offset = DIM3*shiftidx[iidx];
1468
1469	/* Load limits for loop over neighbors */
1470	j_index_start = jindex[iidx];
1471	j_index_end = jindex[iidx+1];
1472
1473	/* Get outer coordinate index */
1474	inr = iinr[iidx];
1475	i_coord_offset = DIM3*inr;
1476
1477	/* Load i particle coords and add shift vector */
1478	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
1479	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
1480
1481	fix0 = _mm_setzero_ps();
1482	fiy0 = _mm_setzero_ps();
1483	fiz0 = _mm_setzero_ps();
1484	fix1 = _mm_setzero_ps();
1485	fiy1 = _mm_setzero_ps();
1486	fiz1 = _mm_setzero_ps();
1487	fix2 = _mm_setzero_ps();
1488	fiy2 = _mm_setzero_ps();
1489	fiz2 = _mm_setzero_ps();
1490	fix3 = _mm_setzero_ps();
1491	fiy3 = _mm_setzero_ps();
1492	fiz3 = _mm_setzero_ps();
1493
1494	/* Start inner kernel loop */
1495	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1496	{
1497
1498	/* Get j neighbor index, and coordinate index */
1499	jnrA = jjnr[jidx];
1500	jnrB = jjnr[jidx+1];
1501	jnrC = jjnr[jidx+2];
1502	jnrD = jjnr[jidx+3];
1503	j_coord_offsetA = DIM3*jnrA;
1504	j_coord_offsetB = DIM3*jnrB;
1505	j_coord_offsetC = DIM3*jnrC;
1506	j_coord_offsetD = DIM3*jnrD;
1507
1508	/* load j atom coordinates */
1509	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1510	x+j_coord_offsetC,x+j_coord_offsetD,
1511	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1512	&jy2,&jz2,&jx3,&jy3,&jz3);
1513
1514	/* Calculate displacement vector */
1515	dx00 = _mm_sub_ps(ix0,jx0);
1516	dy00 = _mm_sub_ps(iy0,jy0);
1517	dz00 = _mm_sub_ps(iz0,jz0);
1518	dx11 = _mm_sub_ps(ix1,jx1);
1519	dy11 = _mm_sub_ps(iy1,jy1);
1520	dz11 = _mm_sub_ps(iz1,jz1);
1521	dx12 = _mm_sub_ps(ix1,jx2);
1522	dy12 = _mm_sub_ps(iy1,jy2);
1523	dz12 = _mm_sub_ps(iz1,jz2);
1524	dx13 = _mm_sub_ps(ix1,jx3);
1525	dy13 = _mm_sub_ps(iy1,jy3);
1526	dz13 = _mm_sub_ps(iz1,jz3);
1527	dx21 = _mm_sub_ps(ix2,jx1);
1528	dy21 = _mm_sub_ps(iy2,jy1);
1529	dz21 = _mm_sub_ps(iz2,jz1);
1530	dx22 = _mm_sub_ps(ix2,jx2);
1531	dy22 = _mm_sub_ps(iy2,jy2);
1532	dz22 = _mm_sub_ps(iz2,jz2);
1533	dx23 = _mm_sub_ps(ix2,jx3);
1534	dy23 = _mm_sub_ps(iy2,jy3);
1535	dz23 = _mm_sub_ps(iz2,jz3);
1536	dx31 = _mm_sub_ps(ix3,jx1);
1537	dy31 = _mm_sub_ps(iy3,jy1);
1538	dz31 = _mm_sub_ps(iz3,jz1);
1539	dx32 = _mm_sub_ps(ix3,jx2);
1540	dy32 = _mm_sub_ps(iy3,jy2);
1541	dz32 = _mm_sub_ps(iz3,jz2);
1542	dx33 = _mm_sub_ps(ix3,jx3);
1543	dy33 = _mm_sub_ps(iy3,jy3);
1544	dz33 = _mm_sub_ps(iz3,jz3);
1545
1546	/* Calculate squared distance and things based on it */
1547	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1548	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1549	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1550	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1551	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1552	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1553	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1554	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1555	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1556	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1557
1558	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1559	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1560	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
1561	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1562	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1563	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
1564	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
1565	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
1566	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
1567
1568	rinvsq00 = gmx_mm_inv_psgmx_simd_inv_f(rsq00);
1569	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1570	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1571	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
1572	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1573	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1574	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
1575	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
1576	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
1577	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
1578
1579	fjx0 = _mm_setzero_ps();
1580	fjy0 = _mm_setzero_ps();
1581	fjz0 = _mm_setzero_ps();
1582	fjx1 = _mm_setzero_ps();
1583	fjy1 = _mm_setzero_ps();
1584	fjz1 = _mm_setzero_ps();
1585	fjx2 = _mm_setzero_ps();
1586	fjy2 = _mm_setzero_ps();
1587	fjz2 = _mm_setzero_ps();
1588	fjx3 = _mm_setzero_ps();
1589	fjy3 = _mm_setzero_ps();
1590	fjz3 = _mm_setzero_ps();
1591
1592	/**************************
1593	* CALCULATE INTERACTIONS *
1594	**************************/
1595
1596	/* LENNARD-JONES DISPERSION/REPULSION */
1597
1598	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
1599	fvdw = _mm_mul_ps(_mm_sub_ps(_mm_mul_ps(c12_00,rinvsix),c6_00),_mm_mul_ps(rinvsix,rinvsq00));
1600
1601	fscal = fvdw;
1602
1603	/* Calculate temporary vectorial force */
1604	tx = _mm_mul_ps(fscal,dx00);
1605	ty = _mm_mul_ps(fscal,dy00);
1606	tz = _mm_mul_ps(fscal,dz00);
1607
1608	/* Update vectorial force */
1609	fix0 = _mm_add_ps(fix0,tx);
1610	fiy0 = _mm_add_ps(fiy0,ty);
1611	fiz0 = _mm_add_ps(fiz0,tz);
1612
1613	fjx0 = _mm_add_ps(fjx0,tx);
1614	fjy0 = _mm_add_ps(fjy0,ty);
1615	fjz0 = _mm_add_ps(fjz0,tz);
1616
1617	/**************************
1618	* CALCULATE INTERACTIONS *
1619	**************************/
1620
1621	r11 = _mm_mul_ps(rsq11,rinv11);
1622
1623	/* EWALD ELECTROSTATICS */
1624
1625	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1626	ewrt = _mm_mul_ps(r11,ewtabscale);
1627	ewitab = _mm_cvttps_epi32(ewrt);
1628	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1629	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1630	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1631	&ewtabF,&ewtabFn);
1632	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1633	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
1634
1635	fscal = felec;
1636
1637	/* Calculate temporary vectorial force */
1638	tx = _mm_mul_ps(fscal,dx11);
1639	ty = _mm_mul_ps(fscal,dy11);
1640	tz = _mm_mul_ps(fscal,dz11);
1641
1642	/* Update vectorial force */
1643	fix1 = _mm_add_ps(fix1,tx);
1644	fiy1 = _mm_add_ps(fiy1,ty);
1645	fiz1 = _mm_add_ps(fiz1,tz);
1646
1647	fjx1 = _mm_add_ps(fjx1,tx);
1648	fjy1 = _mm_add_ps(fjy1,ty);
1649	fjz1 = _mm_add_ps(fjz1,tz);
1650
1651	/**************************
1652	* CALCULATE INTERACTIONS *
1653	**************************/
1654
1655	r12 = _mm_mul_ps(rsq12,rinv12);
1656
1657	/* EWALD ELECTROSTATICS */
1658
1659	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1660	ewrt = _mm_mul_ps(r12,ewtabscale);
1661	ewitab = _mm_cvttps_epi32(ewrt);
1662	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1663	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1664	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1665	&ewtabF,&ewtabFn);
1666	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1667	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
1668
1669	fscal = felec;
1670
1671	/* Calculate temporary vectorial force */
1672	tx = _mm_mul_ps(fscal,dx12);
1673	ty = _mm_mul_ps(fscal,dy12);
1674	tz = _mm_mul_ps(fscal,dz12);
1675
1676	/* Update vectorial force */
1677	fix1 = _mm_add_ps(fix1,tx);
1678	fiy1 = _mm_add_ps(fiy1,ty);
1679	fiz1 = _mm_add_ps(fiz1,tz);
1680
1681	fjx2 = _mm_add_ps(fjx2,tx);
1682	fjy2 = _mm_add_ps(fjy2,ty);
1683	fjz2 = _mm_add_ps(fjz2,tz);
1684
1685	/**************************
1686	* CALCULATE INTERACTIONS *
1687	**************************/
1688
1689	r13 = _mm_mul_ps(rsq13,rinv13);
1690
1691	/* EWALD ELECTROSTATICS */
1692
1693	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1694	ewrt = _mm_mul_ps(r13,ewtabscale);
1695	ewitab = _mm_cvttps_epi32(ewrt);
1696	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1697	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1698	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1699	&ewtabF,&ewtabFn);
1700	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1701	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
1702
1703	fscal = felec;
1704
1705	/* Calculate temporary vectorial force */
1706	tx = _mm_mul_ps(fscal,dx13);
1707	ty = _mm_mul_ps(fscal,dy13);
1708	tz = _mm_mul_ps(fscal,dz13);
1709
1710	/* Update vectorial force */
1711	fix1 = _mm_add_ps(fix1,tx);
1712	fiy1 = _mm_add_ps(fiy1,ty);
1713	fiz1 = _mm_add_ps(fiz1,tz);
1714
1715	fjx3 = _mm_add_ps(fjx3,tx);
1716	fjy3 = _mm_add_ps(fjy3,ty);
1717	fjz3 = _mm_add_ps(fjz3,tz);
1718
1719	/**************************
1720	* CALCULATE INTERACTIONS *
1721	**************************/
1722
1723	r21 = _mm_mul_ps(rsq21,rinv21);
1724
1725	/* EWALD ELECTROSTATICS */
1726
1727	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1728	ewrt = _mm_mul_ps(r21,ewtabscale);
1729	ewitab = _mm_cvttps_epi32(ewrt);
1730	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1731	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1732	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1733	&ewtabF,&ewtabFn);
1734	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1735	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
1736
1737	fscal = felec;
1738
1739	/* Calculate temporary vectorial force */
1740	tx = _mm_mul_ps(fscal,dx21);
1741	ty = _mm_mul_ps(fscal,dy21);
1742	tz = _mm_mul_ps(fscal,dz21);
1743
1744	/* Update vectorial force */
1745	fix2 = _mm_add_ps(fix2,tx);
1746	fiy2 = _mm_add_ps(fiy2,ty);
1747	fiz2 = _mm_add_ps(fiz2,tz);
1748
1749	fjx1 = _mm_add_ps(fjx1,tx);
1750	fjy1 = _mm_add_ps(fjy1,ty);
1751	fjz1 = _mm_add_ps(fjz1,tz);
1752
1753	/**************************
1754	* CALCULATE INTERACTIONS *
1755	**************************/
1756
1757	r22 = _mm_mul_ps(rsq22,rinv22);
1758
1759	/* EWALD ELECTROSTATICS */
1760
1761	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1762	ewrt = _mm_mul_ps(r22,ewtabscale);
1763	ewitab = _mm_cvttps_epi32(ewrt);
1764	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1765	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1766	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1767	&ewtabF,&ewtabFn);
1768	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1769	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
1770
1771	fscal = felec;
1772
1773	/* Calculate temporary vectorial force */
1774	tx = _mm_mul_ps(fscal,dx22);
1775	ty = _mm_mul_ps(fscal,dy22);
1776	tz = _mm_mul_ps(fscal,dz22);
1777
1778	/* Update vectorial force */
1779	fix2 = _mm_add_ps(fix2,tx);
1780	fiy2 = _mm_add_ps(fiy2,ty);
1781	fiz2 = _mm_add_ps(fiz2,tz);
1782
1783	fjx2 = _mm_add_ps(fjx2,tx);
1784	fjy2 = _mm_add_ps(fjy2,ty);
1785	fjz2 = _mm_add_ps(fjz2,tz);
1786
1787	/**************************
1788	* CALCULATE INTERACTIONS *
1789	**************************/
1790
1791	r23 = _mm_mul_ps(rsq23,rinv23);
1792
1793	/* EWALD ELECTROSTATICS */
1794
1795	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1796	ewrt = _mm_mul_ps(r23,ewtabscale);
1797	ewitab = _mm_cvttps_epi32(ewrt);
1798	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1799	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1800	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1801	&ewtabF,&ewtabFn);
1802	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1803	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
1804
1805	fscal = felec;
1806
1807	/* Calculate temporary vectorial force */
1808	tx = _mm_mul_ps(fscal,dx23);
1809	ty = _mm_mul_ps(fscal,dy23);
1810	tz = _mm_mul_ps(fscal,dz23);
1811
1812	/* Update vectorial force */
1813	fix2 = _mm_add_ps(fix2,tx);
1814	fiy2 = _mm_add_ps(fiy2,ty);
1815	fiz2 = _mm_add_ps(fiz2,tz);
1816
1817	fjx3 = _mm_add_ps(fjx3,tx);
1818	fjy3 = _mm_add_ps(fjy3,ty);
1819	fjz3 = _mm_add_ps(fjz3,tz);
1820
1821	/**************************
1822	* CALCULATE INTERACTIONS *
1823	**************************/
1824
1825	r31 = _mm_mul_ps(rsq31,rinv31);
1826
1827	/* EWALD ELECTROSTATICS */
1828
1829	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1830	ewrt = _mm_mul_ps(r31,ewtabscale);
1831	ewitab = _mm_cvttps_epi32(ewrt);
1832	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1833	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1834	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1835	&ewtabF,&ewtabFn);
1836	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1837	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
1838
1839	fscal = felec;
1840
1841	/* Calculate temporary vectorial force */
1842	tx = _mm_mul_ps(fscal,dx31);
1843	ty = _mm_mul_ps(fscal,dy31);
1844	tz = _mm_mul_ps(fscal,dz31);
1845
1846	/* Update vectorial force */
1847	fix3 = _mm_add_ps(fix3,tx);
1848	fiy3 = _mm_add_ps(fiy3,ty);
1849	fiz3 = _mm_add_ps(fiz3,tz);
1850
1851	fjx1 = _mm_add_ps(fjx1,tx);
1852	fjy1 = _mm_add_ps(fjy1,ty);
1853	fjz1 = _mm_add_ps(fjz1,tz);
1854
1855	/**************************
1856	* CALCULATE INTERACTIONS *
1857	**************************/
1858
1859	r32 = _mm_mul_ps(rsq32,rinv32);
1860
1861	/* EWALD ELECTROSTATICS */
1862
1863	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1864	ewrt = _mm_mul_ps(r32,ewtabscale);
1865	ewitab = _mm_cvttps_epi32(ewrt);
1866	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1867	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1868	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1869	&ewtabF,&ewtabFn);
1870	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1871	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
1872
1873	fscal = felec;
1874
1875	/* Calculate temporary vectorial force */
1876	tx = _mm_mul_ps(fscal,dx32);
1877	ty = _mm_mul_ps(fscal,dy32);
1878	tz = _mm_mul_ps(fscal,dz32);
1879
1880	/* Update vectorial force */
1881	fix3 = _mm_add_ps(fix3,tx);
1882	fiy3 = _mm_add_ps(fiy3,ty);
1883	fiz3 = _mm_add_ps(fiz3,tz);
1884
1885	fjx2 = _mm_add_ps(fjx2,tx);
1886	fjy2 = _mm_add_ps(fjy2,ty);
1887	fjz2 = _mm_add_ps(fjz2,tz);
1888
1889	/**************************
1890	* CALCULATE INTERACTIONS *
1891	**************************/
1892
1893	r33 = _mm_mul_ps(rsq33,rinv33);
1894
1895	/* EWALD ELECTROSTATICS */
1896
1897	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1898	ewrt = _mm_mul_ps(r33,ewtabscale);
1899	ewitab = _mm_cvttps_epi32(ewrt);
1900	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1901	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1902	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1903	&ewtabF,&ewtabFn);
1904	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1905	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
1906
1907	fscal = felec;
1908
1909	/* Calculate temporary vectorial force */
1910	tx = _mm_mul_ps(fscal,dx33);
1911	ty = _mm_mul_ps(fscal,dy33);
1912	tz = _mm_mul_ps(fscal,dz33);
1913
1914	/* Update vectorial force */
1915	fix3 = _mm_add_ps(fix3,tx);
1916	fiy3 = _mm_add_ps(fiy3,ty);
1917	fiz3 = _mm_add_ps(fiz3,tz);
1918
1919	fjx3 = _mm_add_ps(fjx3,tx);
1920	fjy3 = _mm_add_ps(fjy3,ty);
1921	fjz3 = _mm_add_ps(fjz3,tz);
1922
1923	fjptrA = f+j_coord_offsetA;
1924	fjptrB = f+j_coord_offsetB;
1925	fjptrC = f+j_coord_offsetC;
1926	fjptrD = f+j_coord_offsetD;
1927
1928	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1929	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1930	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1931
1932	/* Inner loop uses 354 flops */
1933	}
1934
1935	if(jidx<j_index_end)
1936	{
1937
1938	/* Get j neighbor index, and coordinate index */
1939	jnrlistA = jjnr[jidx];
1940	jnrlistB = jjnr[jidx+1];
1941	jnrlistC = jjnr[jidx+2];
1942	jnrlistD = jjnr[jidx+3];
1943	/* Sign of each element will be negative for non-real atoms.
1944	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1945	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1946	*/
1947	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1948	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
1949	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
1950	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
1951	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
1952	j_coord_offsetA = DIM3*jnrA;
1953	j_coord_offsetB = DIM3*jnrB;
1954	j_coord_offsetC = DIM3*jnrC;
1955	j_coord_offsetD = DIM3*jnrD;
1956
1957	/* load j atom coordinates */
1958	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1959	x+j_coord_offsetC,x+j_coord_offsetD,
1960	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1961	&jy2,&jz2,&jx3,&jy3,&jz3);
1962
1963	/* Calculate displacement vector */
1964	dx00 = _mm_sub_ps(ix0,jx0);
1965	dy00 = _mm_sub_ps(iy0,jy0);
1966	dz00 = _mm_sub_ps(iz0,jz0);
1967	dx11 = _mm_sub_ps(ix1,jx1);
1968	dy11 = _mm_sub_ps(iy1,jy1);
1969	dz11 = _mm_sub_ps(iz1,jz1);
1970	dx12 = _mm_sub_ps(ix1,jx2);
1971	dy12 = _mm_sub_ps(iy1,jy2);
1972	dz12 = _mm_sub_ps(iz1,jz2);
1973	dx13 = _mm_sub_ps(ix1,jx3);
1974	dy13 = _mm_sub_ps(iy1,jy3);
1975	dz13 = _mm_sub_ps(iz1,jz3);
1976	dx21 = _mm_sub_ps(ix2,jx1);
1977	dy21 = _mm_sub_ps(iy2,jy1);
1978	dz21 = _mm_sub_ps(iz2,jz1);
1979	dx22 = _mm_sub_ps(ix2,jx2);
1980	dy22 = _mm_sub_ps(iy2,jy2);
1981	dz22 = _mm_sub_ps(iz2,jz2);
1982	dx23 = _mm_sub_ps(ix2,jx3);
1983	dy23 = _mm_sub_ps(iy2,jy3);
1984	dz23 = _mm_sub_ps(iz2,jz3);
1985	dx31 = _mm_sub_ps(ix3,jx1);
1986	dy31 = _mm_sub_ps(iy3,jy1);
1987	dz31 = _mm_sub_ps(iz3,jz1);
1988	dx32 = _mm_sub_ps(ix3,jx2);
1989	dy32 = _mm_sub_ps(iy3,jy2);
1990	dz32 = _mm_sub_ps(iz3,jz2);
1991	dx33 = _mm_sub_ps(ix3,jx3);
1992	dy33 = _mm_sub_ps(iy3,jy3);
1993	dz33 = _mm_sub_ps(iz3,jz3);
1994
1995	/* Calculate squared distance and things based on it */
1996	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1997	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1998	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1999	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
2000	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
2001	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
2002	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
2003	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
2004	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
2005	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
2006
2007	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
2008	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
2009	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
2010	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
2011	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
2012	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
2013	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
2014	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
2015	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
2016
2017	rinvsq00 = gmx_mm_inv_psgmx_simd_inv_f(rsq00);
2018	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
2019	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
2020	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
2021	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
2022	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
2023	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
2024	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
2025	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
2026	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
2027
2028	fjx0 = _mm_setzero_ps();
2029	fjy0 = _mm_setzero_ps();
2030	fjz0 = _mm_setzero_ps();
2031	fjx1 = _mm_setzero_ps();
2032	fjy1 = _mm_setzero_ps();
2033	fjz1 = _mm_setzero_ps();
2034	fjx2 = _mm_setzero_ps();
2035	fjy2 = _mm_setzero_ps();
2036	fjz2 = _mm_setzero_ps();
2037	fjx3 = _mm_setzero_ps();
2038	fjy3 = _mm_setzero_ps();
2039	fjz3 = _mm_setzero_ps();
2040
2041	/**************************
2042	* CALCULATE INTERACTIONS *
2043	**************************/
2044
2045	/* LENNARD-JONES DISPERSION/REPULSION */
2046
2047	rinvsix = _mm_mul_ps(_mm_mul_ps(rinvsq00,rinvsq00),rinvsq00);
2048	fvdw = _mm_mul_ps(_mm_sub_ps(_mm_mul_ps(c12_00,rinvsix),c6_00),_mm_mul_ps(rinvsix,rinvsq00));
2049
2050	fscal = fvdw;
2051
2052	fscal = _mm_andnot_ps(dummy_mask,fscal);
2053
2054	/* Calculate temporary vectorial force */
2055	tx = _mm_mul_ps(fscal,dx00);
2056	ty = _mm_mul_ps(fscal,dy00);
2057	tz = _mm_mul_ps(fscal,dz00);
2058
2059	/* Update vectorial force */
2060	fix0 = _mm_add_ps(fix0,tx);
2061	fiy0 = _mm_add_ps(fiy0,ty);
2062	fiz0 = _mm_add_ps(fiz0,tz);
2063
2064	fjx0 = _mm_add_ps(fjx0,tx);
2065	fjy0 = _mm_add_ps(fjy0,ty);
2066	fjz0 = _mm_add_ps(fjz0,tz);
2067
2068	/**************************
2069	* CALCULATE INTERACTIONS *
2070	**************************/
2071
2072	r11 = _mm_mul_ps(rsq11,rinv11);
2073	r11 = _mm_andnot_ps(dummy_mask,r11);
2074
2075	/* EWALD ELECTROSTATICS */
2076
2077	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2078	ewrt = _mm_mul_ps(r11,ewtabscale);
2079	ewitab = _mm_cvttps_epi32(ewrt);
2080	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2081	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2082	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2083	&ewtabF,&ewtabFn);
2084	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2085	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
2086
2087	fscal = felec;
2088
2089	fscal = _mm_andnot_ps(dummy_mask,fscal);
2090
2091	/* Calculate temporary vectorial force */
2092	tx = _mm_mul_ps(fscal,dx11);
2093	ty = _mm_mul_ps(fscal,dy11);
2094	tz = _mm_mul_ps(fscal,dz11);
2095
2096	/* Update vectorial force */
2097	fix1 = _mm_add_ps(fix1,tx);
2098	fiy1 = _mm_add_ps(fiy1,ty);
2099	fiz1 = _mm_add_ps(fiz1,tz);
2100
2101	fjx1 = _mm_add_ps(fjx1,tx);
2102	fjy1 = _mm_add_ps(fjy1,ty);
2103	fjz1 = _mm_add_ps(fjz1,tz);
2104
2105	/**************************
2106	* CALCULATE INTERACTIONS *
2107	**************************/
2108
2109	r12 = _mm_mul_ps(rsq12,rinv12);
2110	r12 = _mm_andnot_ps(dummy_mask,r12);
2111
2112	/* EWALD ELECTROSTATICS */
2113
2114	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2115	ewrt = _mm_mul_ps(r12,ewtabscale);
2116	ewitab = _mm_cvttps_epi32(ewrt);
2117	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2118	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2119	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2120	&ewtabF,&ewtabFn);
2121	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2122	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
2123
2124	fscal = felec;
2125
2126	fscal = _mm_andnot_ps(dummy_mask,fscal);
2127
2128	/* Calculate temporary vectorial force */
2129	tx = _mm_mul_ps(fscal,dx12);
2130	ty = _mm_mul_ps(fscal,dy12);
2131	tz = _mm_mul_ps(fscal,dz12);
2132
2133	/* Update vectorial force */
2134	fix1 = _mm_add_ps(fix1,tx);
2135	fiy1 = _mm_add_ps(fiy1,ty);
2136	fiz1 = _mm_add_ps(fiz1,tz);
2137
2138	fjx2 = _mm_add_ps(fjx2,tx);
2139	fjy2 = _mm_add_ps(fjy2,ty);
2140	fjz2 = _mm_add_ps(fjz2,tz);
2141
2142	/**************************
2143	* CALCULATE INTERACTIONS *
2144	**************************/
2145
2146	r13 = _mm_mul_ps(rsq13,rinv13);
2147	r13 = _mm_andnot_ps(dummy_mask,r13);
2148
2149	/* EWALD ELECTROSTATICS */
2150
2151	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2152	ewrt = _mm_mul_ps(r13,ewtabscale);
2153	ewitab = _mm_cvttps_epi32(ewrt);
2154	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2155	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2156	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2157	&ewtabF,&ewtabFn);
2158	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2159	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
2160
2161	fscal = felec;
2162
2163	fscal = _mm_andnot_ps(dummy_mask,fscal);
2164
2165	/* Calculate temporary vectorial force */
2166	tx = _mm_mul_ps(fscal,dx13);
2167	ty = _mm_mul_ps(fscal,dy13);
2168	tz = _mm_mul_ps(fscal,dz13);
2169
2170	/* Update vectorial force */
2171	fix1 = _mm_add_ps(fix1,tx);
2172	fiy1 = _mm_add_ps(fiy1,ty);
2173	fiz1 = _mm_add_ps(fiz1,tz);
2174
2175	fjx3 = _mm_add_ps(fjx3,tx);
2176	fjy3 = _mm_add_ps(fjy3,ty);
2177	fjz3 = _mm_add_ps(fjz3,tz);
2178
2179	/**************************
2180	* CALCULATE INTERACTIONS *
2181	**************************/
2182
2183	r21 = _mm_mul_ps(rsq21,rinv21);
2184	r21 = _mm_andnot_ps(dummy_mask,r21);
2185
2186	/* EWALD ELECTROSTATICS */
2187
2188	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2189	ewrt = _mm_mul_ps(r21,ewtabscale);
2190	ewitab = _mm_cvttps_epi32(ewrt);
2191	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2192	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2193	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2194	&ewtabF,&ewtabFn);
2195	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2196	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
2197
2198	fscal = felec;
2199
2200	fscal = _mm_andnot_ps(dummy_mask,fscal);
2201
2202	/* Calculate temporary vectorial force */
2203	tx = _mm_mul_ps(fscal,dx21);
2204	ty = _mm_mul_ps(fscal,dy21);
2205	tz = _mm_mul_ps(fscal,dz21);
2206
2207	/* Update vectorial force */
2208	fix2 = _mm_add_ps(fix2,tx);
2209	fiy2 = _mm_add_ps(fiy2,ty);
2210	fiz2 = _mm_add_ps(fiz2,tz);
2211
2212	fjx1 = _mm_add_ps(fjx1,tx);
2213	fjy1 = _mm_add_ps(fjy1,ty);
2214	fjz1 = _mm_add_ps(fjz1,tz);
2215
2216	/**************************
2217	* CALCULATE INTERACTIONS *
2218	**************************/
2219
2220	r22 = _mm_mul_ps(rsq22,rinv22);
2221	r22 = _mm_andnot_ps(dummy_mask,r22);
2222
2223	/* EWALD ELECTROSTATICS */
2224
2225	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2226	ewrt = _mm_mul_ps(r22,ewtabscale);
2227	ewitab = _mm_cvttps_epi32(ewrt);
2228	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2229	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2230	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2231	&ewtabF,&ewtabFn);
2232	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2233	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
2234
2235	fscal = felec;
2236
2237	fscal = _mm_andnot_ps(dummy_mask,fscal);
2238
2239	/* Calculate temporary vectorial force */
2240	tx = _mm_mul_ps(fscal,dx22);
2241	ty = _mm_mul_ps(fscal,dy22);
2242	tz = _mm_mul_ps(fscal,dz22);
2243
2244	/* Update vectorial force */
2245	fix2 = _mm_add_ps(fix2,tx);
2246	fiy2 = _mm_add_ps(fiy2,ty);
2247	fiz2 = _mm_add_ps(fiz2,tz);
2248
2249	fjx2 = _mm_add_ps(fjx2,tx);
2250	fjy2 = _mm_add_ps(fjy2,ty);
2251	fjz2 = _mm_add_ps(fjz2,tz);
2252
2253	/**************************
2254	* CALCULATE INTERACTIONS *
2255	**************************/
2256
2257	r23 = _mm_mul_ps(rsq23,rinv23);
2258	r23 = _mm_andnot_ps(dummy_mask,r23);
2259
2260	/* EWALD ELECTROSTATICS */
2261
2262	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2263	ewrt = _mm_mul_ps(r23,ewtabscale);
2264	ewitab = _mm_cvttps_epi32(ewrt);
2265	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2266	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2267	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2268	&ewtabF,&ewtabFn);
2269	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2270	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
2271
2272	fscal = felec;
2273
2274	fscal = _mm_andnot_ps(dummy_mask,fscal);
2275
2276	/* Calculate temporary vectorial force */
2277	tx = _mm_mul_ps(fscal,dx23);
2278	ty = _mm_mul_ps(fscal,dy23);
2279	tz = _mm_mul_ps(fscal,dz23);
2280
2281	/* Update vectorial force */
2282	fix2 = _mm_add_ps(fix2,tx);
2283	fiy2 = _mm_add_ps(fiy2,ty);
2284	fiz2 = _mm_add_ps(fiz2,tz);
2285
2286	fjx3 = _mm_add_ps(fjx3,tx);
2287	fjy3 = _mm_add_ps(fjy3,ty);
2288	fjz3 = _mm_add_ps(fjz3,tz);
2289
2290	/**************************
2291	* CALCULATE INTERACTIONS *
2292	**************************/
2293
2294	r31 = _mm_mul_ps(rsq31,rinv31);
2295	r31 = _mm_andnot_ps(dummy_mask,r31);
2296
2297	/* EWALD ELECTROSTATICS */
2298
2299	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2300	ewrt = _mm_mul_ps(r31,ewtabscale);
2301	ewitab = _mm_cvttps_epi32(ewrt);
2302	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2303	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2304	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2305	&ewtabF,&ewtabFn);
2306	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2307	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
2308
2309	fscal = felec;
2310
2311	fscal = _mm_andnot_ps(dummy_mask,fscal);
2312
2313	/* Calculate temporary vectorial force */
2314	tx = _mm_mul_ps(fscal,dx31);
2315	ty = _mm_mul_ps(fscal,dy31);
2316	tz = _mm_mul_ps(fscal,dz31);
2317
2318	/* Update vectorial force */
2319	fix3 = _mm_add_ps(fix3,tx);
2320	fiy3 = _mm_add_ps(fiy3,ty);
2321	fiz3 = _mm_add_ps(fiz3,tz);
2322
2323	fjx1 = _mm_add_ps(fjx1,tx);
2324	fjy1 = _mm_add_ps(fjy1,ty);
2325	fjz1 = _mm_add_ps(fjz1,tz);
2326
2327	/**************************
2328	* CALCULATE INTERACTIONS *
2329	**************************/
2330
2331	r32 = _mm_mul_ps(rsq32,rinv32);
2332	r32 = _mm_andnot_ps(dummy_mask,r32);
2333
2334	/* EWALD ELECTROSTATICS */
2335
2336	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2337	ewrt = _mm_mul_ps(r32,ewtabscale);
2338	ewitab = _mm_cvttps_epi32(ewrt);
2339	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2340	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2341	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2342	&ewtabF,&ewtabFn);
2343	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2344	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
2345
2346	fscal = felec;
2347
2348	fscal = _mm_andnot_ps(dummy_mask,fscal);
2349
2350	/* Calculate temporary vectorial force */
2351	tx = _mm_mul_ps(fscal,dx32);
2352	ty = _mm_mul_ps(fscal,dy32);
2353	tz = _mm_mul_ps(fscal,dz32);
2354
2355	/* Update vectorial force */
2356	fix3 = _mm_add_ps(fix3,tx);
2357	fiy3 = _mm_add_ps(fiy3,ty);
2358	fiz3 = _mm_add_ps(fiz3,tz);
2359
2360	fjx2 = _mm_add_ps(fjx2,tx);
2361	fjy2 = _mm_add_ps(fjy2,ty);
2362	fjz2 = _mm_add_ps(fjz2,tz);
2363
2364	/**************************
2365	* CALCULATE INTERACTIONS *
2366	**************************/
2367
2368	r33 = _mm_mul_ps(rsq33,rinv33);
2369	r33 = _mm_andnot_ps(dummy_mask,r33);
2370
2371	/* EWALD ELECTROSTATICS */
2372
2373	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2374	ewrt = _mm_mul_ps(r33,ewtabscale);
2375	ewitab = _mm_cvttps_epi32(ewrt);
2376	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2377	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2378	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2379	&ewtabF,&ewtabFn);
2380	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2381	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
2382
2383	fscal = felec;
2384
2385	fscal = _mm_andnot_ps(dummy_mask,fscal);
2386
2387	/* Calculate temporary vectorial force */
2388	tx = _mm_mul_ps(fscal,dx33);
2389	ty = _mm_mul_ps(fscal,dy33);
2390	tz = _mm_mul_ps(fscal,dz33);
2391
2392	/* Update vectorial force */
2393	fix3 = _mm_add_ps(fix3,tx);
2394	fiy3 = _mm_add_ps(fiy3,ty);
2395	fiz3 = _mm_add_ps(fiz3,tz);
2396
2397	fjx3 = _mm_add_ps(fjx3,tx);
2398	fjy3 = _mm_add_ps(fjy3,ty);
2399	fjz3 = _mm_add_ps(fjz3,tz);
2400
2401	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
2402	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
2403	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
2404	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
2405
2406	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
2407	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
2408	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
2409
2410	/* Inner loop uses 363 flops */
2411	}
2412
2413	/* End of innermost loop */
2414
2415	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
2416	f+i_coord_offset,fshift+i_shift_offset);
2417
2418	/* Increment number of inner iterations */
2419	inneriter += j_index_end - j_index_start;
2420
2421	/* Outer loop uses 24 flops */
2422	}
2423
2424	/* Increment number of outer iterations */
2425	outeriter += nri;
2426
2427	/* Update outer/inner flops */
2428
2429	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_F,outeriter24 + inneriter363)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_F] += outeriter24 + inneriter 363;
2430	}