/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwCSTab_GeomW4W4_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwCSTab_GeomW4W4_sse4_1_single.c
Location:	line 129, column 22
Description:	Value stored to 'two' during its initialization is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwCSTab_GeomW4W4_VF_sse4_1_single
54	* Electrostatics interaction: Ewald
55	* VdW interaction: CubicSplineTable
56	* Geometry: Water4-Water4
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecEw_VdwCSTab_GeomW4W4_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwioffset3;
92	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
93	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
94	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
95	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
96	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
97	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
98	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
99	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
100	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
101	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
102	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
103	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
104	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
105	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
106	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
107	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
108	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
109	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
110	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
111	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
112	real *charge;
113	int nvdwtype;
114	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
115	int *vdwtype;
116	real *vdwparam;
117	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
118	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
119	__m128i vfitab;
120	__m128i ifour = _mm_set1_epi32(4);
121	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
122	real *vftab;
123	__m128i ewitab;
124	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
125	real *ewtab;
126	__m128 dummy_mask,cutoff_mask;
127	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
128	__m128 one = _mm_set1_ps(1.0);
129	__m128 two = _mm_set1_ps(2.0);
	Value stored to 'two' during its initialization is never read
130	x = xx[0];
131	f = ff[0];
132
133	nri = nlist->nri;
134	iinr = nlist->iinr;
135	jindex = nlist->jindex;
136	jjnr = nlist->jjnr;
137	shiftidx = nlist->shift;
138	gid = nlist->gid;
139	shiftvec = fr->shift_vec[0];
140	fshift = fr->fshift[0];
141	facel = _mm_set1_ps(fr->epsfac);
142	charge = mdatoms->chargeA;
143	nvdwtype = fr->ntype;
144	vdwparam = fr->nbfp;
145	vdwtype = mdatoms->typeA;
146
147	vftab = kernel_data->table_vdw->data;
148	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
149
150	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
151	ewtab = fr->ic->tabq_coul_FDV0;
152	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
153	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
154
155	/* Setup water-specific parameters */
156	inr = nlist->iinr[0];
157	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
158	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
159	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
160	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
161
162	jq1 = _mm_set1_ps(charge[inr+1]);
163	jq2 = _mm_set1_ps(charge[inr+2]);
164	jq3 = _mm_set1_ps(charge[inr+3]);
165	vdwjidx0A = 2*vdwtype[inr+0];
166	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
167	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
168	qq11 = _mm_mul_ps(iq1,jq1);
169	qq12 = _mm_mul_ps(iq1,jq2);
170	qq13 = _mm_mul_ps(iq1,jq3);
171	qq21 = _mm_mul_ps(iq2,jq1);
172	qq22 = _mm_mul_ps(iq2,jq2);
173	qq23 = _mm_mul_ps(iq2,jq3);
174	qq31 = _mm_mul_ps(iq3,jq1);
175	qq32 = _mm_mul_ps(iq3,jq2);
176	qq33 = _mm_mul_ps(iq3,jq3);
177
178	/* Avoid stupid compiler warnings */
179	jnrA = jnrB = jnrC = jnrD = 0;
180	j_coord_offsetA = 0;
181	j_coord_offsetB = 0;
182	j_coord_offsetC = 0;
183	j_coord_offsetD = 0;
184
185	outeriter = 0;
186	inneriter = 0;
187
188	for(iidx=0;iidx<4*DIM3;iidx++)
189	{
190	scratch[iidx] = 0.0;
191	}
192
193	/* Start outer loop over neighborlists */
194	for(iidx=0; iidx<nri; iidx++)
195	{
196	/* Load shift vector for this list */
197	i_shift_offset = DIM3*shiftidx[iidx];
198
199	/* Load limits for loop over neighbors */
200	j_index_start = jindex[iidx];
201	j_index_end = jindex[iidx+1];
202
203	/* Get outer coordinate index */
204	inr = iinr[iidx];
205	i_coord_offset = DIM3*inr;
206
207	/* Load i particle coords and add shift vector */
208	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
209	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
210
211	fix0 = _mm_setzero_ps();
212	fiy0 = _mm_setzero_ps();
213	fiz0 = _mm_setzero_ps();
214	fix1 = _mm_setzero_ps();
215	fiy1 = _mm_setzero_ps();
216	fiz1 = _mm_setzero_ps();
217	fix2 = _mm_setzero_ps();
218	fiy2 = _mm_setzero_ps();
219	fiz2 = _mm_setzero_ps();
220	fix3 = _mm_setzero_ps();
221	fiy3 = _mm_setzero_ps();
222	fiz3 = _mm_setzero_ps();
223
224	/* Reset potential sums */
225	velecsum = _mm_setzero_ps();
226	vvdwsum = _mm_setzero_ps();
227
228	/* Start inner kernel loop */
229	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
230	{
231
232	/* Get j neighbor index, and coordinate index */
233	jnrA = jjnr[jidx];
234	jnrB = jjnr[jidx+1];
235	jnrC = jjnr[jidx+2];
236	jnrD = jjnr[jidx+3];
237	j_coord_offsetA = DIM3*jnrA;
238	j_coord_offsetB = DIM3*jnrB;
239	j_coord_offsetC = DIM3*jnrC;
240	j_coord_offsetD = DIM3*jnrD;
241
242	/* load j atom coordinates */
243	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
244	x+j_coord_offsetC,x+j_coord_offsetD,
245	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
246	&jy2,&jz2,&jx3,&jy3,&jz3);
247
248	/* Calculate displacement vector */
249	dx00 = _mm_sub_ps(ix0,jx0);
250	dy00 = _mm_sub_ps(iy0,jy0);
251	dz00 = _mm_sub_ps(iz0,jz0);
252	dx11 = _mm_sub_ps(ix1,jx1);
253	dy11 = _mm_sub_ps(iy1,jy1);
254	dz11 = _mm_sub_ps(iz1,jz1);
255	dx12 = _mm_sub_ps(ix1,jx2);
256	dy12 = _mm_sub_ps(iy1,jy2);
257	dz12 = _mm_sub_ps(iz1,jz2);
258	dx13 = _mm_sub_ps(ix1,jx3);
259	dy13 = _mm_sub_ps(iy1,jy3);
260	dz13 = _mm_sub_ps(iz1,jz3);
261	dx21 = _mm_sub_ps(ix2,jx1);
262	dy21 = _mm_sub_ps(iy2,jy1);
263	dz21 = _mm_sub_ps(iz2,jz1);
264	dx22 = _mm_sub_ps(ix2,jx2);
265	dy22 = _mm_sub_ps(iy2,jy2);
266	dz22 = _mm_sub_ps(iz2,jz2);
267	dx23 = _mm_sub_ps(ix2,jx3);
268	dy23 = _mm_sub_ps(iy2,jy3);
269	dz23 = _mm_sub_ps(iz2,jz3);
270	dx31 = _mm_sub_ps(ix3,jx1);
271	dy31 = _mm_sub_ps(iy3,jy1);
272	dz31 = _mm_sub_ps(iz3,jz1);
273	dx32 = _mm_sub_ps(ix3,jx2);
274	dy32 = _mm_sub_ps(iy3,jy2);
275	dz32 = _mm_sub_ps(iz3,jz2);
276	dx33 = _mm_sub_ps(ix3,jx3);
277	dy33 = _mm_sub_ps(iy3,jy3);
278	dz33 = _mm_sub_ps(iz3,jz3);
279
280	/* Calculate squared distance and things based on it */
281	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
282	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
283	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
284	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
285	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
286	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
287	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
288	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
289	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
290	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
291
292	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
293	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
294	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
295	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
296	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
297	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
298	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
299	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
300	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
301	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
302
303	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
304	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
305	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
306	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
307	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
308	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
309	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
310	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
311	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
312
313	fjx0 = _mm_setzero_ps();
314	fjy0 = _mm_setzero_ps();
315	fjz0 = _mm_setzero_ps();
316	fjx1 = _mm_setzero_ps();
317	fjy1 = _mm_setzero_ps();
318	fjz1 = _mm_setzero_ps();
319	fjx2 = _mm_setzero_ps();
320	fjy2 = _mm_setzero_ps();
321	fjz2 = _mm_setzero_ps();
322	fjx3 = _mm_setzero_ps();
323	fjy3 = _mm_setzero_ps();
324	fjz3 = _mm_setzero_ps();
325
326	/**************************
327	* CALCULATE INTERACTIONS *
328	**************************/
329
330	r00 = _mm_mul_ps(rsq00,rinv00);
331
332	/* Calculate table index by multiplying r with table scale and truncate to integer */
333	rt = _mm_mul_ps(r00,vftabscale);
334	vfitab = _mm_cvttps_epi32(rt);
335	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
336	vfitab = _mm_slli_epi32(vfitab,3);
337
338	/* CUBIC SPLINE TABLE DISPERSION */
339	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
340	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
341	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
342	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
343	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
344	Heps = _mm_mul_ps(vfeps,H);
345	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
346	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
347	vvdw6 = _mm_mul_ps(c6_00,VV);
348	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
349	fvdw6 = _mm_mul_ps(c6_00,FF);
350
351	/* CUBIC SPLINE TABLE REPULSION */
352	vfitab = _mm_add_epi32(vfitab,ifour);
353	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
354	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
355	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
356	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
357	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
358	Heps = _mm_mul_ps(vfeps,H);
359	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
360	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
361	vvdw12 = _mm_mul_ps(c12_00,VV);
362	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
363	fvdw12 = _mm_mul_ps(c12_00,FF);
364	vvdw = _mm_add_ps(vvdw12,vvdw6);
365	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
366
367	/* Update potential sum for this i atom from the interaction with this j atom. */
368	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
369
370	fscal = fvdw;
371
372	/* Calculate temporary vectorial force */
373	tx = _mm_mul_ps(fscal,dx00);
374	ty = _mm_mul_ps(fscal,dy00);
375	tz = _mm_mul_ps(fscal,dz00);
376
377	/* Update vectorial force */
378	fix0 = _mm_add_ps(fix0,tx);
379	fiy0 = _mm_add_ps(fiy0,ty);
380	fiz0 = _mm_add_ps(fiz0,tz);
381
382	fjx0 = _mm_add_ps(fjx0,tx);
383	fjy0 = _mm_add_ps(fjy0,ty);
384	fjz0 = _mm_add_ps(fjz0,tz);
385
386	/**************************
387	* CALCULATE INTERACTIONS *
388	**************************/
389
390	r11 = _mm_mul_ps(rsq11,rinv11);
391
392	/* EWALD ELECTROSTATICS */
393
394	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
395	ewrt = _mm_mul_ps(r11,ewtabscale);
396	ewitab = _mm_cvttps_epi32(ewrt);
397	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
398	ewitab = _mm_slli_epi32(ewitab,2);
399	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
400	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
401	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
402	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
403	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
404	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
405	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
406	velec = _mm_mul_ps(qq11,_mm_sub_ps(rinv11,velec));
407	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
408
409	/* Update potential sum for this i atom from the interaction with this j atom. */
410	velecsum = _mm_add_ps(velecsum,velec);
411
412	fscal = felec;
413
414	/* Calculate temporary vectorial force */
415	tx = _mm_mul_ps(fscal,dx11);
416	ty = _mm_mul_ps(fscal,dy11);
417	tz = _mm_mul_ps(fscal,dz11);
418
419	/* Update vectorial force */
420	fix1 = _mm_add_ps(fix1,tx);
421	fiy1 = _mm_add_ps(fiy1,ty);
422	fiz1 = _mm_add_ps(fiz1,tz);
423
424	fjx1 = _mm_add_ps(fjx1,tx);
425	fjy1 = _mm_add_ps(fjy1,ty);
426	fjz1 = _mm_add_ps(fjz1,tz);
427
428	/**************************
429	* CALCULATE INTERACTIONS *
430	**************************/
431
432	r12 = _mm_mul_ps(rsq12,rinv12);
433
434	/* EWALD ELECTROSTATICS */
435
436	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
437	ewrt = _mm_mul_ps(r12,ewtabscale);
438	ewitab = _mm_cvttps_epi32(ewrt);
439	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
440	ewitab = _mm_slli_epi32(ewitab,2);
441	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
442	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
443	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
444	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
445	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
446	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
447	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
448	velec = _mm_mul_ps(qq12,_mm_sub_ps(rinv12,velec));
449	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
450
451	/* Update potential sum for this i atom from the interaction with this j atom. */
452	velecsum = _mm_add_ps(velecsum,velec);
453
454	fscal = felec;
455
456	/* Calculate temporary vectorial force */
457	tx = _mm_mul_ps(fscal,dx12);
458	ty = _mm_mul_ps(fscal,dy12);
459	tz = _mm_mul_ps(fscal,dz12);
460
461	/* Update vectorial force */
462	fix1 = _mm_add_ps(fix1,tx);
463	fiy1 = _mm_add_ps(fiy1,ty);
464	fiz1 = _mm_add_ps(fiz1,tz);
465
466	fjx2 = _mm_add_ps(fjx2,tx);
467	fjy2 = _mm_add_ps(fjy2,ty);
468	fjz2 = _mm_add_ps(fjz2,tz);
469
470	/**************************
471	* CALCULATE INTERACTIONS *
472	**************************/
473
474	r13 = _mm_mul_ps(rsq13,rinv13);
475
476	/* EWALD ELECTROSTATICS */
477
478	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
479	ewrt = _mm_mul_ps(r13,ewtabscale);
480	ewitab = _mm_cvttps_epi32(ewrt);
481	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
482	ewitab = _mm_slli_epi32(ewitab,2);
483	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
484	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
485	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
486	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
487	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
488	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
489	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
490	velec = _mm_mul_ps(qq13,_mm_sub_ps(rinv13,velec));
491	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
492
493	/* Update potential sum for this i atom from the interaction with this j atom. */
494	velecsum = _mm_add_ps(velecsum,velec);
495
496	fscal = felec;
497
498	/* Calculate temporary vectorial force */
499	tx = _mm_mul_ps(fscal,dx13);
500	ty = _mm_mul_ps(fscal,dy13);
501	tz = _mm_mul_ps(fscal,dz13);
502
503	/* Update vectorial force */
504	fix1 = _mm_add_ps(fix1,tx);
505	fiy1 = _mm_add_ps(fiy1,ty);
506	fiz1 = _mm_add_ps(fiz1,tz);
507
508	fjx3 = _mm_add_ps(fjx3,tx);
509	fjy3 = _mm_add_ps(fjy3,ty);
510	fjz3 = _mm_add_ps(fjz3,tz);
511
512	/**************************
513	* CALCULATE INTERACTIONS *
514	**************************/
515
516	r21 = _mm_mul_ps(rsq21,rinv21);
517
518	/* EWALD ELECTROSTATICS */
519
520	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
521	ewrt = _mm_mul_ps(r21,ewtabscale);
522	ewitab = _mm_cvttps_epi32(ewrt);
523	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
524	ewitab = _mm_slli_epi32(ewitab,2);
525	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
526	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
527	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
528	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
529	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
530	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
531	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
532	velec = _mm_mul_ps(qq21,_mm_sub_ps(rinv21,velec));
533	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
534
535	/* Update potential sum for this i atom from the interaction with this j atom. */
536	velecsum = _mm_add_ps(velecsum,velec);
537
538	fscal = felec;
539
540	/* Calculate temporary vectorial force */
541	tx = _mm_mul_ps(fscal,dx21);
542	ty = _mm_mul_ps(fscal,dy21);
543	tz = _mm_mul_ps(fscal,dz21);
544
545	/* Update vectorial force */
546	fix2 = _mm_add_ps(fix2,tx);
547	fiy2 = _mm_add_ps(fiy2,ty);
548	fiz2 = _mm_add_ps(fiz2,tz);
549
550	fjx1 = _mm_add_ps(fjx1,tx);
551	fjy1 = _mm_add_ps(fjy1,ty);
552	fjz1 = _mm_add_ps(fjz1,tz);
553
554	/**************************
555	* CALCULATE INTERACTIONS *
556	**************************/
557
558	r22 = _mm_mul_ps(rsq22,rinv22);
559
560	/* EWALD ELECTROSTATICS */
561
562	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
563	ewrt = _mm_mul_ps(r22,ewtabscale);
564	ewitab = _mm_cvttps_epi32(ewrt);
565	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
566	ewitab = _mm_slli_epi32(ewitab,2);
567	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
568	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
569	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
570	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
571	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
572	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
573	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
574	velec = _mm_mul_ps(qq22,_mm_sub_ps(rinv22,velec));
575	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
576
577	/* Update potential sum for this i atom from the interaction with this j atom. */
578	velecsum = _mm_add_ps(velecsum,velec);
579
580	fscal = felec;
581
582	/* Calculate temporary vectorial force */
583	tx = _mm_mul_ps(fscal,dx22);
584	ty = _mm_mul_ps(fscal,dy22);
585	tz = _mm_mul_ps(fscal,dz22);
586
587	/* Update vectorial force */
588	fix2 = _mm_add_ps(fix2,tx);
589	fiy2 = _mm_add_ps(fiy2,ty);
590	fiz2 = _mm_add_ps(fiz2,tz);
591
592	fjx2 = _mm_add_ps(fjx2,tx);
593	fjy2 = _mm_add_ps(fjy2,ty);
594	fjz2 = _mm_add_ps(fjz2,tz);
595
596	/**************************
597	* CALCULATE INTERACTIONS *
598	**************************/
599
600	r23 = _mm_mul_ps(rsq23,rinv23);
601
602	/* EWALD ELECTROSTATICS */
603
604	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
605	ewrt = _mm_mul_ps(r23,ewtabscale);
606	ewitab = _mm_cvttps_epi32(ewrt);
607	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
608	ewitab = _mm_slli_epi32(ewitab,2);
609	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
610	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
611	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
612	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
613	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
614	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
615	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
616	velec = _mm_mul_ps(qq23,_mm_sub_ps(rinv23,velec));
617	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
618
619	/* Update potential sum for this i atom from the interaction with this j atom. */
620	velecsum = _mm_add_ps(velecsum,velec);
621
622	fscal = felec;
623
624	/* Calculate temporary vectorial force */
625	tx = _mm_mul_ps(fscal,dx23);
626	ty = _mm_mul_ps(fscal,dy23);
627	tz = _mm_mul_ps(fscal,dz23);
628
629	/* Update vectorial force */
630	fix2 = _mm_add_ps(fix2,tx);
631	fiy2 = _mm_add_ps(fiy2,ty);
632	fiz2 = _mm_add_ps(fiz2,tz);
633
634	fjx3 = _mm_add_ps(fjx3,tx);
635	fjy3 = _mm_add_ps(fjy3,ty);
636	fjz3 = _mm_add_ps(fjz3,tz);
637
638	/**************************
639	* CALCULATE INTERACTIONS *
640	**************************/
641
642	r31 = _mm_mul_ps(rsq31,rinv31);
643
644	/* EWALD ELECTROSTATICS */
645
646	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
647	ewrt = _mm_mul_ps(r31,ewtabscale);
648	ewitab = _mm_cvttps_epi32(ewrt);
649	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
650	ewitab = _mm_slli_epi32(ewitab,2);
651	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
652	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
653	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
654	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
655	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
656	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
657	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
658	velec = _mm_mul_ps(qq31,_mm_sub_ps(rinv31,velec));
659	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
660
661	/* Update potential sum for this i atom from the interaction with this j atom. */
662	velecsum = _mm_add_ps(velecsum,velec);
663
664	fscal = felec;
665
666	/* Calculate temporary vectorial force */
667	tx = _mm_mul_ps(fscal,dx31);
668	ty = _mm_mul_ps(fscal,dy31);
669	tz = _mm_mul_ps(fscal,dz31);
670
671	/* Update vectorial force */
672	fix3 = _mm_add_ps(fix3,tx);
673	fiy3 = _mm_add_ps(fiy3,ty);
674	fiz3 = _mm_add_ps(fiz3,tz);
675
676	fjx1 = _mm_add_ps(fjx1,tx);
677	fjy1 = _mm_add_ps(fjy1,ty);
678	fjz1 = _mm_add_ps(fjz1,tz);
679
680	/**************************
681	* CALCULATE INTERACTIONS *
682	**************************/
683
684	r32 = _mm_mul_ps(rsq32,rinv32);
685
686	/* EWALD ELECTROSTATICS */
687
688	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
689	ewrt = _mm_mul_ps(r32,ewtabscale);
690	ewitab = _mm_cvttps_epi32(ewrt);
691	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
692	ewitab = _mm_slli_epi32(ewitab,2);
693	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
694	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
695	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
696	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
697	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
698	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
699	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
700	velec = _mm_mul_ps(qq32,_mm_sub_ps(rinv32,velec));
701	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
702
703	/* Update potential sum for this i atom from the interaction with this j atom. */
704	velecsum = _mm_add_ps(velecsum,velec);
705
706	fscal = felec;
707
708	/* Calculate temporary vectorial force */
709	tx = _mm_mul_ps(fscal,dx32);
710	ty = _mm_mul_ps(fscal,dy32);
711	tz = _mm_mul_ps(fscal,dz32);
712
713	/* Update vectorial force */
714	fix3 = _mm_add_ps(fix3,tx);
715	fiy3 = _mm_add_ps(fiy3,ty);
716	fiz3 = _mm_add_ps(fiz3,tz);
717
718	fjx2 = _mm_add_ps(fjx2,tx);
719	fjy2 = _mm_add_ps(fjy2,ty);
720	fjz2 = _mm_add_ps(fjz2,tz);
721
722	/**************************
723	* CALCULATE INTERACTIONS *
724	**************************/
725
726	r33 = _mm_mul_ps(rsq33,rinv33);
727
728	/* EWALD ELECTROSTATICS */
729
730	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
731	ewrt = _mm_mul_ps(r33,ewtabscale);
732	ewitab = _mm_cvttps_epi32(ewrt);
733	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
734	ewitab = _mm_slli_epi32(ewitab,2);
735	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
736	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
737	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
738	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
739	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
740	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
741	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
742	velec = _mm_mul_ps(qq33,_mm_sub_ps(rinv33,velec));
743	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
744
745	/* Update potential sum for this i atom from the interaction with this j atom. */
746	velecsum = _mm_add_ps(velecsum,velec);
747
748	fscal = felec;
749
750	/* Calculate temporary vectorial force */
751	tx = _mm_mul_ps(fscal,dx33);
752	ty = _mm_mul_ps(fscal,dy33);
753	tz = _mm_mul_ps(fscal,dz33);
754
755	/* Update vectorial force */
756	fix3 = _mm_add_ps(fix3,tx);
757	fiy3 = _mm_add_ps(fiy3,ty);
758	fiz3 = _mm_add_ps(fiz3,tz);
759
760	fjx3 = _mm_add_ps(fjx3,tx);
761	fjy3 = _mm_add_ps(fjy3,ty);
762	fjz3 = _mm_add_ps(fjz3,tz);
763
764	fjptrA = f+j_coord_offsetA;
765	fjptrB = f+j_coord_offsetB;
766	fjptrC = f+j_coord_offsetC;
767	fjptrD = f+j_coord_offsetD;
768
769	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
770	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
771	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
772
773	/* Inner loop uses 428 flops */
774	}
775
776	if(jidx<j_index_end)
777	{
778
779	/* Get j neighbor index, and coordinate index */
780	jnrlistA = jjnr[jidx];
781	jnrlistB = jjnr[jidx+1];
782	jnrlistC = jjnr[jidx+2];
783	jnrlistD = jjnr[jidx+3];
784	/* Sign of each element will be negative for non-real atoms.
785	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
786	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
787	*/
788	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
789	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
790	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
791	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
792	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
793	j_coord_offsetA = DIM3*jnrA;
794	j_coord_offsetB = DIM3*jnrB;
795	j_coord_offsetC = DIM3*jnrC;
796	j_coord_offsetD = DIM3*jnrD;
797
798	/* load j atom coordinates */
799	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
800	x+j_coord_offsetC,x+j_coord_offsetD,
801	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
802	&jy2,&jz2,&jx3,&jy3,&jz3);
803
804	/* Calculate displacement vector */
805	dx00 = _mm_sub_ps(ix0,jx0);
806	dy00 = _mm_sub_ps(iy0,jy0);
807	dz00 = _mm_sub_ps(iz0,jz0);
808	dx11 = _mm_sub_ps(ix1,jx1);
809	dy11 = _mm_sub_ps(iy1,jy1);
810	dz11 = _mm_sub_ps(iz1,jz1);
811	dx12 = _mm_sub_ps(ix1,jx2);
812	dy12 = _mm_sub_ps(iy1,jy2);
813	dz12 = _mm_sub_ps(iz1,jz2);
814	dx13 = _mm_sub_ps(ix1,jx3);
815	dy13 = _mm_sub_ps(iy1,jy3);
816	dz13 = _mm_sub_ps(iz1,jz3);
817	dx21 = _mm_sub_ps(ix2,jx1);
818	dy21 = _mm_sub_ps(iy2,jy1);
819	dz21 = _mm_sub_ps(iz2,jz1);
820	dx22 = _mm_sub_ps(ix2,jx2);
821	dy22 = _mm_sub_ps(iy2,jy2);
822	dz22 = _mm_sub_ps(iz2,jz2);
823	dx23 = _mm_sub_ps(ix2,jx3);
824	dy23 = _mm_sub_ps(iy2,jy3);
825	dz23 = _mm_sub_ps(iz2,jz3);
826	dx31 = _mm_sub_ps(ix3,jx1);
827	dy31 = _mm_sub_ps(iy3,jy1);
828	dz31 = _mm_sub_ps(iz3,jz1);
829	dx32 = _mm_sub_ps(ix3,jx2);
830	dy32 = _mm_sub_ps(iy3,jy2);
831	dz32 = _mm_sub_ps(iz3,jz2);
832	dx33 = _mm_sub_ps(ix3,jx3);
833	dy33 = _mm_sub_ps(iy3,jy3);
834	dz33 = _mm_sub_ps(iz3,jz3);
835
836	/* Calculate squared distance and things based on it */
837	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
838	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
839	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
840	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
841	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
842	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
843	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
844	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
845	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
846	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
847
848	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
849	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
850	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
851	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
852	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
853	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
854	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
855	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
856	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
857	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
858
859	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
860	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
861	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
862	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
863	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
864	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
865	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
866	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
867	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
868
869	fjx0 = _mm_setzero_ps();
870	fjy0 = _mm_setzero_ps();
871	fjz0 = _mm_setzero_ps();
872	fjx1 = _mm_setzero_ps();
873	fjy1 = _mm_setzero_ps();
874	fjz1 = _mm_setzero_ps();
875	fjx2 = _mm_setzero_ps();
876	fjy2 = _mm_setzero_ps();
877	fjz2 = _mm_setzero_ps();
878	fjx3 = _mm_setzero_ps();
879	fjy3 = _mm_setzero_ps();
880	fjz3 = _mm_setzero_ps();
881
882	/**************************
883	* CALCULATE INTERACTIONS *
884	**************************/
885
886	r00 = _mm_mul_ps(rsq00,rinv00);
887	r00 = _mm_andnot_ps(dummy_mask,r00);
888
889	/* Calculate table index by multiplying r with table scale and truncate to integer */
890	rt = _mm_mul_ps(r00,vftabscale);
891	vfitab = _mm_cvttps_epi32(rt);
892	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
893	vfitab = _mm_slli_epi32(vfitab,3);
894
895	/* CUBIC SPLINE TABLE DISPERSION */
896	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
897	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
898	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
899	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
900	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
901	Heps = _mm_mul_ps(vfeps,H);
902	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
903	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
904	vvdw6 = _mm_mul_ps(c6_00,VV);
905	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
906	fvdw6 = _mm_mul_ps(c6_00,FF);
907
908	/* CUBIC SPLINE TABLE REPULSION */
909	vfitab = _mm_add_epi32(vfitab,ifour);
910	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
911	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
912	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
913	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
914	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
915	Heps = _mm_mul_ps(vfeps,H);
916	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
917	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
918	vvdw12 = _mm_mul_ps(c12_00,VV);
919	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
920	fvdw12 = _mm_mul_ps(c12_00,FF);
921	vvdw = _mm_add_ps(vvdw12,vvdw6);
922	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
923
924	/* Update potential sum for this i atom from the interaction with this j atom. */
925	vvdw = _mm_andnot_ps(dummy_mask,vvdw);
926	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
927
928	fscal = fvdw;
929
930	fscal = _mm_andnot_ps(dummy_mask,fscal);
931
932	/* Calculate temporary vectorial force */
933	tx = _mm_mul_ps(fscal,dx00);
934	ty = _mm_mul_ps(fscal,dy00);
935	tz = _mm_mul_ps(fscal,dz00);
936
937	/* Update vectorial force */
938	fix0 = _mm_add_ps(fix0,tx);
939	fiy0 = _mm_add_ps(fiy0,ty);
940	fiz0 = _mm_add_ps(fiz0,tz);
941
942	fjx0 = _mm_add_ps(fjx0,tx);
943	fjy0 = _mm_add_ps(fjy0,ty);
944	fjz0 = _mm_add_ps(fjz0,tz);
945
946	/**************************
947	* CALCULATE INTERACTIONS *
948	**************************/
949
950	r11 = _mm_mul_ps(rsq11,rinv11);
951	r11 = _mm_andnot_ps(dummy_mask,r11);
952
953	/* EWALD ELECTROSTATICS */
954
955	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
956	ewrt = _mm_mul_ps(r11,ewtabscale);
957	ewitab = _mm_cvttps_epi32(ewrt);
958	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
959	ewitab = _mm_slli_epi32(ewitab,2);
960	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
961	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
962	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
963	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
964	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
965	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
966	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
967	velec = _mm_mul_ps(qq11,_mm_sub_ps(rinv11,velec));
968	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
969
970	/* Update potential sum for this i atom from the interaction with this j atom. */
971	velec = _mm_andnot_ps(dummy_mask,velec);
972	velecsum = _mm_add_ps(velecsum,velec);
973
974	fscal = felec;
975
976	fscal = _mm_andnot_ps(dummy_mask,fscal);
977
978	/* Calculate temporary vectorial force */
979	tx = _mm_mul_ps(fscal,dx11);
980	ty = _mm_mul_ps(fscal,dy11);
981	tz = _mm_mul_ps(fscal,dz11);
982
983	/* Update vectorial force */
984	fix1 = _mm_add_ps(fix1,tx);
985	fiy1 = _mm_add_ps(fiy1,ty);
986	fiz1 = _mm_add_ps(fiz1,tz);
987
988	fjx1 = _mm_add_ps(fjx1,tx);
989	fjy1 = _mm_add_ps(fjy1,ty);
990	fjz1 = _mm_add_ps(fjz1,tz);
991
992	/**************************
993	* CALCULATE INTERACTIONS *
994	**************************/
995
996	r12 = _mm_mul_ps(rsq12,rinv12);
997	r12 = _mm_andnot_ps(dummy_mask,r12);
998
999	/* EWALD ELECTROSTATICS */
1000
1001	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1002	ewrt = _mm_mul_ps(r12,ewtabscale);
1003	ewitab = _mm_cvttps_epi32(ewrt);
1004	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1005	ewitab = _mm_slli_epi32(ewitab,2);
1006	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1007	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1008	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1009	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1010	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1011	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1012	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1013	velec = _mm_mul_ps(qq12,_mm_sub_ps(rinv12,velec));
1014	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
1015
1016	/* Update potential sum for this i atom from the interaction with this j atom. */
1017	velec = _mm_andnot_ps(dummy_mask,velec);
1018	velecsum = _mm_add_ps(velecsum,velec);
1019
1020	fscal = felec;
1021
1022	fscal = _mm_andnot_ps(dummy_mask,fscal);
1023
1024	/* Calculate temporary vectorial force */
1025	tx = _mm_mul_ps(fscal,dx12);
1026	ty = _mm_mul_ps(fscal,dy12);
1027	tz = _mm_mul_ps(fscal,dz12);
1028
1029	/* Update vectorial force */
1030	fix1 = _mm_add_ps(fix1,tx);
1031	fiy1 = _mm_add_ps(fiy1,ty);
1032	fiz1 = _mm_add_ps(fiz1,tz);
1033
1034	fjx2 = _mm_add_ps(fjx2,tx);
1035	fjy2 = _mm_add_ps(fjy2,ty);
1036	fjz2 = _mm_add_ps(fjz2,tz);
1037
1038	/**************************
1039	* CALCULATE INTERACTIONS *
1040	**************************/
1041
1042	r13 = _mm_mul_ps(rsq13,rinv13);
1043	r13 = _mm_andnot_ps(dummy_mask,r13);
1044
1045	/* EWALD ELECTROSTATICS */
1046
1047	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1048	ewrt = _mm_mul_ps(r13,ewtabscale);
1049	ewitab = _mm_cvttps_epi32(ewrt);
1050	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1051	ewitab = _mm_slli_epi32(ewitab,2);
1052	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1053	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1054	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1055	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1056	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1057	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1058	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1059	velec = _mm_mul_ps(qq13,_mm_sub_ps(rinv13,velec));
1060	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
1061
1062	/* Update potential sum for this i atom from the interaction with this j atom. */
1063	velec = _mm_andnot_ps(dummy_mask,velec);
1064	velecsum = _mm_add_ps(velecsum,velec);
1065
1066	fscal = felec;
1067
1068	fscal = _mm_andnot_ps(dummy_mask,fscal);
1069
1070	/* Calculate temporary vectorial force */
1071	tx = _mm_mul_ps(fscal,dx13);
1072	ty = _mm_mul_ps(fscal,dy13);
1073	tz = _mm_mul_ps(fscal,dz13);
1074
1075	/* Update vectorial force */
1076	fix1 = _mm_add_ps(fix1,tx);
1077	fiy1 = _mm_add_ps(fiy1,ty);
1078	fiz1 = _mm_add_ps(fiz1,tz);
1079
1080	fjx3 = _mm_add_ps(fjx3,tx);
1081	fjy3 = _mm_add_ps(fjy3,ty);
1082	fjz3 = _mm_add_ps(fjz3,tz);
1083
1084	/**************************
1085	* CALCULATE INTERACTIONS *
1086	**************************/
1087
1088	r21 = _mm_mul_ps(rsq21,rinv21);
1089	r21 = _mm_andnot_ps(dummy_mask,r21);
1090
1091	/* EWALD ELECTROSTATICS */
1092
1093	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1094	ewrt = _mm_mul_ps(r21,ewtabscale);
1095	ewitab = _mm_cvttps_epi32(ewrt);
1096	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1097	ewitab = _mm_slli_epi32(ewitab,2);
1098	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1099	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1100	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1101	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1102	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1103	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1104	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1105	velec = _mm_mul_ps(qq21,_mm_sub_ps(rinv21,velec));
1106	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
1107
1108	/* Update potential sum for this i atom from the interaction with this j atom. */
1109	velec = _mm_andnot_ps(dummy_mask,velec);
1110	velecsum = _mm_add_ps(velecsum,velec);
1111
1112	fscal = felec;
1113
1114	fscal = _mm_andnot_ps(dummy_mask,fscal);
1115
1116	/* Calculate temporary vectorial force */
1117	tx = _mm_mul_ps(fscal,dx21);
1118	ty = _mm_mul_ps(fscal,dy21);
1119	tz = _mm_mul_ps(fscal,dz21);
1120
1121	/* Update vectorial force */
1122	fix2 = _mm_add_ps(fix2,tx);
1123	fiy2 = _mm_add_ps(fiy2,ty);
1124	fiz2 = _mm_add_ps(fiz2,tz);
1125
1126	fjx1 = _mm_add_ps(fjx1,tx);
1127	fjy1 = _mm_add_ps(fjy1,ty);
1128	fjz1 = _mm_add_ps(fjz1,tz);
1129
1130	/**************************
1131	* CALCULATE INTERACTIONS *
1132	**************************/
1133
1134	r22 = _mm_mul_ps(rsq22,rinv22);
1135	r22 = _mm_andnot_ps(dummy_mask,r22);
1136
1137	/* EWALD ELECTROSTATICS */
1138
1139	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1140	ewrt = _mm_mul_ps(r22,ewtabscale);
1141	ewitab = _mm_cvttps_epi32(ewrt);
1142	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1143	ewitab = _mm_slli_epi32(ewitab,2);
1144	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1145	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1146	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1147	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1148	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1149	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1150	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1151	velec = _mm_mul_ps(qq22,_mm_sub_ps(rinv22,velec));
1152	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
1153
1154	/* Update potential sum for this i atom from the interaction with this j atom. */
1155	velec = _mm_andnot_ps(dummy_mask,velec);
1156	velecsum = _mm_add_ps(velecsum,velec);
1157
1158	fscal = felec;
1159
1160	fscal = _mm_andnot_ps(dummy_mask,fscal);
1161
1162	/* Calculate temporary vectorial force */
1163	tx = _mm_mul_ps(fscal,dx22);
1164	ty = _mm_mul_ps(fscal,dy22);
1165	tz = _mm_mul_ps(fscal,dz22);
1166
1167	/* Update vectorial force */
1168	fix2 = _mm_add_ps(fix2,tx);
1169	fiy2 = _mm_add_ps(fiy2,ty);
1170	fiz2 = _mm_add_ps(fiz2,tz);
1171
1172	fjx2 = _mm_add_ps(fjx2,tx);
1173	fjy2 = _mm_add_ps(fjy2,ty);
1174	fjz2 = _mm_add_ps(fjz2,tz);
1175
1176	/**************************
1177	* CALCULATE INTERACTIONS *
1178	**************************/
1179
1180	r23 = _mm_mul_ps(rsq23,rinv23);
1181	r23 = _mm_andnot_ps(dummy_mask,r23);
1182
1183	/* EWALD ELECTROSTATICS */
1184
1185	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1186	ewrt = _mm_mul_ps(r23,ewtabscale);
1187	ewitab = _mm_cvttps_epi32(ewrt);
1188	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1189	ewitab = _mm_slli_epi32(ewitab,2);
1190	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1191	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1192	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1193	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1194	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1195	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1196	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1197	velec = _mm_mul_ps(qq23,_mm_sub_ps(rinv23,velec));
1198	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
1199
1200	/* Update potential sum for this i atom from the interaction with this j atom. */
1201	velec = _mm_andnot_ps(dummy_mask,velec);
1202	velecsum = _mm_add_ps(velecsum,velec);
1203
1204	fscal = felec;
1205
1206	fscal = _mm_andnot_ps(dummy_mask,fscal);
1207
1208	/* Calculate temporary vectorial force */
1209	tx = _mm_mul_ps(fscal,dx23);
1210	ty = _mm_mul_ps(fscal,dy23);
1211	tz = _mm_mul_ps(fscal,dz23);
1212
1213	/* Update vectorial force */
1214	fix2 = _mm_add_ps(fix2,tx);
1215	fiy2 = _mm_add_ps(fiy2,ty);
1216	fiz2 = _mm_add_ps(fiz2,tz);
1217
1218	fjx3 = _mm_add_ps(fjx3,tx);
1219	fjy3 = _mm_add_ps(fjy3,ty);
1220	fjz3 = _mm_add_ps(fjz3,tz);
1221
1222	/**************************
1223	* CALCULATE INTERACTIONS *
1224	**************************/
1225
1226	r31 = _mm_mul_ps(rsq31,rinv31);
1227	r31 = _mm_andnot_ps(dummy_mask,r31);
1228
1229	/* EWALD ELECTROSTATICS */
1230
1231	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1232	ewrt = _mm_mul_ps(r31,ewtabscale);
1233	ewitab = _mm_cvttps_epi32(ewrt);
1234	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1235	ewitab = _mm_slli_epi32(ewitab,2);
1236	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1237	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1238	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1239	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1240	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1241	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1242	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1243	velec = _mm_mul_ps(qq31,_mm_sub_ps(rinv31,velec));
1244	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
1245
1246	/* Update potential sum for this i atom from the interaction with this j atom. */
1247	velec = _mm_andnot_ps(dummy_mask,velec);
1248	velecsum = _mm_add_ps(velecsum,velec);
1249
1250	fscal = felec;
1251
1252	fscal = _mm_andnot_ps(dummy_mask,fscal);
1253
1254	/* Calculate temporary vectorial force */
1255	tx = _mm_mul_ps(fscal,dx31);
1256	ty = _mm_mul_ps(fscal,dy31);
1257	tz = _mm_mul_ps(fscal,dz31);
1258
1259	/* Update vectorial force */
1260	fix3 = _mm_add_ps(fix3,tx);
1261	fiy3 = _mm_add_ps(fiy3,ty);
1262	fiz3 = _mm_add_ps(fiz3,tz);
1263
1264	fjx1 = _mm_add_ps(fjx1,tx);
1265	fjy1 = _mm_add_ps(fjy1,ty);
1266	fjz1 = _mm_add_ps(fjz1,tz);
1267
1268	/**************************
1269	* CALCULATE INTERACTIONS *
1270	**************************/
1271
1272	r32 = _mm_mul_ps(rsq32,rinv32);
1273	r32 = _mm_andnot_ps(dummy_mask,r32);
1274
1275	/* EWALD ELECTROSTATICS */
1276
1277	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1278	ewrt = _mm_mul_ps(r32,ewtabscale);
1279	ewitab = _mm_cvttps_epi32(ewrt);
1280	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1281	ewitab = _mm_slli_epi32(ewitab,2);
1282	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1283	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1284	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1285	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1286	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1287	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1288	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1289	velec = _mm_mul_ps(qq32,_mm_sub_ps(rinv32,velec));
1290	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
1291
1292	/* Update potential sum for this i atom from the interaction with this j atom. */
1293	velec = _mm_andnot_ps(dummy_mask,velec);
1294	velecsum = _mm_add_ps(velecsum,velec);
1295
1296	fscal = felec;
1297
1298	fscal = _mm_andnot_ps(dummy_mask,fscal);
1299
1300	/* Calculate temporary vectorial force */
1301	tx = _mm_mul_ps(fscal,dx32);
1302	ty = _mm_mul_ps(fscal,dy32);
1303	tz = _mm_mul_ps(fscal,dz32);
1304
1305	/* Update vectorial force */
1306	fix3 = _mm_add_ps(fix3,tx);
1307	fiy3 = _mm_add_ps(fiy3,ty);
1308	fiz3 = _mm_add_ps(fiz3,tz);
1309
1310	fjx2 = _mm_add_ps(fjx2,tx);
1311	fjy2 = _mm_add_ps(fjy2,ty);
1312	fjz2 = _mm_add_ps(fjz2,tz);
1313
1314	/**************************
1315	* CALCULATE INTERACTIONS *
1316	**************************/
1317
1318	r33 = _mm_mul_ps(rsq33,rinv33);
1319	r33 = _mm_andnot_ps(dummy_mask,r33);
1320
1321	/* EWALD ELECTROSTATICS */
1322
1323	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1324	ewrt = _mm_mul_ps(r33,ewtabscale);
1325	ewitab = _mm_cvttps_epi32(ewrt);
1326	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1327	ewitab = _mm_slli_epi32(ewitab,2);
1328	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1329	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1330	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1331	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1332	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1333	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1334	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1335	velec = _mm_mul_ps(qq33,_mm_sub_ps(rinv33,velec));
1336	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
1337
1338	/* Update potential sum for this i atom from the interaction with this j atom. */
1339	velec = _mm_andnot_ps(dummy_mask,velec);
1340	velecsum = _mm_add_ps(velecsum,velec);
1341
1342	fscal = felec;
1343
1344	fscal = _mm_andnot_ps(dummy_mask,fscal);
1345
1346	/* Calculate temporary vectorial force */
1347	tx = _mm_mul_ps(fscal,dx33);
1348	ty = _mm_mul_ps(fscal,dy33);
1349	tz = _mm_mul_ps(fscal,dz33);
1350
1351	/* Update vectorial force */
1352	fix3 = _mm_add_ps(fix3,tx);
1353	fiy3 = _mm_add_ps(fiy3,ty);
1354	fiz3 = _mm_add_ps(fiz3,tz);
1355
1356	fjx3 = _mm_add_ps(fjx3,tx);
1357	fjy3 = _mm_add_ps(fjy3,ty);
1358	fjz3 = _mm_add_ps(fjz3,tz);
1359
1360	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1361	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1362	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1363	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1364
1365	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1366	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1367	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1368
1369	/* Inner loop uses 438 flops */
1370	}
1371
1372	/* End of innermost loop */
1373
1374	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1375	f+i_coord_offset,fshift+i_shift_offset);
1376
1377	ggid = gid[iidx];
1378	/* Update potential energies */
1379	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
1380	gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
1381
1382	/* Increment number of inner iterations */
1383	inneriter += j_index_end - j_index_start;
1384
1385	/* Outer loop uses 26 flops */
1386	}
1387
1388	/* Increment number of outer iterations */
1389	outeriter += nri;
1390
1391	/* Update outer/inner flops */
1392
1393	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_VF,outeriter26 + inneriter438)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_VF] += outeriter26 + inneriter438;
1394	}
1395	/*
1396	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwCSTab_GeomW4W4_F_sse4_1_single
1397	* Electrostatics interaction: Ewald
1398	* VdW interaction: CubicSplineTable
1399	* Geometry: Water4-Water4
1400	* Calculate force/pot: Force
1401	*/
1402	void
1403	nb_kernel_ElecEw_VdwCSTab_GeomW4W4_F_sse4_1_single
1404	(t_nblist * gmx_restrict nlist,
1405	rvec * gmx_restrict xx,
1406	rvec * gmx_restrict ff,
1407	t_forcerec * gmx_restrict fr,
1408	t_mdatoms * gmx_restrict mdatoms,
1409	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
1410	t_nrnb * gmx_restrict nrnb)
1411	{
1412	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
1413	* just 0 for non-waters.
1414	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
1415	* jnr indices corresponding to data put in the four positions in the SIMD register.
1416	*/
1417	int i_shift_offset,i_coord_offset,outeriter,inneriter;
1418	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
1419	int jnrA,jnrB,jnrC,jnrD;
1420	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
1421	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
1422	int iinr,jindex,jjnr,shiftidx,*gid;
1423	real rcutoff_scalar;
1424	real shiftvec,fshift,x,f;
1425	real fjptrA,fjptrB,fjptrC,fjptrD;
1426	real scratch[4*DIM3];
1427	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
1428	int vdwioffset0;
1429	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
1430	int vdwioffset1;
1431	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
1432	int vdwioffset2;
1433	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
1434	int vdwioffset3;
1435	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
1436	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
1437	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
1438	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
1439	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
1440	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
1441	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
1442	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
1443	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
1444	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
1445	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
1446	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
1447	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
1448	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
1449	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
1450	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
1451	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
1452	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
1453	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
1454	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
1455	real *charge;
1456	int nvdwtype;
1457	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
1458	int *vdwtype;
1459	real *vdwparam;
1460	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
1461	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
1462	__m128i vfitab;
1463	__m128i ifour = _mm_set1_epi32(4);
1464	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
1465	real *vftab;
1466	__m128i ewitab;
1467	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
1468	real *ewtab;
1469	__m128 dummy_mask,cutoff_mask;
1470	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
1471	__m128 one = _mm_set1_ps(1.0);
1472	__m128 two = _mm_set1_ps(2.0);
1473	x = xx[0];
1474	f = ff[0];
1475
1476	nri = nlist->nri;
1477	iinr = nlist->iinr;
1478	jindex = nlist->jindex;
1479	jjnr = nlist->jjnr;
1480	shiftidx = nlist->shift;
1481	gid = nlist->gid;
1482	shiftvec = fr->shift_vec[0];
1483	fshift = fr->fshift[0];
1484	facel = _mm_set1_ps(fr->epsfac);
1485	charge = mdatoms->chargeA;
1486	nvdwtype = fr->ntype;
1487	vdwparam = fr->nbfp;
1488	vdwtype = mdatoms->typeA;
1489
1490	vftab = kernel_data->table_vdw->data;
1491	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
1492
1493	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
1494	ewtab = fr->ic->tabq_coul_F;
1495	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
1496	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
1497
1498	/* Setup water-specific parameters */
1499	inr = nlist->iinr[0];
1500	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
1501	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
1502	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
1503	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
1504
1505	jq1 = _mm_set1_ps(charge[inr+1]);
1506	jq2 = _mm_set1_ps(charge[inr+2]);
1507	jq3 = _mm_set1_ps(charge[inr+3]);
1508	vdwjidx0A = 2*vdwtype[inr+0];
1509	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
1510	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
1511	qq11 = _mm_mul_ps(iq1,jq1);
1512	qq12 = _mm_mul_ps(iq1,jq2);
1513	qq13 = _mm_mul_ps(iq1,jq3);
1514	qq21 = _mm_mul_ps(iq2,jq1);
1515	qq22 = _mm_mul_ps(iq2,jq2);
1516	qq23 = _mm_mul_ps(iq2,jq3);
1517	qq31 = _mm_mul_ps(iq3,jq1);
1518	qq32 = _mm_mul_ps(iq3,jq2);
1519	qq33 = _mm_mul_ps(iq3,jq3);
1520
1521	/* Avoid stupid compiler warnings */
1522	jnrA = jnrB = jnrC = jnrD = 0;
1523	j_coord_offsetA = 0;
1524	j_coord_offsetB = 0;
1525	j_coord_offsetC = 0;
1526	j_coord_offsetD = 0;
1527
1528	outeriter = 0;
1529	inneriter = 0;
1530
1531	for(iidx=0;iidx<4*DIM3;iidx++)
1532	{
1533	scratch[iidx] = 0.0;
1534	}
1535
1536	/* Start outer loop over neighborlists */
1537	for(iidx=0; iidx<nri; iidx++)
1538	{
1539	/* Load shift vector for this list */
1540	i_shift_offset = DIM3*shiftidx[iidx];
1541
1542	/* Load limits for loop over neighbors */
1543	j_index_start = jindex[iidx];
1544	j_index_end = jindex[iidx+1];
1545
1546	/* Get outer coordinate index */
1547	inr = iinr[iidx];
1548	i_coord_offset = DIM3*inr;
1549
1550	/* Load i particle coords and add shift vector */
1551	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
1552	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
1553
1554	fix0 = _mm_setzero_ps();
1555	fiy0 = _mm_setzero_ps();
1556	fiz0 = _mm_setzero_ps();
1557	fix1 = _mm_setzero_ps();
1558	fiy1 = _mm_setzero_ps();
1559	fiz1 = _mm_setzero_ps();
1560	fix2 = _mm_setzero_ps();
1561	fiy2 = _mm_setzero_ps();
1562	fiz2 = _mm_setzero_ps();
1563	fix3 = _mm_setzero_ps();
1564	fiy3 = _mm_setzero_ps();
1565	fiz3 = _mm_setzero_ps();
1566
1567	/* Start inner kernel loop */
1568	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1569	{
1570
1571	/* Get j neighbor index, and coordinate index */
1572	jnrA = jjnr[jidx];
1573	jnrB = jjnr[jidx+1];
1574	jnrC = jjnr[jidx+2];
1575	jnrD = jjnr[jidx+3];
1576	j_coord_offsetA = DIM3*jnrA;
1577	j_coord_offsetB = DIM3*jnrB;
1578	j_coord_offsetC = DIM3*jnrC;
1579	j_coord_offsetD = DIM3*jnrD;
1580
1581	/* load j atom coordinates */
1582	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1583	x+j_coord_offsetC,x+j_coord_offsetD,
1584	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1585	&jy2,&jz2,&jx3,&jy3,&jz3);
1586
1587	/* Calculate displacement vector */
1588	dx00 = _mm_sub_ps(ix0,jx0);
1589	dy00 = _mm_sub_ps(iy0,jy0);
1590	dz00 = _mm_sub_ps(iz0,jz0);
1591	dx11 = _mm_sub_ps(ix1,jx1);
1592	dy11 = _mm_sub_ps(iy1,jy1);
1593	dz11 = _mm_sub_ps(iz1,jz1);
1594	dx12 = _mm_sub_ps(ix1,jx2);
1595	dy12 = _mm_sub_ps(iy1,jy2);
1596	dz12 = _mm_sub_ps(iz1,jz2);
1597	dx13 = _mm_sub_ps(ix1,jx3);
1598	dy13 = _mm_sub_ps(iy1,jy3);
1599	dz13 = _mm_sub_ps(iz1,jz3);
1600	dx21 = _mm_sub_ps(ix2,jx1);
1601	dy21 = _mm_sub_ps(iy2,jy1);
1602	dz21 = _mm_sub_ps(iz2,jz1);
1603	dx22 = _mm_sub_ps(ix2,jx2);
1604	dy22 = _mm_sub_ps(iy2,jy2);
1605	dz22 = _mm_sub_ps(iz2,jz2);
1606	dx23 = _mm_sub_ps(ix2,jx3);
1607	dy23 = _mm_sub_ps(iy2,jy3);
1608	dz23 = _mm_sub_ps(iz2,jz3);
1609	dx31 = _mm_sub_ps(ix3,jx1);
1610	dy31 = _mm_sub_ps(iy3,jy1);
1611	dz31 = _mm_sub_ps(iz3,jz1);
1612	dx32 = _mm_sub_ps(ix3,jx2);
1613	dy32 = _mm_sub_ps(iy3,jy2);
1614	dz32 = _mm_sub_ps(iz3,jz2);
1615	dx33 = _mm_sub_ps(ix3,jx3);
1616	dy33 = _mm_sub_ps(iy3,jy3);
1617	dz33 = _mm_sub_ps(iz3,jz3);
1618
1619	/* Calculate squared distance and things based on it */
1620	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1621	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1622	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1623	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1624	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1625	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1626	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1627	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1628	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1629	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1630
1631	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1632	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1633	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1634	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
1635	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1636	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1637	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
1638	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
1639	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
1640	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
1641
1642	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1643	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1644	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
1645	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1646	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1647	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
1648	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
1649	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
1650	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
1651
1652	fjx0 = _mm_setzero_ps();
1653	fjy0 = _mm_setzero_ps();
1654	fjz0 = _mm_setzero_ps();
1655	fjx1 = _mm_setzero_ps();
1656	fjy1 = _mm_setzero_ps();
1657	fjz1 = _mm_setzero_ps();
1658	fjx2 = _mm_setzero_ps();
1659	fjy2 = _mm_setzero_ps();
1660	fjz2 = _mm_setzero_ps();
1661	fjx3 = _mm_setzero_ps();
1662	fjy3 = _mm_setzero_ps();
1663	fjz3 = _mm_setzero_ps();
1664
1665	/**************************
1666	* CALCULATE INTERACTIONS *
1667	**************************/
1668
1669	r00 = _mm_mul_ps(rsq00,rinv00);
1670
1671	/* Calculate table index by multiplying r with table scale and truncate to integer */
1672	rt = _mm_mul_ps(r00,vftabscale);
1673	vfitab = _mm_cvttps_epi32(rt);
1674	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1675	vfitab = _mm_slli_epi32(vfitab,3);
1676
1677	/* CUBIC SPLINE TABLE DISPERSION */
1678	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1679	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1680	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1681	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1682	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1683	Heps = _mm_mul_ps(vfeps,H);
1684	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1685	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1686	fvdw6 = _mm_mul_ps(c6_00,FF);
1687
1688	/* CUBIC SPLINE TABLE REPULSION */
1689	vfitab = _mm_add_epi32(vfitab,ifour);
1690	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1691	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1692	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1693	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1694	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1695	Heps = _mm_mul_ps(vfeps,H);
1696	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1697	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1698	fvdw12 = _mm_mul_ps(c12_00,FF);
1699	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
1700
1701	fscal = fvdw;
1702
1703	/* Calculate temporary vectorial force */
1704	tx = _mm_mul_ps(fscal,dx00);
1705	ty = _mm_mul_ps(fscal,dy00);
1706	tz = _mm_mul_ps(fscal,dz00);
1707
1708	/* Update vectorial force */
1709	fix0 = _mm_add_ps(fix0,tx);
1710	fiy0 = _mm_add_ps(fiy0,ty);
1711	fiz0 = _mm_add_ps(fiz0,tz);
1712
1713	fjx0 = _mm_add_ps(fjx0,tx);
1714	fjy0 = _mm_add_ps(fjy0,ty);
1715	fjz0 = _mm_add_ps(fjz0,tz);
1716
1717	/**************************
1718	* CALCULATE INTERACTIONS *
1719	**************************/
1720
1721	r11 = _mm_mul_ps(rsq11,rinv11);
1722
1723	/* EWALD ELECTROSTATICS */
1724
1725	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1726	ewrt = _mm_mul_ps(r11,ewtabscale);
1727	ewitab = _mm_cvttps_epi32(ewrt);
1728	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1729	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1730	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1731	&ewtabF,&ewtabFn);
1732	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1733	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
1734
1735	fscal = felec;
1736
1737	/* Calculate temporary vectorial force */
1738	tx = _mm_mul_ps(fscal,dx11);
1739	ty = _mm_mul_ps(fscal,dy11);
1740	tz = _mm_mul_ps(fscal,dz11);
1741
1742	/* Update vectorial force */
1743	fix1 = _mm_add_ps(fix1,tx);
1744	fiy1 = _mm_add_ps(fiy1,ty);
1745	fiz1 = _mm_add_ps(fiz1,tz);
1746
1747	fjx1 = _mm_add_ps(fjx1,tx);
1748	fjy1 = _mm_add_ps(fjy1,ty);
1749	fjz1 = _mm_add_ps(fjz1,tz);
1750
1751	/**************************
1752	* CALCULATE INTERACTIONS *
1753	**************************/
1754
1755	r12 = _mm_mul_ps(rsq12,rinv12);
1756
1757	/* EWALD ELECTROSTATICS */
1758
1759	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1760	ewrt = _mm_mul_ps(r12,ewtabscale);
1761	ewitab = _mm_cvttps_epi32(ewrt);
1762	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1763	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1764	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1765	&ewtabF,&ewtabFn);
1766	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1767	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
1768
1769	fscal = felec;
1770
1771	/* Calculate temporary vectorial force */
1772	tx = _mm_mul_ps(fscal,dx12);
1773	ty = _mm_mul_ps(fscal,dy12);
1774	tz = _mm_mul_ps(fscal,dz12);
1775
1776	/* Update vectorial force */
1777	fix1 = _mm_add_ps(fix1,tx);
1778	fiy1 = _mm_add_ps(fiy1,ty);
1779	fiz1 = _mm_add_ps(fiz1,tz);
1780
1781	fjx2 = _mm_add_ps(fjx2,tx);
1782	fjy2 = _mm_add_ps(fjy2,ty);
1783	fjz2 = _mm_add_ps(fjz2,tz);
1784
1785	/**************************
1786	* CALCULATE INTERACTIONS *
1787	**************************/
1788
1789	r13 = _mm_mul_ps(rsq13,rinv13);
1790
1791	/* EWALD ELECTROSTATICS */
1792
1793	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1794	ewrt = _mm_mul_ps(r13,ewtabscale);
1795	ewitab = _mm_cvttps_epi32(ewrt);
1796	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1797	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1798	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1799	&ewtabF,&ewtabFn);
1800	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1801	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
1802
1803	fscal = felec;
1804
1805	/* Calculate temporary vectorial force */
1806	tx = _mm_mul_ps(fscal,dx13);
1807	ty = _mm_mul_ps(fscal,dy13);
1808	tz = _mm_mul_ps(fscal,dz13);
1809
1810	/* Update vectorial force */
1811	fix1 = _mm_add_ps(fix1,tx);
1812	fiy1 = _mm_add_ps(fiy1,ty);
1813	fiz1 = _mm_add_ps(fiz1,tz);
1814
1815	fjx3 = _mm_add_ps(fjx3,tx);
1816	fjy3 = _mm_add_ps(fjy3,ty);
1817	fjz3 = _mm_add_ps(fjz3,tz);
1818
1819	/**************************
1820	* CALCULATE INTERACTIONS *
1821	**************************/
1822
1823	r21 = _mm_mul_ps(rsq21,rinv21);
1824
1825	/* EWALD ELECTROSTATICS */
1826
1827	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1828	ewrt = _mm_mul_ps(r21,ewtabscale);
1829	ewitab = _mm_cvttps_epi32(ewrt);
1830	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1831	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1832	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1833	&ewtabF,&ewtabFn);
1834	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1835	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
1836
1837	fscal = felec;
1838
1839	/* Calculate temporary vectorial force */
1840	tx = _mm_mul_ps(fscal,dx21);
1841	ty = _mm_mul_ps(fscal,dy21);
1842	tz = _mm_mul_ps(fscal,dz21);
1843
1844	/* Update vectorial force */
1845	fix2 = _mm_add_ps(fix2,tx);
1846	fiy2 = _mm_add_ps(fiy2,ty);
1847	fiz2 = _mm_add_ps(fiz2,tz);
1848
1849	fjx1 = _mm_add_ps(fjx1,tx);
1850	fjy1 = _mm_add_ps(fjy1,ty);
1851	fjz1 = _mm_add_ps(fjz1,tz);
1852
1853	/**************************
1854	* CALCULATE INTERACTIONS *
1855	**************************/
1856
1857	r22 = _mm_mul_ps(rsq22,rinv22);
1858
1859	/* EWALD ELECTROSTATICS */
1860
1861	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1862	ewrt = _mm_mul_ps(r22,ewtabscale);
1863	ewitab = _mm_cvttps_epi32(ewrt);
1864	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1865	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1866	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1867	&ewtabF,&ewtabFn);
1868	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1869	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
1870
1871	fscal = felec;
1872
1873	/* Calculate temporary vectorial force */
1874	tx = _mm_mul_ps(fscal,dx22);
1875	ty = _mm_mul_ps(fscal,dy22);
1876	tz = _mm_mul_ps(fscal,dz22);
1877
1878	/* Update vectorial force */
1879	fix2 = _mm_add_ps(fix2,tx);
1880	fiy2 = _mm_add_ps(fiy2,ty);
1881	fiz2 = _mm_add_ps(fiz2,tz);
1882
1883	fjx2 = _mm_add_ps(fjx2,tx);
1884	fjy2 = _mm_add_ps(fjy2,ty);
1885	fjz2 = _mm_add_ps(fjz2,tz);
1886
1887	/**************************
1888	* CALCULATE INTERACTIONS *
1889	**************************/
1890
1891	r23 = _mm_mul_ps(rsq23,rinv23);
1892
1893	/* EWALD ELECTROSTATICS */
1894
1895	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1896	ewrt = _mm_mul_ps(r23,ewtabscale);
1897	ewitab = _mm_cvttps_epi32(ewrt);
1898	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1899	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1900	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1901	&ewtabF,&ewtabFn);
1902	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1903	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
1904
1905	fscal = felec;
1906
1907	/* Calculate temporary vectorial force */
1908	tx = _mm_mul_ps(fscal,dx23);
1909	ty = _mm_mul_ps(fscal,dy23);
1910	tz = _mm_mul_ps(fscal,dz23);
1911
1912	/* Update vectorial force */
1913	fix2 = _mm_add_ps(fix2,tx);
1914	fiy2 = _mm_add_ps(fiy2,ty);
1915	fiz2 = _mm_add_ps(fiz2,tz);
1916
1917	fjx3 = _mm_add_ps(fjx3,tx);
1918	fjy3 = _mm_add_ps(fjy3,ty);
1919	fjz3 = _mm_add_ps(fjz3,tz);
1920
1921	/**************************
1922	* CALCULATE INTERACTIONS *
1923	**************************/
1924
1925	r31 = _mm_mul_ps(rsq31,rinv31);
1926
1927	/* EWALD ELECTROSTATICS */
1928
1929	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1930	ewrt = _mm_mul_ps(r31,ewtabscale);
1931	ewitab = _mm_cvttps_epi32(ewrt);
1932	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1933	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1934	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1935	&ewtabF,&ewtabFn);
1936	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1937	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
1938
1939	fscal = felec;
1940
1941	/* Calculate temporary vectorial force */
1942	tx = _mm_mul_ps(fscal,dx31);
1943	ty = _mm_mul_ps(fscal,dy31);
1944	tz = _mm_mul_ps(fscal,dz31);
1945
1946	/* Update vectorial force */
1947	fix3 = _mm_add_ps(fix3,tx);
1948	fiy3 = _mm_add_ps(fiy3,ty);
1949	fiz3 = _mm_add_ps(fiz3,tz);
1950
1951	fjx1 = _mm_add_ps(fjx1,tx);
1952	fjy1 = _mm_add_ps(fjy1,ty);
1953	fjz1 = _mm_add_ps(fjz1,tz);
1954
1955	/**************************
1956	* CALCULATE INTERACTIONS *
1957	**************************/
1958
1959	r32 = _mm_mul_ps(rsq32,rinv32);
1960
1961	/* EWALD ELECTROSTATICS */
1962
1963	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1964	ewrt = _mm_mul_ps(r32,ewtabscale);
1965	ewitab = _mm_cvttps_epi32(ewrt);
1966	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1967	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1968	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1969	&ewtabF,&ewtabFn);
1970	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1971	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
1972
1973	fscal = felec;
1974
1975	/* Calculate temporary vectorial force */
1976	tx = _mm_mul_ps(fscal,dx32);
1977	ty = _mm_mul_ps(fscal,dy32);
1978	tz = _mm_mul_ps(fscal,dz32);
1979
1980	/* Update vectorial force */
1981	fix3 = _mm_add_ps(fix3,tx);
1982	fiy3 = _mm_add_ps(fiy3,ty);
1983	fiz3 = _mm_add_ps(fiz3,tz);
1984
1985	fjx2 = _mm_add_ps(fjx2,tx);
1986	fjy2 = _mm_add_ps(fjy2,ty);
1987	fjz2 = _mm_add_ps(fjz2,tz);
1988
1989	/**************************
1990	* CALCULATE INTERACTIONS *
1991	**************************/
1992
1993	r33 = _mm_mul_ps(rsq33,rinv33);
1994
1995	/* EWALD ELECTROSTATICS */
1996
1997	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1998	ewrt = _mm_mul_ps(r33,ewtabscale);
1999	ewitab = _mm_cvttps_epi32(ewrt);
2000	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2001	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2002	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2003	&ewtabF,&ewtabFn);
2004	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2005	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
2006
2007	fscal = felec;
2008
2009	/* Calculate temporary vectorial force */
2010	tx = _mm_mul_ps(fscal,dx33);
2011	ty = _mm_mul_ps(fscal,dy33);
2012	tz = _mm_mul_ps(fscal,dz33);
2013
2014	/* Update vectorial force */
2015	fix3 = _mm_add_ps(fix3,tx);
2016	fiy3 = _mm_add_ps(fiy3,ty);
2017	fiz3 = _mm_add_ps(fiz3,tz);
2018
2019	fjx3 = _mm_add_ps(fjx3,tx);
2020	fjy3 = _mm_add_ps(fjy3,ty);
2021	fjz3 = _mm_add_ps(fjz3,tz);
2022
2023	fjptrA = f+j_coord_offsetA;
2024	fjptrB = f+j_coord_offsetB;
2025	fjptrC = f+j_coord_offsetC;
2026	fjptrD = f+j_coord_offsetD;
2027
2028	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
2029	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
2030	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
2031
2032	/* Inner loop uses 375 flops */
2033	}
2034
2035	if(jidx<j_index_end)
2036	{
2037
2038	/* Get j neighbor index, and coordinate index */
2039	jnrlistA = jjnr[jidx];
2040	jnrlistB = jjnr[jidx+1];
2041	jnrlistC = jjnr[jidx+2];
2042	jnrlistD = jjnr[jidx+3];
2043	/* Sign of each element will be negative for non-real atoms.
2044	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
2045	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
2046	*/
2047	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
2048	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
2049	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
2050	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
2051	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
2052	j_coord_offsetA = DIM3*jnrA;
2053	j_coord_offsetB = DIM3*jnrB;
2054	j_coord_offsetC = DIM3*jnrC;
2055	j_coord_offsetD = DIM3*jnrD;
2056
2057	/* load j atom coordinates */
2058	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
2059	x+j_coord_offsetC,x+j_coord_offsetD,
2060	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
2061	&jy2,&jz2,&jx3,&jy3,&jz3);
2062
2063	/* Calculate displacement vector */
2064	dx00 = _mm_sub_ps(ix0,jx0);
2065	dy00 = _mm_sub_ps(iy0,jy0);
2066	dz00 = _mm_sub_ps(iz0,jz0);
2067	dx11 = _mm_sub_ps(ix1,jx1);
2068	dy11 = _mm_sub_ps(iy1,jy1);
2069	dz11 = _mm_sub_ps(iz1,jz1);
2070	dx12 = _mm_sub_ps(ix1,jx2);
2071	dy12 = _mm_sub_ps(iy1,jy2);
2072	dz12 = _mm_sub_ps(iz1,jz2);
2073	dx13 = _mm_sub_ps(ix1,jx3);
2074	dy13 = _mm_sub_ps(iy1,jy3);
2075	dz13 = _mm_sub_ps(iz1,jz3);
2076	dx21 = _mm_sub_ps(ix2,jx1);
2077	dy21 = _mm_sub_ps(iy2,jy1);
2078	dz21 = _mm_sub_ps(iz2,jz1);
2079	dx22 = _mm_sub_ps(ix2,jx2);
2080	dy22 = _mm_sub_ps(iy2,jy2);
2081	dz22 = _mm_sub_ps(iz2,jz2);
2082	dx23 = _mm_sub_ps(ix2,jx3);
2083	dy23 = _mm_sub_ps(iy2,jy3);
2084	dz23 = _mm_sub_ps(iz2,jz3);
2085	dx31 = _mm_sub_ps(ix3,jx1);
2086	dy31 = _mm_sub_ps(iy3,jy1);
2087	dz31 = _mm_sub_ps(iz3,jz1);
2088	dx32 = _mm_sub_ps(ix3,jx2);
2089	dy32 = _mm_sub_ps(iy3,jy2);
2090	dz32 = _mm_sub_ps(iz3,jz2);
2091	dx33 = _mm_sub_ps(ix3,jx3);
2092	dy33 = _mm_sub_ps(iy3,jy3);
2093	dz33 = _mm_sub_ps(iz3,jz3);
2094
2095	/* Calculate squared distance and things based on it */
2096	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
2097	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
2098	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
2099	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
2100	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
2101	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
2102	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
2103	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
2104	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
2105	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
2106
2107	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
2108	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
2109	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
2110	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
2111	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
2112	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
2113	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
2114	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
2115	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
2116	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
2117
2118	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
2119	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
2120	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
2121	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
2122	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
2123	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
2124	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
2125	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
2126	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
2127
2128	fjx0 = _mm_setzero_ps();
2129	fjy0 = _mm_setzero_ps();
2130	fjz0 = _mm_setzero_ps();
2131	fjx1 = _mm_setzero_ps();
2132	fjy1 = _mm_setzero_ps();
2133	fjz1 = _mm_setzero_ps();
2134	fjx2 = _mm_setzero_ps();
2135	fjy2 = _mm_setzero_ps();
2136	fjz2 = _mm_setzero_ps();
2137	fjx3 = _mm_setzero_ps();
2138	fjy3 = _mm_setzero_ps();
2139	fjz3 = _mm_setzero_ps();
2140
2141	/**************************
2142	* CALCULATE INTERACTIONS *
2143	**************************/
2144
2145	r00 = _mm_mul_ps(rsq00,rinv00);
2146	r00 = _mm_andnot_ps(dummy_mask,r00);
2147
2148	/* Calculate table index by multiplying r with table scale and truncate to integer */
2149	rt = _mm_mul_ps(r00,vftabscale);
2150	vfitab = _mm_cvttps_epi32(rt);
2151	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2152	vfitab = _mm_slli_epi32(vfitab,3);
2153
2154	/* CUBIC SPLINE TABLE DISPERSION */
2155	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
2156	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
2157	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
2158	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
2159	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
2160	Heps = _mm_mul_ps(vfeps,H);
2161	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
2162	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
2163	fvdw6 = _mm_mul_ps(c6_00,FF);
2164
2165	/* CUBIC SPLINE TABLE REPULSION */
2166	vfitab = _mm_add_epi32(vfitab,ifour);
2167	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
2168	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
2169	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
2170	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
2171	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
2172	Heps = _mm_mul_ps(vfeps,H);
2173	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
2174	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
2175	fvdw12 = _mm_mul_ps(c12_00,FF);
2176	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
2177
2178	fscal = fvdw;
2179
2180	fscal = _mm_andnot_ps(dummy_mask,fscal);
2181
2182	/* Calculate temporary vectorial force */
2183	tx = _mm_mul_ps(fscal,dx00);
2184	ty = _mm_mul_ps(fscal,dy00);
2185	tz = _mm_mul_ps(fscal,dz00);
2186
2187	/* Update vectorial force */
2188	fix0 = _mm_add_ps(fix0,tx);
2189	fiy0 = _mm_add_ps(fiy0,ty);
2190	fiz0 = _mm_add_ps(fiz0,tz);
2191
2192	fjx0 = _mm_add_ps(fjx0,tx);
2193	fjy0 = _mm_add_ps(fjy0,ty);
2194	fjz0 = _mm_add_ps(fjz0,tz);
2195
2196	/**************************
2197	* CALCULATE INTERACTIONS *
2198	**************************/
2199
2200	r11 = _mm_mul_ps(rsq11,rinv11);
2201	r11 = _mm_andnot_ps(dummy_mask,r11);
2202
2203	/* EWALD ELECTROSTATICS */
2204
2205	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2206	ewrt = _mm_mul_ps(r11,ewtabscale);
2207	ewitab = _mm_cvttps_epi32(ewrt);
2208	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2209	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2210	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2211	&ewtabF,&ewtabFn);
2212	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2213	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
2214
2215	fscal = felec;
2216
2217	fscal = _mm_andnot_ps(dummy_mask,fscal);
2218
2219	/* Calculate temporary vectorial force */
2220	tx = _mm_mul_ps(fscal,dx11);
2221	ty = _mm_mul_ps(fscal,dy11);
2222	tz = _mm_mul_ps(fscal,dz11);
2223
2224	/* Update vectorial force */
2225	fix1 = _mm_add_ps(fix1,tx);
2226	fiy1 = _mm_add_ps(fiy1,ty);
2227	fiz1 = _mm_add_ps(fiz1,tz);
2228
2229	fjx1 = _mm_add_ps(fjx1,tx);
2230	fjy1 = _mm_add_ps(fjy1,ty);
2231	fjz1 = _mm_add_ps(fjz1,tz);
2232
2233	/**************************
2234	* CALCULATE INTERACTIONS *
2235	**************************/
2236
2237	r12 = _mm_mul_ps(rsq12,rinv12);
2238	r12 = _mm_andnot_ps(dummy_mask,r12);
2239
2240	/* EWALD ELECTROSTATICS */
2241
2242	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2243	ewrt = _mm_mul_ps(r12,ewtabscale);
2244	ewitab = _mm_cvttps_epi32(ewrt);
2245	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2246	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2247	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2248	&ewtabF,&ewtabFn);
2249	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2250	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
2251
2252	fscal = felec;
2253
2254	fscal = _mm_andnot_ps(dummy_mask,fscal);
2255
2256	/* Calculate temporary vectorial force */
2257	tx = _mm_mul_ps(fscal,dx12);
2258	ty = _mm_mul_ps(fscal,dy12);
2259	tz = _mm_mul_ps(fscal,dz12);
2260
2261	/* Update vectorial force */
2262	fix1 = _mm_add_ps(fix1,tx);
2263	fiy1 = _mm_add_ps(fiy1,ty);
2264	fiz1 = _mm_add_ps(fiz1,tz);
2265
2266	fjx2 = _mm_add_ps(fjx2,tx);
2267	fjy2 = _mm_add_ps(fjy2,ty);
2268	fjz2 = _mm_add_ps(fjz2,tz);
2269
2270	/**************************
2271	* CALCULATE INTERACTIONS *
2272	**************************/
2273
2274	r13 = _mm_mul_ps(rsq13,rinv13);
2275	r13 = _mm_andnot_ps(dummy_mask,r13);
2276
2277	/* EWALD ELECTROSTATICS */
2278
2279	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2280	ewrt = _mm_mul_ps(r13,ewtabscale);
2281	ewitab = _mm_cvttps_epi32(ewrt);
2282	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2283	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2284	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2285	&ewtabF,&ewtabFn);
2286	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2287	felec = _mm_mul_ps(_mm_mul_ps(qq13,rinv13),_mm_sub_ps(rinvsq13,felec));
2288
2289	fscal = felec;
2290
2291	fscal = _mm_andnot_ps(dummy_mask,fscal);
2292
2293	/* Calculate temporary vectorial force */
2294	tx = _mm_mul_ps(fscal,dx13);
2295	ty = _mm_mul_ps(fscal,dy13);
2296	tz = _mm_mul_ps(fscal,dz13);
2297
2298	/* Update vectorial force */
2299	fix1 = _mm_add_ps(fix1,tx);
2300	fiy1 = _mm_add_ps(fiy1,ty);
2301	fiz1 = _mm_add_ps(fiz1,tz);
2302
2303	fjx3 = _mm_add_ps(fjx3,tx);
2304	fjy3 = _mm_add_ps(fjy3,ty);
2305	fjz3 = _mm_add_ps(fjz3,tz);
2306
2307	/**************************
2308	* CALCULATE INTERACTIONS *
2309	**************************/
2310
2311	r21 = _mm_mul_ps(rsq21,rinv21);
2312	r21 = _mm_andnot_ps(dummy_mask,r21);
2313
2314	/* EWALD ELECTROSTATICS */
2315
2316	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2317	ewrt = _mm_mul_ps(r21,ewtabscale);
2318	ewitab = _mm_cvttps_epi32(ewrt);
2319	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2320	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2321	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2322	&ewtabF,&ewtabFn);
2323	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2324	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
2325
2326	fscal = felec;
2327
2328	fscal = _mm_andnot_ps(dummy_mask,fscal);
2329
2330	/* Calculate temporary vectorial force */
2331	tx = _mm_mul_ps(fscal,dx21);
2332	ty = _mm_mul_ps(fscal,dy21);
2333	tz = _mm_mul_ps(fscal,dz21);
2334
2335	/* Update vectorial force */
2336	fix2 = _mm_add_ps(fix2,tx);
2337	fiy2 = _mm_add_ps(fiy2,ty);
2338	fiz2 = _mm_add_ps(fiz2,tz);
2339
2340	fjx1 = _mm_add_ps(fjx1,tx);
2341	fjy1 = _mm_add_ps(fjy1,ty);
2342	fjz1 = _mm_add_ps(fjz1,tz);
2343
2344	/**************************
2345	* CALCULATE INTERACTIONS *
2346	**************************/
2347
2348	r22 = _mm_mul_ps(rsq22,rinv22);
2349	r22 = _mm_andnot_ps(dummy_mask,r22);
2350
2351	/* EWALD ELECTROSTATICS */
2352
2353	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2354	ewrt = _mm_mul_ps(r22,ewtabscale);
2355	ewitab = _mm_cvttps_epi32(ewrt);
2356	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2357	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2358	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2359	&ewtabF,&ewtabFn);
2360	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2361	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
2362
2363	fscal = felec;
2364
2365	fscal = _mm_andnot_ps(dummy_mask,fscal);
2366
2367	/* Calculate temporary vectorial force */
2368	tx = _mm_mul_ps(fscal,dx22);
2369	ty = _mm_mul_ps(fscal,dy22);
2370	tz = _mm_mul_ps(fscal,dz22);
2371
2372	/* Update vectorial force */
2373	fix2 = _mm_add_ps(fix2,tx);
2374	fiy2 = _mm_add_ps(fiy2,ty);
2375	fiz2 = _mm_add_ps(fiz2,tz);
2376
2377	fjx2 = _mm_add_ps(fjx2,tx);
2378	fjy2 = _mm_add_ps(fjy2,ty);
2379	fjz2 = _mm_add_ps(fjz2,tz);
2380
2381	/**************************
2382	* CALCULATE INTERACTIONS *
2383	**************************/
2384
2385	r23 = _mm_mul_ps(rsq23,rinv23);
2386	r23 = _mm_andnot_ps(dummy_mask,r23);
2387
2388	/* EWALD ELECTROSTATICS */
2389
2390	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2391	ewrt = _mm_mul_ps(r23,ewtabscale);
2392	ewitab = _mm_cvttps_epi32(ewrt);
2393	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2394	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2395	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2396	&ewtabF,&ewtabFn);
2397	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2398	felec = _mm_mul_ps(_mm_mul_ps(qq23,rinv23),_mm_sub_ps(rinvsq23,felec));
2399
2400	fscal = felec;
2401
2402	fscal = _mm_andnot_ps(dummy_mask,fscal);
2403
2404	/* Calculate temporary vectorial force */
2405	tx = _mm_mul_ps(fscal,dx23);
2406	ty = _mm_mul_ps(fscal,dy23);
2407	tz = _mm_mul_ps(fscal,dz23);
2408
2409	/* Update vectorial force */
2410	fix2 = _mm_add_ps(fix2,tx);
2411	fiy2 = _mm_add_ps(fiy2,ty);
2412	fiz2 = _mm_add_ps(fiz2,tz);
2413
2414	fjx3 = _mm_add_ps(fjx3,tx);
2415	fjy3 = _mm_add_ps(fjy3,ty);
2416	fjz3 = _mm_add_ps(fjz3,tz);
2417
2418	/**************************
2419	* CALCULATE INTERACTIONS *
2420	**************************/
2421
2422	r31 = _mm_mul_ps(rsq31,rinv31);
2423	r31 = _mm_andnot_ps(dummy_mask,r31);
2424
2425	/* EWALD ELECTROSTATICS */
2426
2427	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2428	ewrt = _mm_mul_ps(r31,ewtabscale);
2429	ewitab = _mm_cvttps_epi32(ewrt);
2430	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2431	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2432	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2433	&ewtabF,&ewtabFn);
2434	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2435	felec = _mm_mul_ps(_mm_mul_ps(qq31,rinv31),_mm_sub_ps(rinvsq31,felec));
2436
2437	fscal = felec;
2438
2439	fscal = _mm_andnot_ps(dummy_mask,fscal);
2440
2441	/* Calculate temporary vectorial force */
2442	tx = _mm_mul_ps(fscal,dx31);
2443	ty = _mm_mul_ps(fscal,dy31);
2444	tz = _mm_mul_ps(fscal,dz31);
2445
2446	/* Update vectorial force */
2447	fix3 = _mm_add_ps(fix3,tx);
2448	fiy3 = _mm_add_ps(fiy3,ty);
2449	fiz3 = _mm_add_ps(fiz3,tz);
2450
2451	fjx1 = _mm_add_ps(fjx1,tx);
2452	fjy1 = _mm_add_ps(fjy1,ty);
2453	fjz1 = _mm_add_ps(fjz1,tz);
2454
2455	/**************************
2456	* CALCULATE INTERACTIONS *
2457	**************************/
2458
2459	r32 = _mm_mul_ps(rsq32,rinv32);
2460	r32 = _mm_andnot_ps(dummy_mask,r32);
2461
2462	/* EWALD ELECTROSTATICS */
2463
2464	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2465	ewrt = _mm_mul_ps(r32,ewtabscale);
2466	ewitab = _mm_cvttps_epi32(ewrt);
2467	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2468	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2469	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2470	&ewtabF,&ewtabFn);
2471	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2472	felec = _mm_mul_ps(_mm_mul_ps(qq32,rinv32),_mm_sub_ps(rinvsq32,felec));
2473
2474	fscal = felec;
2475
2476	fscal = _mm_andnot_ps(dummy_mask,fscal);
2477
2478	/* Calculate temporary vectorial force */
2479	tx = _mm_mul_ps(fscal,dx32);
2480	ty = _mm_mul_ps(fscal,dy32);
2481	tz = _mm_mul_ps(fscal,dz32);
2482
2483	/* Update vectorial force */
2484	fix3 = _mm_add_ps(fix3,tx);
2485	fiy3 = _mm_add_ps(fiy3,ty);
2486	fiz3 = _mm_add_ps(fiz3,tz);
2487
2488	fjx2 = _mm_add_ps(fjx2,tx);
2489	fjy2 = _mm_add_ps(fjy2,ty);
2490	fjz2 = _mm_add_ps(fjz2,tz);
2491
2492	/**************************
2493	* CALCULATE INTERACTIONS *
2494	**************************/
2495
2496	r33 = _mm_mul_ps(rsq33,rinv33);
2497	r33 = _mm_andnot_ps(dummy_mask,r33);
2498
2499	/* EWALD ELECTROSTATICS */
2500
2501	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2502	ewrt = _mm_mul_ps(r33,ewtabscale);
2503	ewitab = _mm_cvttps_epi32(ewrt);
2504	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2505	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2506	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2507	&ewtabF,&ewtabFn);
2508	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2509	felec = _mm_mul_ps(_mm_mul_ps(qq33,rinv33),_mm_sub_ps(rinvsq33,felec));
2510
2511	fscal = felec;
2512
2513	fscal = _mm_andnot_ps(dummy_mask,fscal);
2514
2515	/* Calculate temporary vectorial force */
2516	tx = _mm_mul_ps(fscal,dx33);
2517	ty = _mm_mul_ps(fscal,dy33);
2518	tz = _mm_mul_ps(fscal,dz33);
2519
2520	/* Update vectorial force */
2521	fix3 = _mm_add_ps(fix3,tx);
2522	fiy3 = _mm_add_ps(fiy3,ty);
2523	fiz3 = _mm_add_ps(fiz3,tz);
2524
2525	fjx3 = _mm_add_ps(fjx3,tx);
2526	fjy3 = _mm_add_ps(fjy3,ty);
2527	fjz3 = _mm_add_ps(fjz3,tz);
2528
2529	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
2530	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
2531	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
2532	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
2533
2534	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
2535	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
2536	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
2537
2538	/* Inner loop uses 385 flops */
2539	}
2540
2541	/* End of innermost loop */
2542
2543	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
2544	f+i_coord_offset,fshift+i_shift_offset);
2545
2546	/* Increment number of inner iterations */
2547	inneriter += j_index_end - j_index_start;
2548
2549	/* Outer loop uses 24 flops */
2550	}
2551
2552	/* Increment number of outer iterations */
2553	outeriter += nri;
2554
2555	/* Update outer/inner flops */
2556
2557	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_F,outeriter24 + inneriter385)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_F] += outeriter24 + inneriter 385;
2558	}