/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwNone_GeomW3W3_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEw_VdwNone_GeomW3W3_sse4_1_single.c
Location:	line 129, column 5
Description:	Value stored to 'sh_ewald' is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwNone_GeomW3W3_VF_sse4_1_single
54	* Electrostatics interaction: Ewald
55	* VdW interaction: None
56	* Geometry: Water3-Water3
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecEw_VdwNone_GeomW3W3_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
92	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
93	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
94	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
95	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
96	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
97	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
98	__m128 dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
99	__m128 dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
100	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
101	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
102	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
103	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
104	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
105	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
106	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
107	real *charge;
108	__m128i ewitab;
109	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
110	real *ewtab;
111	__m128 dummy_mask,cutoff_mask;
112	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
113	__m128 one = _mm_set1_ps(1.0);
114	__m128 two = _mm_set1_ps(2.0);
115	x = xx[0];
116	f = ff[0];
117
118	nri = nlist->nri;
119	iinr = nlist->iinr;
120	jindex = nlist->jindex;
121	jjnr = nlist->jjnr;
122	shiftidx = nlist->shift;
123	gid = nlist->gid;
124	shiftvec = fr->shift_vec[0];
125	fshift = fr->fshift[0];
126	facel = _mm_set1_ps(fr->epsfac);
127	charge = mdatoms->chargeA;
128
129	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
	Value stored to 'sh_ewald' is never read
130	ewtab = fr->ic->tabq_coul_FDV0;
131	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
132	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
133
134	/* Setup water-specific parameters */
135	inr = nlist->iinr[0];
136	iq0 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
137	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
138	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
139
140	jq0 = _mm_set1_ps(charge[inr+0]);
141	jq1 = _mm_set1_ps(charge[inr+1]);
142	jq2 = _mm_set1_ps(charge[inr+2]);
143	qq00 = _mm_mul_ps(iq0,jq0);
144	qq01 = _mm_mul_ps(iq0,jq1);
145	qq02 = _mm_mul_ps(iq0,jq2);
146	qq10 = _mm_mul_ps(iq1,jq0);
147	qq11 = _mm_mul_ps(iq1,jq1);
148	qq12 = _mm_mul_ps(iq1,jq2);
149	qq20 = _mm_mul_ps(iq2,jq0);
150	qq21 = _mm_mul_ps(iq2,jq1);
151	qq22 = _mm_mul_ps(iq2,jq2);
152
153	/* Avoid stupid compiler warnings */
154	jnrA = jnrB = jnrC = jnrD = 0;
155	j_coord_offsetA = 0;
156	j_coord_offsetB = 0;
157	j_coord_offsetC = 0;
158	j_coord_offsetD = 0;
159
160	outeriter = 0;
161	inneriter = 0;
162
163	for(iidx=0;iidx<4*DIM3;iidx++)
164	{
165	scratch[iidx] = 0.0;
166	}
167
168	/* Start outer loop over neighborlists */
169	for(iidx=0; iidx<nri; iidx++)
170	{
171	/* Load shift vector for this list */
172	i_shift_offset = DIM3*shiftidx[iidx];
173
174	/* Load limits for loop over neighbors */
175	j_index_start = jindex[iidx];
176	j_index_end = jindex[iidx+1];
177
178	/* Get outer coordinate index */
179	inr = iinr[iidx];
180	i_coord_offset = DIM3*inr;
181
182	/* Load i particle coords and add shift vector */
183	gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
184	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
185
186	fix0 = _mm_setzero_ps();
187	fiy0 = _mm_setzero_ps();
188	fiz0 = _mm_setzero_ps();
189	fix1 = _mm_setzero_ps();
190	fiy1 = _mm_setzero_ps();
191	fiz1 = _mm_setzero_ps();
192	fix2 = _mm_setzero_ps();
193	fiy2 = _mm_setzero_ps();
194	fiz2 = _mm_setzero_ps();
195
196	/* Reset potential sums */
197	velecsum = _mm_setzero_ps();
198
199	/* Start inner kernel loop */
200	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
201	{
202
203	/* Get j neighbor index, and coordinate index */
204	jnrA = jjnr[jidx];
205	jnrB = jjnr[jidx+1];
206	jnrC = jjnr[jidx+2];
207	jnrD = jjnr[jidx+3];
208	j_coord_offsetA = DIM3*jnrA;
209	j_coord_offsetB = DIM3*jnrB;
210	j_coord_offsetC = DIM3*jnrC;
211	j_coord_offsetD = DIM3*jnrD;
212
213	/* load j atom coordinates */
214	gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
215	x+j_coord_offsetC,x+j_coord_offsetD,
216	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
217
218	/* Calculate displacement vector */
219	dx00 = _mm_sub_ps(ix0,jx0);
220	dy00 = _mm_sub_ps(iy0,jy0);
221	dz00 = _mm_sub_ps(iz0,jz0);
222	dx01 = _mm_sub_ps(ix0,jx1);
223	dy01 = _mm_sub_ps(iy0,jy1);
224	dz01 = _mm_sub_ps(iz0,jz1);
225	dx02 = _mm_sub_ps(ix0,jx2);
226	dy02 = _mm_sub_ps(iy0,jy2);
227	dz02 = _mm_sub_ps(iz0,jz2);
228	dx10 = _mm_sub_ps(ix1,jx0);
229	dy10 = _mm_sub_ps(iy1,jy0);
230	dz10 = _mm_sub_ps(iz1,jz0);
231	dx11 = _mm_sub_ps(ix1,jx1);
232	dy11 = _mm_sub_ps(iy1,jy1);
233	dz11 = _mm_sub_ps(iz1,jz1);
234	dx12 = _mm_sub_ps(ix1,jx2);
235	dy12 = _mm_sub_ps(iy1,jy2);
236	dz12 = _mm_sub_ps(iz1,jz2);
237	dx20 = _mm_sub_ps(ix2,jx0);
238	dy20 = _mm_sub_ps(iy2,jy0);
239	dz20 = _mm_sub_ps(iz2,jz0);
240	dx21 = _mm_sub_ps(ix2,jx1);
241	dy21 = _mm_sub_ps(iy2,jy1);
242	dz21 = _mm_sub_ps(iz2,jz1);
243	dx22 = _mm_sub_ps(ix2,jx2);
244	dy22 = _mm_sub_ps(iy2,jy2);
245	dz22 = _mm_sub_ps(iz2,jz2);
246
247	/* Calculate squared distance and things based on it */
248	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
249	rsq01 = gmx_mm_calc_rsq_ps(dx01,dy01,dz01);
250	rsq02 = gmx_mm_calc_rsq_ps(dx02,dy02,dz02);
251	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
252	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
253	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
254	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
255	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
256	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
257
258	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
259	rinv01 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq01);
260	rinv02 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq02);
261	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
262	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
263	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
264	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
265	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
266	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
267
268	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
269	rinvsq01 = _mm_mul_ps(rinv01,rinv01);
270	rinvsq02 = _mm_mul_ps(rinv02,rinv02);
271	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
272	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
273	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
274	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
275	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
276	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
277
278	fjx0 = _mm_setzero_ps();
279	fjy0 = _mm_setzero_ps();
280	fjz0 = _mm_setzero_ps();
281	fjx1 = _mm_setzero_ps();
282	fjy1 = _mm_setzero_ps();
283	fjz1 = _mm_setzero_ps();
284	fjx2 = _mm_setzero_ps();
285	fjy2 = _mm_setzero_ps();
286	fjz2 = _mm_setzero_ps();
287
288	/**************************
289	* CALCULATE INTERACTIONS *
290	**************************/
291
292	r00 = _mm_mul_ps(rsq00,rinv00);
293
294	/* EWALD ELECTROSTATICS */
295
296	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
297	ewrt = _mm_mul_ps(r00,ewtabscale);
298	ewitab = _mm_cvttps_epi32(ewrt);
299	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
300	ewitab = _mm_slli_epi32(ewitab,2);
301	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
302	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
303	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
304	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
305	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
306	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
307	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
308	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
309	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
310
311	/* Update potential sum for this i atom from the interaction with this j atom. */
312	velecsum = _mm_add_ps(velecsum,velec);
313
314	fscal = felec;
315
316	/* Calculate temporary vectorial force */
317	tx = _mm_mul_ps(fscal,dx00);
318	ty = _mm_mul_ps(fscal,dy00);
319	tz = _mm_mul_ps(fscal,dz00);
320
321	/* Update vectorial force */
322	fix0 = _mm_add_ps(fix0,tx);
323	fiy0 = _mm_add_ps(fiy0,ty);
324	fiz0 = _mm_add_ps(fiz0,tz);
325
326	fjx0 = _mm_add_ps(fjx0,tx);
327	fjy0 = _mm_add_ps(fjy0,ty);
328	fjz0 = _mm_add_ps(fjz0,tz);
329
330	/**************************
331	* CALCULATE INTERACTIONS *
332	**************************/
333
334	r01 = _mm_mul_ps(rsq01,rinv01);
335
336	/* EWALD ELECTROSTATICS */
337
338	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
339	ewrt = _mm_mul_ps(r01,ewtabscale);
340	ewitab = _mm_cvttps_epi32(ewrt);
341	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
342	ewitab = _mm_slli_epi32(ewitab,2);
343	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
344	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
345	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
346	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
347	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
348	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
349	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
350	velec = _mm_mul_ps(qq01,_mm_sub_ps(rinv01,velec));
351	felec = _mm_mul_ps(_mm_mul_ps(qq01,rinv01),_mm_sub_ps(rinvsq01,felec));
352
353	/* Update potential sum for this i atom from the interaction with this j atom. */
354	velecsum = _mm_add_ps(velecsum,velec);
355
356	fscal = felec;
357
358	/* Calculate temporary vectorial force */
359	tx = _mm_mul_ps(fscal,dx01);
360	ty = _mm_mul_ps(fscal,dy01);
361	tz = _mm_mul_ps(fscal,dz01);
362
363	/* Update vectorial force */
364	fix0 = _mm_add_ps(fix0,tx);
365	fiy0 = _mm_add_ps(fiy0,ty);
366	fiz0 = _mm_add_ps(fiz0,tz);
367
368	fjx1 = _mm_add_ps(fjx1,tx);
369	fjy1 = _mm_add_ps(fjy1,ty);
370	fjz1 = _mm_add_ps(fjz1,tz);
371
372	/**************************
373	* CALCULATE INTERACTIONS *
374	**************************/
375
376	r02 = _mm_mul_ps(rsq02,rinv02);
377
378	/* EWALD ELECTROSTATICS */
379
380	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
381	ewrt = _mm_mul_ps(r02,ewtabscale);
382	ewitab = _mm_cvttps_epi32(ewrt);
383	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
384	ewitab = _mm_slli_epi32(ewitab,2);
385	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
386	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
387	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
388	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
389	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
390	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
391	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
392	velec = _mm_mul_ps(qq02,_mm_sub_ps(rinv02,velec));
393	felec = _mm_mul_ps(_mm_mul_ps(qq02,rinv02),_mm_sub_ps(rinvsq02,felec));
394
395	/* Update potential sum for this i atom from the interaction with this j atom. */
396	velecsum = _mm_add_ps(velecsum,velec);
397
398	fscal = felec;
399
400	/* Calculate temporary vectorial force */
401	tx = _mm_mul_ps(fscal,dx02);
402	ty = _mm_mul_ps(fscal,dy02);
403	tz = _mm_mul_ps(fscal,dz02);
404
405	/* Update vectorial force */
406	fix0 = _mm_add_ps(fix0,tx);
407	fiy0 = _mm_add_ps(fiy0,ty);
408	fiz0 = _mm_add_ps(fiz0,tz);
409
410	fjx2 = _mm_add_ps(fjx2,tx);
411	fjy2 = _mm_add_ps(fjy2,ty);
412	fjz2 = _mm_add_ps(fjz2,tz);
413
414	/**************************
415	* CALCULATE INTERACTIONS *
416	**************************/
417
418	r10 = _mm_mul_ps(rsq10,rinv10);
419
420	/* EWALD ELECTROSTATICS */
421
422	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
423	ewrt = _mm_mul_ps(r10,ewtabscale);
424	ewitab = _mm_cvttps_epi32(ewrt);
425	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
426	ewitab = _mm_slli_epi32(ewitab,2);
427	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
428	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
429	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
430	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
431	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
432	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
433	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
434	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
435	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
436
437	/* Update potential sum for this i atom from the interaction with this j atom. */
438	velecsum = _mm_add_ps(velecsum,velec);
439
440	fscal = felec;
441
442	/* Calculate temporary vectorial force */
443	tx = _mm_mul_ps(fscal,dx10);
444	ty = _mm_mul_ps(fscal,dy10);
445	tz = _mm_mul_ps(fscal,dz10);
446
447	/* Update vectorial force */
448	fix1 = _mm_add_ps(fix1,tx);
449	fiy1 = _mm_add_ps(fiy1,ty);
450	fiz1 = _mm_add_ps(fiz1,tz);
451
452	fjx0 = _mm_add_ps(fjx0,tx);
453	fjy0 = _mm_add_ps(fjy0,ty);
454	fjz0 = _mm_add_ps(fjz0,tz);
455
456	/**************************
457	* CALCULATE INTERACTIONS *
458	**************************/
459
460	r11 = _mm_mul_ps(rsq11,rinv11);
461
462	/* EWALD ELECTROSTATICS */
463
464	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
465	ewrt = _mm_mul_ps(r11,ewtabscale);
466	ewitab = _mm_cvttps_epi32(ewrt);
467	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
468	ewitab = _mm_slli_epi32(ewitab,2);
469	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
470	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
471	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
472	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
473	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
474	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
475	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
476	velec = _mm_mul_ps(qq11,_mm_sub_ps(rinv11,velec));
477	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
478
479	/* Update potential sum for this i atom from the interaction with this j atom. */
480	velecsum = _mm_add_ps(velecsum,velec);
481
482	fscal = felec;
483
484	/* Calculate temporary vectorial force */
485	tx = _mm_mul_ps(fscal,dx11);
486	ty = _mm_mul_ps(fscal,dy11);
487	tz = _mm_mul_ps(fscal,dz11);
488
489	/* Update vectorial force */
490	fix1 = _mm_add_ps(fix1,tx);
491	fiy1 = _mm_add_ps(fiy1,ty);
492	fiz1 = _mm_add_ps(fiz1,tz);
493
494	fjx1 = _mm_add_ps(fjx1,tx);
495	fjy1 = _mm_add_ps(fjy1,ty);
496	fjz1 = _mm_add_ps(fjz1,tz);
497
498	/**************************
499	* CALCULATE INTERACTIONS *
500	**************************/
501
502	r12 = _mm_mul_ps(rsq12,rinv12);
503
504	/* EWALD ELECTROSTATICS */
505
506	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
507	ewrt = _mm_mul_ps(r12,ewtabscale);
508	ewitab = _mm_cvttps_epi32(ewrt);
509	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
510	ewitab = _mm_slli_epi32(ewitab,2);
511	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
512	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
513	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
514	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
515	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
516	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
517	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
518	velec = _mm_mul_ps(qq12,_mm_sub_ps(rinv12,velec));
519	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
520
521	/* Update potential sum for this i atom from the interaction with this j atom. */
522	velecsum = _mm_add_ps(velecsum,velec);
523
524	fscal = felec;
525
526	/* Calculate temporary vectorial force */
527	tx = _mm_mul_ps(fscal,dx12);
528	ty = _mm_mul_ps(fscal,dy12);
529	tz = _mm_mul_ps(fscal,dz12);
530
531	/* Update vectorial force */
532	fix1 = _mm_add_ps(fix1,tx);
533	fiy1 = _mm_add_ps(fiy1,ty);
534	fiz1 = _mm_add_ps(fiz1,tz);
535
536	fjx2 = _mm_add_ps(fjx2,tx);
537	fjy2 = _mm_add_ps(fjy2,ty);
538	fjz2 = _mm_add_ps(fjz2,tz);
539
540	/**************************
541	* CALCULATE INTERACTIONS *
542	**************************/
543
544	r20 = _mm_mul_ps(rsq20,rinv20);
545
546	/* EWALD ELECTROSTATICS */
547
548	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
549	ewrt = _mm_mul_ps(r20,ewtabscale);
550	ewitab = _mm_cvttps_epi32(ewrt);
551	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
552	ewitab = _mm_slli_epi32(ewitab,2);
553	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
554	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
555	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
556	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
557	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
558	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
559	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
560	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
561	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
562
563	/* Update potential sum for this i atom from the interaction with this j atom. */
564	velecsum = _mm_add_ps(velecsum,velec);
565
566	fscal = felec;
567
568	/* Calculate temporary vectorial force */
569	tx = _mm_mul_ps(fscal,dx20);
570	ty = _mm_mul_ps(fscal,dy20);
571	tz = _mm_mul_ps(fscal,dz20);
572
573	/* Update vectorial force */
574	fix2 = _mm_add_ps(fix2,tx);
575	fiy2 = _mm_add_ps(fiy2,ty);
576	fiz2 = _mm_add_ps(fiz2,tz);
577
578	fjx0 = _mm_add_ps(fjx0,tx);
579	fjy0 = _mm_add_ps(fjy0,ty);
580	fjz0 = _mm_add_ps(fjz0,tz);
581
582	/**************************
583	* CALCULATE INTERACTIONS *
584	**************************/
585
586	r21 = _mm_mul_ps(rsq21,rinv21);
587
588	/* EWALD ELECTROSTATICS */
589
590	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
591	ewrt = _mm_mul_ps(r21,ewtabscale);
592	ewitab = _mm_cvttps_epi32(ewrt);
593	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
594	ewitab = _mm_slli_epi32(ewitab,2);
595	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
596	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
597	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
598	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
599	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
600	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
601	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
602	velec = _mm_mul_ps(qq21,_mm_sub_ps(rinv21,velec));
603	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
604
605	/* Update potential sum for this i atom from the interaction with this j atom. */
606	velecsum = _mm_add_ps(velecsum,velec);
607
608	fscal = felec;
609
610	/* Calculate temporary vectorial force */
611	tx = _mm_mul_ps(fscal,dx21);
612	ty = _mm_mul_ps(fscal,dy21);
613	tz = _mm_mul_ps(fscal,dz21);
614
615	/* Update vectorial force */
616	fix2 = _mm_add_ps(fix2,tx);
617	fiy2 = _mm_add_ps(fiy2,ty);
618	fiz2 = _mm_add_ps(fiz2,tz);
619
620	fjx1 = _mm_add_ps(fjx1,tx);
621	fjy1 = _mm_add_ps(fjy1,ty);
622	fjz1 = _mm_add_ps(fjz1,tz);
623
624	/**************************
625	* CALCULATE INTERACTIONS *
626	**************************/
627
628	r22 = _mm_mul_ps(rsq22,rinv22);
629
630	/* EWALD ELECTROSTATICS */
631
632	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
633	ewrt = _mm_mul_ps(r22,ewtabscale);
634	ewitab = _mm_cvttps_epi32(ewrt);
635	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
636	ewitab = _mm_slli_epi32(ewitab,2);
637	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
638	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
639	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
640	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
641	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
642	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
643	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
644	velec = _mm_mul_ps(qq22,_mm_sub_ps(rinv22,velec));
645	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
646
647	/* Update potential sum for this i atom from the interaction with this j atom. */
648	velecsum = _mm_add_ps(velecsum,velec);
649
650	fscal = felec;
651
652	/* Calculate temporary vectorial force */
653	tx = _mm_mul_ps(fscal,dx22);
654	ty = _mm_mul_ps(fscal,dy22);
655	tz = _mm_mul_ps(fscal,dz22);
656
657	/* Update vectorial force */
658	fix2 = _mm_add_ps(fix2,tx);
659	fiy2 = _mm_add_ps(fiy2,ty);
660	fiz2 = _mm_add_ps(fiz2,tz);
661
662	fjx2 = _mm_add_ps(fjx2,tx);
663	fjy2 = _mm_add_ps(fjy2,ty);
664	fjz2 = _mm_add_ps(fjz2,tz);
665
666	fjptrA = f+j_coord_offsetA;
667	fjptrB = f+j_coord_offsetB;
668	fjptrC = f+j_coord_offsetC;
669	fjptrD = f+j_coord_offsetD;
670
671	gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
672	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
673
674	/* Inner loop uses 369 flops */
675	}
676
677	if(jidx<j_index_end)
678	{
679
680	/* Get j neighbor index, and coordinate index */
681	jnrlistA = jjnr[jidx];
682	jnrlistB = jjnr[jidx+1];
683	jnrlistC = jjnr[jidx+2];
684	jnrlistD = jjnr[jidx+3];
685	/* Sign of each element will be negative for non-real atoms.
686	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
687	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
688	*/
689	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
690	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
691	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
692	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
693	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
694	j_coord_offsetA = DIM3*jnrA;
695	j_coord_offsetB = DIM3*jnrB;
696	j_coord_offsetC = DIM3*jnrC;
697	j_coord_offsetD = DIM3*jnrD;
698
699	/* load j atom coordinates */
700	gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
701	x+j_coord_offsetC,x+j_coord_offsetD,
702	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
703
704	/* Calculate displacement vector */
705	dx00 = _mm_sub_ps(ix0,jx0);
706	dy00 = _mm_sub_ps(iy0,jy0);
707	dz00 = _mm_sub_ps(iz0,jz0);
708	dx01 = _mm_sub_ps(ix0,jx1);
709	dy01 = _mm_sub_ps(iy0,jy1);
710	dz01 = _mm_sub_ps(iz0,jz1);
711	dx02 = _mm_sub_ps(ix0,jx2);
712	dy02 = _mm_sub_ps(iy0,jy2);
713	dz02 = _mm_sub_ps(iz0,jz2);
714	dx10 = _mm_sub_ps(ix1,jx0);
715	dy10 = _mm_sub_ps(iy1,jy0);
716	dz10 = _mm_sub_ps(iz1,jz0);
717	dx11 = _mm_sub_ps(ix1,jx1);
718	dy11 = _mm_sub_ps(iy1,jy1);
719	dz11 = _mm_sub_ps(iz1,jz1);
720	dx12 = _mm_sub_ps(ix1,jx2);
721	dy12 = _mm_sub_ps(iy1,jy2);
722	dz12 = _mm_sub_ps(iz1,jz2);
723	dx20 = _mm_sub_ps(ix2,jx0);
724	dy20 = _mm_sub_ps(iy2,jy0);
725	dz20 = _mm_sub_ps(iz2,jz0);
726	dx21 = _mm_sub_ps(ix2,jx1);
727	dy21 = _mm_sub_ps(iy2,jy1);
728	dz21 = _mm_sub_ps(iz2,jz1);
729	dx22 = _mm_sub_ps(ix2,jx2);
730	dy22 = _mm_sub_ps(iy2,jy2);
731	dz22 = _mm_sub_ps(iz2,jz2);
732
733	/* Calculate squared distance and things based on it */
734	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
735	rsq01 = gmx_mm_calc_rsq_ps(dx01,dy01,dz01);
736	rsq02 = gmx_mm_calc_rsq_ps(dx02,dy02,dz02);
737	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
738	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
739	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
740	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
741	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
742	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
743
744	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
745	rinv01 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq01);
746	rinv02 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq02);
747	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
748	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
749	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
750	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
751	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
752	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
753
754	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
755	rinvsq01 = _mm_mul_ps(rinv01,rinv01);
756	rinvsq02 = _mm_mul_ps(rinv02,rinv02);
757	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
758	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
759	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
760	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
761	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
762	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
763
764	fjx0 = _mm_setzero_ps();
765	fjy0 = _mm_setzero_ps();
766	fjz0 = _mm_setzero_ps();
767	fjx1 = _mm_setzero_ps();
768	fjy1 = _mm_setzero_ps();
769	fjz1 = _mm_setzero_ps();
770	fjx2 = _mm_setzero_ps();
771	fjy2 = _mm_setzero_ps();
772	fjz2 = _mm_setzero_ps();
773
774	/**************************
775	* CALCULATE INTERACTIONS *
776	**************************/
777
778	r00 = _mm_mul_ps(rsq00,rinv00);
779	r00 = _mm_andnot_ps(dummy_mask,r00);
780
781	/* EWALD ELECTROSTATICS */
782
783	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
784	ewrt = _mm_mul_ps(r00,ewtabscale);
785	ewitab = _mm_cvttps_epi32(ewrt);
786	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
787	ewitab = _mm_slli_epi32(ewitab,2);
788	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
789	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
790	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
791	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
792	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
793	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
794	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
795	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
796	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
797
798	/* Update potential sum for this i atom from the interaction with this j atom. */
799	velec = _mm_andnot_ps(dummy_mask,velec);
800	velecsum = _mm_add_ps(velecsum,velec);
801
802	fscal = felec;
803
804	fscal = _mm_andnot_ps(dummy_mask,fscal);
805
806	/* Calculate temporary vectorial force */
807	tx = _mm_mul_ps(fscal,dx00);
808	ty = _mm_mul_ps(fscal,dy00);
809	tz = _mm_mul_ps(fscal,dz00);
810
811	/* Update vectorial force */
812	fix0 = _mm_add_ps(fix0,tx);
813	fiy0 = _mm_add_ps(fiy0,ty);
814	fiz0 = _mm_add_ps(fiz0,tz);
815
816	fjx0 = _mm_add_ps(fjx0,tx);
817	fjy0 = _mm_add_ps(fjy0,ty);
818	fjz0 = _mm_add_ps(fjz0,tz);
819
820	/**************************
821	* CALCULATE INTERACTIONS *
822	**************************/
823
824	r01 = _mm_mul_ps(rsq01,rinv01);
825	r01 = _mm_andnot_ps(dummy_mask,r01);
826
827	/* EWALD ELECTROSTATICS */
828
829	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
830	ewrt = _mm_mul_ps(r01,ewtabscale);
831	ewitab = _mm_cvttps_epi32(ewrt);
832	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
833	ewitab = _mm_slli_epi32(ewitab,2);
834	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
835	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
836	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
837	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
838	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
839	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
840	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
841	velec = _mm_mul_ps(qq01,_mm_sub_ps(rinv01,velec));
842	felec = _mm_mul_ps(_mm_mul_ps(qq01,rinv01),_mm_sub_ps(rinvsq01,felec));
843
844	/* Update potential sum for this i atom from the interaction with this j atom. */
845	velec = _mm_andnot_ps(dummy_mask,velec);
846	velecsum = _mm_add_ps(velecsum,velec);
847
848	fscal = felec;
849
850	fscal = _mm_andnot_ps(dummy_mask,fscal);
851
852	/* Calculate temporary vectorial force */
853	tx = _mm_mul_ps(fscal,dx01);
854	ty = _mm_mul_ps(fscal,dy01);
855	tz = _mm_mul_ps(fscal,dz01);
856
857	/* Update vectorial force */
858	fix0 = _mm_add_ps(fix0,tx);
859	fiy0 = _mm_add_ps(fiy0,ty);
860	fiz0 = _mm_add_ps(fiz0,tz);
861
862	fjx1 = _mm_add_ps(fjx1,tx);
863	fjy1 = _mm_add_ps(fjy1,ty);
864	fjz1 = _mm_add_ps(fjz1,tz);
865
866	/**************************
867	* CALCULATE INTERACTIONS *
868	**************************/
869
870	r02 = _mm_mul_ps(rsq02,rinv02);
871	r02 = _mm_andnot_ps(dummy_mask,r02);
872
873	/* EWALD ELECTROSTATICS */
874
875	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
876	ewrt = _mm_mul_ps(r02,ewtabscale);
877	ewitab = _mm_cvttps_epi32(ewrt);
878	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
879	ewitab = _mm_slli_epi32(ewitab,2);
880	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
881	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
882	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
883	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
884	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
885	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
886	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
887	velec = _mm_mul_ps(qq02,_mm_sub_ps(rinv02,velec));
888	felec = _mm_mul_ps(_mm_mul_ps(qq02,rinv02),_mm_sub_ps(rinvsq02,felec));
889
890	/* Update potential sum for this i atom from the interaction with this j atom. */
891	velec = _mm_andnot_ps(dummy_mask,velec);
892	velecsum = _mm_add_ps(velecsum,velec);
893
894	fscal = felec;
895
896	fscal = _mm_andnot_ps(dummy_mask,fscal);
897
898	/* Calculate temporary vectorial force */
899	tx = _mm_mul_ps(fscal,dx02);
900	ty = _mm_mul_ps(fscal,dy02);
901	tz = _mm_mul_ps(fscal,dz02);
902
903	/* Update vectorial force */
904	fix0 = _mm_add_ps(fix0,tx);
905	fiy0 = _mm_add_ps(fiy0,ty);
906	fiz0 = _mm_add_ps(fiz0,tz);
907
908	fjx2 = _mm_add_ps(fjx2,tx);
909	fjy2 = _mm_add_ps(fjy2,ty);
910	fjz2 = _mm_add_ps(fjz2,tz);
911
912	/**************************
913	* CALCULATE INTERACTIONS *
914	**************************/
915
916	r10 = _mm_mul_ps(rsq10,rinv10);
917	r10 = _mm_andnot_ps(dummy_mask,r10);
918
919	/* EWALD ELECTROSTATICS */
920
921	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
922	ewrt = _mm_mul_ps(r10,ewtabscale);
923	ewitab = _mm_cvttps_epi32(ewrt);
924	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
925	ewitab = _mm_slli_epi32(ewitab,2);
926	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
927	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
928	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
929	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
930	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
931	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
932	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
933	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
934	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
935
936	/* Update potential sum for this i atom from the interaction with this j atom. */
937	velec = _mm_andnot_ps(dummy_mask,velec);
938	velecsum = _mm_add_ps(velecsum,velec);
939
940	fscal = felec;
941
942	fscal = _mm_andnot_ps(dummy_mask,fscal);
943
944	/* Calculate temporary vectorial force */
945	tx = _mm_mul_ps(fscal,dx10);
946	ty = _mm_mul_ps(fscal,dy10);
947	tz = _mm_mul_ps(fscal,dz10);
948
949	/* Update vectorial force */
950	fix1 = _mm_add_ps(fix1,tx);
951	fiy1 = _mm_add_ps(fiy1,ty);
952	fiz1 = _mm_add_ps(fiz1,tz);
953
954	fjx0 = _mm_add_ps(fjx0,tx);
955	fjy0 = _mm_add_ps(fjy0,ty);
956	fjz0 = _mm_add_ps(fjz0,tz);
957
958	/**************************
959	* CALCULATE INTERACTIONS *
960	**************************/
961
962	r11 = _mm_mul_ps(rsq11,rinv11);
963	r11 = _mm_andnot_ps(dummy_mask,r11);
964
965	/* EWALD ELECTROSTATICS */
966
967	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
968	ewrt = _mm_mul_ps(r11,ewtabscale);
969	ewitab = _mm_cvttps_epi32(ewrt);
970	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
971	ewitab = _mm_slli_epi32(ewitab,2);
972	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
973	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
974	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
975	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
976	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
977	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
978	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
979	velec = _mm_mul_ps(qq11,_mm_sub_ps(rinv11,velec));
980	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
981
982	/* Update potential sum for this i atom from the interaction with this j atom. */
983	velec = _mm_andnot_ps(dummy_mask,velec);
984	velecsum = _mm_add_ps(velecsum,velec);
985
986	fscal = felec;
987
988	fscal = _mm_andnot_ps(dummy_mask,fscal);
989
990	/* Calculate temporary vectorial force */
991	tx = _mm_mul_ps(fscal,dx11);
992	ty = _mm_mul_ps(fscal,dy11);
993	tz = _mm_mul_ps(fscal,dz11);
994
995	/* Update vectorial force */
996	fix1 = _mm_add_ps(fix1,tx);
997	fiy1 = _mm_add_ps(fiy1,ty);
998	fiz1 = _mm_add_ps(fiz1,tz);
999
1000	fjx1 = _mm_add_ps(fjx1,tx);
1001	fjy1 = _mm_add_ps(fjy1,ty);
1002	fjz1 = _mm_add_ps(fjz1,tz);
1003
1004	/**************************
1005	* CALCULATE INTERACTIONS *
1006	**************************/
1007
1008	r12 = _mm_mul_ps(rsq12,rinv12);
1009	r12 = _mm_andnot_ps(dummy_mask,r12);
1010
1011	/* EWALD ELECTROSTATICS */
1012
1013	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1014	ewrt = _mm_mul_ps(r12,ewtabscale);
1015	ewitab = _mm_cvttps_epi32(ewrt);
1016	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1017	ewitab = _mm_slli_epi32(ewitab,2);
1018	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1019	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1020	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1021	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1022	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1023	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1024	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1025	velec = _mm_mul_ps(qq12,_mm_sub_ps(rinv12,velec));
1026	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
1027
1028	/* Update potential sum for this i atom from the interaction with this j atom. */
1029	velec = _mm_andnot_ps(dummy_mask,velec);
1030	velecsum = _mm_add_ps(velecsum,velec);
1031
1032	fscal = felec;
1033
1034	fscal = _mm_andnot_ps(dummy_mask,fscal);
1035
1036	/* Calculate temporary vectorial force */
1037	tx = _mm_mul_ps(fscal,dx12);
1038	ty = _mm_mul_ps(fscal,dy12);
1039	tz = _mm_mul_ps(fscal,dz12);
1040
1041	/* Update vectorial force */
1042	fix1 = _mm_add_ps(fix1,tx);
1043	fiy1 = _mm_add_ps(fiy1,ty);
1044	fiz1 = _mm_add_ps(fiz1,tz);
1045
1046	fjx2 = _mm_add_ps(fjx2,tx);
1047	fjy2 = _mm_add_ps(fjy2,ty);
1048	fjz2 = _mm_add_ps(fjz2,tz);
1049
1050	/**************************
1051	* CALCULATE INTERACTIONS *
1052	**************************/
1053
1054	r20 = _mm_mul_ps(rsq20,rinv20);
1055	r20 = _mm_andnot_ps(dummy_mask,r20);
1056
1057	/* EWALD ELECTROSTATICS */
1058
1059	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1060	ewrt = _mm_mul_ps(r20,ewtabscale);
1061	ewitab = _mm_cvttps_epi32(ewrt);
1062	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1063	ewitab = _mm_slli_epi32(ewitab,2);
1064	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1065	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1066	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1067	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1068	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1069	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1070	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1071	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
1072	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
1073
1074	/* Update potential sum for this i atom from the interaction with this j atom. */
1075	velec = _mm_andnot_ps(dummy_mask,velec);
1076	velecsum = _mm_add_ps(velecsum,velec);
1077
1078	fscal = felec;
1079
1080	fscal = _mm_andnot_ps(dummy_mask,fscal);
1081
1082	/* Calculate temporary vectorial force */
1083	tx = _mm_mul_ps(fscal,dx20);
1084	ty = _mm_mul_ps(fscal,dy20);
1085	tz = _mm_mul_ps(fscal,dz20);
1086
1087	/* Update vectorial force */
1088	fix2 = _mm_add_ps(fix2,tx);
1089	fiy2 = _mm_add_ps(fiy2,ty);
1090	fiz2 = _mm_add_ps(fiz2,tz);
1091
1092	fjx0 = _mm_add_ps(fjx0,tx);
1093	fjy0 = _mm_add_ps(fjy0,ty);
1094	fjz0 = _mm_add_ps(fjz0,tz);
1095
1096	/**************************
1097	* CALCULATE INTERACTIONS *
1098	**************************/
1099
1100	r21 = _mm_mul_ps(rsq21,rinv21);
1101	r21 = _mm_andnot_ps(dummy_mask,r21);
1102
1103	/* EWALD ELECTROSTATICS */
1104
1105	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1106	ewrt = _mm_mul_ps(r21,ewtabscale);
1107	ewitab = _mm_cvttps_epi32(ewrt);
1108	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1109	ewitab = _mm_slli_epi32(ewitab,2);
1110	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1111	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1112	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1113	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1114	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1115	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1116	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1117	velec = _mm_mul_ps(qq21,_mm_sub_ps(rinv21,velec));
1118	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
1119
1120	/* Update potential sum for this i atom from the interaction with this j atom. */
1121	velec = _mm_andnot_ps(dummy_mask,velec);
1122	velecsum = _mm_add_ps(velecsum,velec);
1123
1124	fscal = felec;
1125
1126	fscal = _mm_andnot_ps(dummy_mask,fscal);
1127
1128	/* Calculate temporary vectorial force */
1129	tx = _mm_mul_ps(fscal,dx21);
1130	ty = _mm_mul_ps(fscal,dy21);
1131	tz = _mm_mul_ps(fscal,dz21);
1132
1133	/* Update vectorial force */
1134	fix2 = _mm_add_ps(fix2,tx);
1135	fiy2 = _mm_add_ps(fiy2,ty);
1136	fiz2 = _mm_add_ps(fiz2,tz);
1137
1138	fjx1 = _mm_add_ps(fjx1,tx);
1139	fjy1 = _mm_add_ps(fjy1,ty);
1140	fjz1 = _mm_add_ps(fjz1,tz);
1141
1142	/**************************
1143	* CALCULATE INTERACTIONS *
1144	**************************/
1145
1146	r22 = _mm_mul_ps(rsq22,rinv22);
1147	r22 = _mm_andnot_ps(dummy_mask,r22);
1148
1149	/* EWALD ELECTROSTATICS */
1150
1151	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1152	ewrt = _mm_mul_ps(r22,ewtabscale);
1153	ewitab = _mm_cvttps_epi32(ewrt);
1154	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1155	ewitab = _mm_slli_epi32(ewitab,2);
1156	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1157	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1158	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1159	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1160	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1161	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1162	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1163	velec = _mm_mul_ps(qq22,_mm_sub_ps(rinv22,velec));
1164	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
1165
1166	/* Update potential sum for this i atom from the interaction with this j atom. */
1167	velec = _mm_andnot_ps(dummy_mask,velec);
1168	velecsum = _mm_add_ps(velecsum,velec);
1169
1170	fscal = felec;
1171
1172	fscal = _mm_andnot_ps(dummy_mask,fscal);
1173
1174	/* Calculate temporary vectorial force */
1175	tx = _mm_mul_ps(fscal,dx22);
1176	ty = _mm_mul_ps(fscal,dy22);
1177	tz = _mm_mul_ps(fscal,dz22);
1178
1179	/* Update vectorial force */
1180	fix2 = _mm_add_ps(fix2,tx);
1181	fiy2 = _mm_add_ps(fiy2,ty);
1182	fiz2 = _mm_add_ps(fiz2,tz);
1183
1184	fjx2 = _mm_add_ps(fjx2,tx);
1185	fjy2 = _mm_add_ps(fjy2,ty);
1186	fjz2 = _mm_add_ps(fjz2,tz);
1187
1188	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1189	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1190	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1191	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1192
1193	gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1194	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1195
1196	/* Inner loop uses 378 flops */
1197	}
1198
1199	/* End of innermost loop */
1200
1201	gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1202	f+i_coord_offset,fshift+i_shift_offset);
1203
1204	ggid = gid[iidx];
1205	/* Update potential energies */
1206	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
1207
1208	/* Increment number of inner iterations */
1209	inneriter += j_index_end - j_index_start;
1210
1211	/* Outer loop uses 19 flops */
1212	}
1213
1214	/* Increment number of outer iterations */
1215	outeriter += nri;
1216
1217	/* Update outer/inner flops */
1218
1219	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3W3_VF,outeriter19 + inneriter378)(nrnb)->n[eNR_NBKERNEL_ELEC_W3W3_VF] += outeriter19 + inneriter 378;
1220	}
1221	/*
1222	* Gromacs nonbonded kernel: nb_kernel_ElecEw_VdwNone_GeomW3W3_F_sse4_1_single
1223	* Electrostatics interaction: Ewald
1224	* VdW interaction: None
1225	* Geometry: Water3-Water3
1226	* Calculate force/pot: Force
1227	*/
1228	void
1229	nb_kernel_ElecEw_VdwNone_GeomW3W3_F_sse4_1_single
1230	(t_nblist * gmx_restrict nlist,
1231	rvec * gmx_restrict xx,
1232	rvec * gmx_restrict ff,
1233	t_forcerec * gmx_restrict fr,
1234	t_mdatoms * gmx_restrict mdatoms,
1235	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
1236	t_nrnb * gmx_restrict nrnb)
1237	{
1238	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
1239	* just 0 for non-waters.
1240	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
1241	* jnr indices corresponding to data put in the four positions in the SIMD register.
1242	*/
1243	int i_shift_offset,i_coord_offset,outeriter,inneriter;
1244	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
1245	int jnrA,jnrB,jnrC,jnrD;
1246	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
1247	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
1248	int iinr,jindex,jjnr,shiftidx,*gid;
1249	real rcutoff_scalar;
1250	real shiftvec,fshift,x,f;
1251	real fjptrA,fjptrB,fjptrC,fjptrD;
1252	real scratch[4*DIM3];
1253	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
1254	int vdwioffset0;
1255	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
1256	int vdwioffset1;
1257	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
1258	int vdwioffset2;
1259	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
1260	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
1261	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
1262	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
1263	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
1264	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
1265	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
1266	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
1267	__m128 dx01,dy01,dz01,rsq01,rinv01,rinvsq01,r01,qq01,c6_01,c12_01;
1268	__m128 dx02,dy02,dz02,rsq02,rinv02,rinvsq02,r02,qq02,c6_02,c12_02;
1269	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
1270	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
1271	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
1272	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
1273	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
1274	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
1275	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
1276	real *charge;
1277	__m128i ewitab;
1278	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
1279	real *ewtab;
1280	__m128 dummy_mask,cutoff_mask;
1281	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
1282	__m128 one = _mm_set1_ps(1.0);
1283	__m128 two = _mm_set1_ps(2.0);
1284	x = xx[0];
1285	f = ff[0];
1286
1287	nri = nlist->nri;
1288	iinr = nlist->iinr;
1289	jindex = nlist->jindex;
1290	jjnr = nlist->jjnr;
1291	shiftidx = nlist->shift;
1292	gid = nlist->gid;
1293	shiftvec = fr->shift_vec[0];
1294	fshift = fr->fshift[0];
1295	facel = _mm_set1_ps(fr->epsfac);
1296	charge = mdatoms->chargeA;
1297
1298	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
1299	ewtab = fr->ic->tabq_coul_F;
1300	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
1301	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
1302
1303	/* Setup water-specific parameters */
1304	inr = nlist->iinr[0];
1305	iq0 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
1306	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
1307	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
1308
1309	jq0 = _mm_set1_ps(charge[inr+0]);
1310	jq1 = _mm_set1_ps(charge[inr+1]);
1311	jq2 = _mm_set1_ps(charge[inr+2]);
1312	qq00 = _mm_mul_ps(iq0,jq0);
1313	qq01 = _mm_mul_ps(iq0,jq1);
1314	qq02 = _mm_mul_ps(iq0,jq2);
1315	qq10 = _mm_mul_ps(iq1,jq0);
1316	qq11 = _mm_mul_ps(iq1,jq1);
1317	qq12 = _mm_mul_ps(iq1,jq2);
1318	qq20 = _mm_mul_ps(iq2,jq0);
1319	qq21 = _mm_mul_ps(iq2,jq1);
1320	qq22 = _mm_mul_ps(iq2,jq2);
1321
1322	/* Avoid stupid compiler warnings */
1323	jnrA = jnrB = jnrC = jnrD = 0;
1324	j_coord_offsetA = 0;
1325	j_coord_offsetB = 0;
1326	j_coord_offsetC = 0;
1327	j_coord_offsetD = 0;
1328
1329	outeriter = 0;
1330	inneriter = 0;
1331
1332	for(iidx=0;iidx<4*DIM3;iidx++)
1333	{
1334	scratch[iidx] = 0.0;
1335	}
1336
1337	/* Start outer loop over neighborlists */
1338	for(iidx=0; iidx<nri; iidx++)
1339	{
1340	/* Load shift vector for this list */
1341	i_shift_offset = DIM3*shiftidx[iidx];
1342
1343	/* Load limits for loop over neighbors */
1344	j_index_start = jindex[iidx];
1345	j_index_end = jindex[iidx+1];
1346
1347	/* Get outer coordinate index */
1348	inr = iinr[iidx];
1349	i_coord_offset = DIM3*inr;
1350
1351	/* Load i particle coords and add shift vector */
1352	gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
1353	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
1354
1355	fix0 = _mm_setzero_ps();
1356	fiy0 = _mm_setzero_ps();
1357	fiz0 = _mm_setzero_ps();
1358	fix1 = _mm_setzero_ps();
1359	fiy1 = _mm_setzero_ps();
1360	fiz1 = _mm_setzero_ps();
1361	fix2 = _mm_setzero_ps();
1362	fiy2 = _mm_setzero_ps();
1363	fiz2 = _mm_setzero_ps();
1364
1365	/* Start inner kernel loop */
1366	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1367	{
1368
1369	/* Get j neighbor index, and coordinate index */
1370	jnrA = jjnr[jidx];
1371	jnrB = jjnr[jidx+1];
1372	jnrC = jjnr[jidx+2];
1373	jnrD = jjnr[jidx+3];
1374	j_coord_offsetA = DIM3*jnrA;
1375	j_coord_offsetB = DIM3*jnrB;
1376	j_coord_offsetC = DIM3*jnrC;
1377	j_coord_offsetD = DIM3*jnrD;
1378
1379	/* load j atom coordinates */
1380	gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1381	x+j_coord_offsetC,x+j_coord_offsetD,
1382	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1383
1384	/* Calculate displacement vector */
1385	dx00 = _mm_sub_ps(ix0,jx0);
1386	dy00 = _mm_sub_ps(iy0,jy0);
1387	dz00 = _mm_sub_ps(iz0,jz0);
1388	dx01 = _mm_sub_ps(ix0,jx1);
1389	dy01 = _mm_sub_ps(iy0,jy1);
1390	dz01 = _mm_sub_ps(iz0,jz1);
1391	dx02 = _mm_sub_ps(ix0,jx2);
1392	dy02 = _mm_sub_ps(iy0,jy2);
1393	dz02 = _mm_sub_ps(iz0,jz2);
1394	dx10 = _mm_sub_ps(ix1,jx0);
1395	dy10 = _mm_sub_ps(iy1,jy0);
1396	dz10 = _mm_sub_ps(iz1,jz0);
1397	dx11 = _mm_sub_ps(ix1,jx1);
1398	dy11 = _mm_sub_ps(iy1,jy1);
1399	dz11 = _mm_sub_ps(iz1,jz1);
1400	dx12 = _mm_sub_ps(ix1,jx2);
1401	dy12 = _mm_sub_ps(iy1,jy2);
1402	dz12 = _mm_sub_ps(iz1,jz2);
1403	dx20 = _mm_sub_ps(ix2,jx0);
1404	dy20 = _mm_sub_ps(iy2,jy0);
1405	dz20 = _mm_sub_ps(iz2,jz0);
1406	dx21 = _mm_sub_ps(ix2,jx1);
1407	dy21 = _mm_sub_ps(iy2,jy1);
1408	dz21 = _mm_sub_ps(iz2,jz1);
1409	dx22 = _mm_sub_ps(ix2,jx2);
1410	dy22 = _mm_sub_ps(iy2,jy2);
1411	dz22 = _mm_sub_ps(iz2,jz2);
1412
1413	/* Calculate squared distance and things based on it */
1414	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1415	rsq01 = gmx_mm_calc_rsq_ps(dx01,dy01,dz01);
1416	rsq02 = gmx_mm_calc_rsq_ps(dx02,dy02,dz02);
1417	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
1418	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1419	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1420	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
1421	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1422	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1423
1424	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1425	rinv01 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq01);
1426	rinv02 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq02);
1427	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
1428	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1429	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1430	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
1431	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1432	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1433
1434	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
1435	rinvsq01 = _mm_mul_ps(rinv01,rinv01);
1436	rinvsq02 = _mm_mul_ps(rinv02,rinv02);
1437	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
1438	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1439	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1440	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
1441	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1442	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1443
1444	fjx0 = _mm_setzero_ps();
1445	fjy0 = _mm_setzero_ps();
1446	fjz0 = _mm_setzero_ps();
1447	fjx1 = _mm_setzero_ps();
1448	fjy1 = _mm_setzero_ps();
1449	fjz1 = _mm_setzero_ps();
1450	fjx2 = _mm_setzero_ps();
1451	fjy2 = _mm_setzero_ps();
1452	fjz2 = _mm_setzero_ps();
1453
1454	/**************************
1455	* CALCULATE INTERACTIONS *
1456	**************************/
1457
1458	r00 = _mm_mul_ps(rsq00,rinv00);
1459
1460	/* EWALD ELECTROSTATICS */
1461
1462	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1463	ewrt = _mm_mul_ps(r00,ewtabscale);
1464	ewitab = _mm_cvttps_epi32(ewrt);
1465	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1466	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1467	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1468	&ewtabF,&ewtabFn);
1469	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1470	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
1471
1472	fscal = felec;
1473
1474	/* Calculate temporary vectorial force */
1475	tx = _mm_mul_ps(fscal,dx00);
1476	ty = _mm_mul_ps(fscal,dy00);
1477	tz = _mm_mul_ps(fscal,dz00);
1478
1479	/* Update vectorial force */
1480	fix0 = _mm_add_ps(fix0,tx);
1481	fiy0 = _mm_add_ps(fiy0,ty);
1482	fiz0 = _mm_add_ps(fiz0,tz);
1483
1484	fjx0 = _mm_add_ps(fjx0,tx);
1485	fjy0 = _mm_add_ps(fjy0,ty);
1486	fjz0 = _mm_add_ps(fjz0,tz);
1487
1488	/**************************
1489	* CALCULATE INTERACTIONS *
1490	**************************/
1491
1492	r01 = _mm_mul_ps(rsq01,rinv01);
1493
1494	/* EWALD ELECTROSTATICS */
1495
1496	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1497	ewrt = _mm_mul_ps(r01,ewtabscale);
1498	ewitab = _mm_cvttps_epi32(ewrt);
1499	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1500	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1501	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1502	&ewtabF,&ewtabFn);
1503	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1504	felec = _mm_mul_ps(_mm_mul_ps(qq01,rinv01),_mm_sub_ps(rinvsq01,felec));
1505
1506	fscal = felec;
1507
1508	/* Calculate temporary vectorial force */
1509	tx = _mm_mul_ps(fscal,dx01);
1510	ty = _mm_mul_ps(fscal,dy01);
1511	tz = _mm_mul_ps(fscal,dz01);
1512
1513	/* Update vectorial force */
1514	fix0 = _mm_add_ps(fix0,tx);
1515	fiy0 = _mm_add_ps(fiy0,ty);
1516	fiz0 = _mm_add_ps(fiz0,tz);
1517
1518	fjx1 = _mm_add_ps(fjx1,tx);
1519	fjy1 = _mm_add_ps(fjy1,ty);
1520	fjz1 = _mm_add_ps(fjz1,tz);
1521
1522	/**************************
1523	* CALCULATE INTERACTIONS *
1524	**************************/
1525
1526	r02 = _mm_mul_ps(rsq02,rinv02);
1527
1528	/* EWALD ELECTROSTATICS */
1529
1530	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1531	ewrt = _mm_mul_ps(r02,ewtabscale);
1532	ewitab = _mm_cvttps_epi32(ewrt);
1533	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1534	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1535	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1536	&ewtabF,&ewtabFn);
1537	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1538	felec = _mm_mul_ps(_mm_mul_ps(qq02,rinv02),_mm_sub_ps(rinvsq02,felec));
1539
1540	fscal = felec;
1541
1542	/* Calculate temporary vectorial force */
1543	tx = _mm_mul_ps(fscal,dx02);
1544	ty = _mm_mul_ps(fscal,dy02);
1545	tz = _mm_mul_ps(fscal,dz02);
1546
1547	/* Update vectorial force */
1548	fix0 = _mm_add_ps(fix0,tx);
1549	fiy0 = _mm_add_ps(fiy0,ty);
1550	fiz0 = _mm_add_ps(fiz0,tz);
1551
1552	fjx2 = _mm_add_ps(fjx2,tx);
1553	fjy2 = _mm_add_ps(fjy2,ty);
1554	fjz2 = _mm_add_ps(fjz2,tz);
1555
1556	/**************************
1557	* CALCULATE INTERACTIONS *
1558	**************************/
1559
1560	r10 = _mm_mul_ps(rsq10,rinv10);
1561
1562	/* EWALD ELECTROSTATICS */
1563
1564	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1565	ewrt = _mm_mul_ps(r10,ewtabscale);
1566	ewitab = _mm_cvttps_epi32(ewrt);
1567	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1568	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1569	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1570	&ewtabF,&ewtabFn);
1571	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1572	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
1573
1574	fscal = felec;
1575
1576	/* Calculate temporary vectorial force */
1577	tx = _mm_mul_ps(fscal,dx10);
1578	ty = _mm_mul_ps(fscal,dy10);
1579	tz = _mm_mul_ps(fscal,dz10);
1580
1581	/* Update vectorial force */
1582	fix1 = _mm_add_ps(fix1,tx);
1583	fiy1 = _mm_add_ps(fiy1,ty);
1584	fiz1 = _mm_add_ps(fiz1,tz);
1585
1586	fjx0 = _mm_add_ps(fjx0,tx);
1587	fjy0 = _mm_add_ps(fjy0,ty);
1588	fjz0 = _mm_add_ps(fjz0,tz);
1589
1590	/**************************
1591	* CALCULATE INTERACTIONS *
1592	**************************/
1593
1594	r11 = _mm_mul_ps(rsq11,rinv11);
1595
1596	/* EWALD ELECTROSTATICS */
1597
1598	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1599	ewrt = _mm_mul_ps(r11,ewtabscale);
1600	ewitab = _mm_cvttps_epi32(ewrt);
1601	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1602	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1603	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1604	&ewtabF,&ewtabFn);
1605	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1606	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
1607
1608	fscal = felec;
1609
1610	/* Calculate temporary vectorial force */
1611	tx = _mm_mul_ps(fscal,dx11);
1612	ty = _mm_mul_ps(fscal,dy11);
1613	tz = _mm_mul_ps(fscal,dz11);
1614
1615	/* Update vectorial force */
1616	fix1 = _mm_add_ps(fix1,tx);
1617	fiy1 = _mm_add_ps(fiy1,ty);
1618	fiz1 = _mm_add_ps(fiz1,tz);
1619
1620	fjx1 = _mm_add_ps(fjx1,tx);
1621	fjy1 = _mm_add_ps(fjy1,ty);
1622	fjz1 = _mm_add_ps(fjz1,tz);
1623
1624	/**************************
1625	* CALCULATE INTERACTIONS *
1626	**************************/
1627
1628	r12 = _mm_mul_ps(rsq12,rinv12);
1629
1630	/* EWALD ELECTROSTATICS */
1631
1632	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1633	ewrt = _mm_mul_ps(r12,ewtabscale);
1634	ewitab = _mm_cvttps_epi32(ewrt);
1635	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1636	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1637	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1638	&ewtabF,&ewtabFn);
1639	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1640	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
1641
1642	fscal = felec;
1643
1644	/* Calculate temporary vectorial force */
1645	tx = _mm_mul_ps(fscal,dx12);
1646	ty = _mm_mul_ps(fscal,dy12);
1647	tz = _mm_mul_ps(fscal,dz12);
1648
1649	/* Update vectorial force */
1650	fix1 = _mm_add_ps(fix1,tx);
1651	fiy1 = _mm_add_ps(fiy1,ty);
1652	fiz1 = _mm_add_ps(fiz1,tz);
1653
1654	fjx2 = _mm_add_ps(fjx2,tx);
1655	fjy2 = _mm_add_ps(fjy2,ty);
1656	fjz2 = _mm_add_ps(fjz2,tz);
1657
1658	/**************************
1659	* CALCULATE INTERACTIONS *
1660	**************************/
1661
1662	r20 = _mm_mul_ps(rsq20,rinv20);
1663
1664	/* EWALD ELECTROSTATICS */
1665
1666	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1667	ewrt = _mm_mul_ps(r20,ewtabscale);
1668	ewitab = _mm_cvttps_epi32(ewrt);
1669	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1670	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1671	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1672	&ewtabF,&ewtabFn);
1673	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1674	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
1675
1676	fscal = felec;
1677
1678	/* Calculate temporary vectorial force */
1679	tx = _mm_mul_ps(fscal,dx20);
1680	ty = _mm_mul_ps(fscal,dy20);
1681	tz = _mm_mul_ps(fscal,dz20);
1682
1683	/* Update vectorial force */
1684	fix2 = _mm_add_ps(fix2,tx);
1685	fiy2 = _mm_add_ps(fiy2,ty);
1686	fiz2 = _mm_add_ps(fiz2,tz);
1687
1688	fjx0 = _mm_add_ps(fjx0,tx);
1689	fjy0 = _mm_add_ps(fjy0,ty);
1690	fjz0 = _mm_add_ps(fjz0,tz);
1691
1692	/**************************
1693	* CALCULATE INTERACTIONS *
1694	**************************/
1695
1696	r21 = _mm_mul_ps(rsq21,rinv21);
1697
1698	/* EWALD ELECTROSTATICS */
1699
1700	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1701	ewrt = _mm_mul_ps(r21,ewtabscale);
1702	ewitab = _mm_cvttps_epi32(ewrt);
1703	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1704	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1705	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1706	&ewtabF,&ewtabFn);
1707	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1708	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
1709
1710	fscal = felec;
1711
1712	/* Calculate temporary vectorial force */
1713	tx = _mm_mul_ps(fscal,dx21);
1714	ty = _mm_mul_ps(fscal,dy21);
1715	tz = _mm_mul_ps(fscal,dz21);
1716
1717	/* Update vectorial force */
1718	fix2 = _mm_add_ps(fix2,tx);
1719	fiy2 = _mm_add_ps(fiy2,ty);
1720	fiz2 = _mm_add_ps(fiz2,tz);
1721
1722	fjx1 = _mm_add_ps(fjx1,tx);
1723	fjy1 = _mm_add_ps(fjy1,ty);
1724	fjz1 = _mm_add_ps(fjz1,tz);
1725
1726	/**************************
1727	* CALCULATE INTERACTIONS *
1728	**************************/
1729
1730	r22 = _mm_mul_ps(rsq22,rinv22);
1731
1732	/* EWALD ELECTROSTATICS */
1733
1734	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1735	ewrt = _mm_mul_ps(r22,ewtabscale);
1736	ewitab = _mm_cvttps_epi32(ewrt);
1737	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1738	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1739	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1740	&ewtabF,&ewtabFn);
1741	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1742	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
1743
1744	fscal = felec;
1745
1746	/* Calculate temporary vectorial force */
1747	tx = _mm_mul_ps(fscal,dx22);
1748	ty = _mm_mul_ps(fscal,dy22);
1749	tz = _mm_mul_ps(fscal,dz22);
1750
1751	/* Update vectorial force */
1752	fix2 = _mm_add_ps(fix2,tx);
1753	fiy2 = _mm_add_ps(fiy2,ty);
1754	fiz2 = _mm_add_ps(fiz2,tz);
1755
1756	fjx2 = _mm_add_ps(fjx2,tx);
1757	fjy2 = _mm_add_ps(fjy2,ty);
1758	fjz2 = _mm_add_ps(fjz2,tz);
1759
1760	fjptrA = f+j_coord_offsetA;
1761	fjptrB = f+j_coord_offsetB;
1762	fjptrC = f+j_coord_offsetC;
1763	fjptrD = f+j_coord_offsetD;
1764
1765	gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1766	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
1767
1768	/* Inner loop uses 324 flops */
1769	}
1770
1771	if(jidx<j_index_end)
1772	{
1773
1774	/* Get j neighbor index, and coordinate index */
1775	jnrlistA = jjnr[jidx];
1776	jnrlistB = jjnr[jidx+1];
1777	jnrlistC = jjnr[jidx+2];
1778	jnrlistD = jjnr[jidx+3];
1779	/* Sign of each element will be negative for non-real atoms.
1780	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1781	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1782	*/
1783	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1784	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
1785	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
1786	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
1787	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
1788	j_coord_offsetA = DIM3*jnrA;
1789	j_coord_offsetB = DIM3*jnrB;
1790	j_coord_offsetC = DIM3*jnrC;
1791	j_coord_offsetD = DIM3*jnrD;
1792
1793	/* load j atom coordinates */
1794	gmx_mm_load_3rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1795	x+j_coord_offsetC,x+j_coord_offsetD,
1796	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,&jy2,&jz2);
1797
1798	/* Calculate displacement vector */
1799	dx00 = _mm_sub_ps(ix0,jx0);
1800	dy00 = _mm_sub_ps(iy0,jy0);
1801	dz00 = _mm_sub_ps(iz0,jz0);
1802	dx01 = _mm_sub_ps(ix0,jx1);
1803	dy01 = _mm_sub_ps(iy0,jy1);
1804	dz01 = _mm_sub_ps(iz0,jz1);
1805	dx02 = _mm_sub_ps(ix0,jx2);
1806	dy02 = _mm_sub_ps(iy0,jy2);
1807	dz02 = _mm_sub_ps(iz0,jz2);
1808	dx10 = _mm_sub_ps(ix1,jx0);
1809	dy10 = _mm_sub_ps(iy1,jy0);
1810	dz10 = _mm_sub_ps(iz1,jz0);
1811	dx11 = _mm_sub_ps(ix1,jx1);
1812	dy11 = _mm_sub_ps(iy1,jy1);
1813	dz11 = _mm_sub_ps(iz1,jz1);
1814	dx12 = _mm_sub_ps(ix1,jx2);
1815	dy12 = _mm_sub_ps(iy1,jy2);
1816	dz12 = _mm_sub_ps(iz1,jz2);
1817	dx20 = _mm_sub_ps(ix2,jx0);
1818	dy20 = _mm_sub_ps(iy2,jy0);
1819	dz20 = _mm_sub_ps(iz2,jz0);
1820	dx21 = _mm_sub_ps(ix2,jx1);
1821	dy21 = _mm_sub_ps(iy2,jy1);
1822	dz21 = _mm_sub_ps(iz2,jz1);
1823	dx22 = _mm_sub_ps(ix2,jx2);
1824	dy22 = _mm_sub_ps(iy2,jy2);
1825	dz22 = _mm_sub_ps(iz2,jz2);
1826
1827	/* Calculate squared distance and things based on it */
1828	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1829	rsq01 = gmx_mm_calc_rsq_ps(dx01,dy01,dz01);
1830	rsq02 = gmx_mm_calc_rsq_ps(dx02,dy02,dz02);
1831	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
1832	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1833	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1834	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
1835	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1836	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1837
1838	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1839	rinv01 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq01);
1840	rinv02 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq02);
1841	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
1842	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1843	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1844	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
1845	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1846	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1847
1848	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
1849	rinvsq01 = _mm_mul_ps(rinv01,rinv01);
1850	rinvsq02 = _mm_mul_ps(rinv02,rinv02);
1851	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
1852	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1853	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1854	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
1855	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1856	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1857
1858	fjx0 = _mm_setzero_ps();
1859	fjy0 = _mm_setzero_ps();
1860	fjz0 = _mm_setzero_ps();
1861	fjx1 = _mm_setzero_ps();
1862	fjy1 = _mm_setzero_ps();
1863	fjz1 = _mm_setzero_ps();
1864	fjx2 = _mm_setzero_ps();
1865	fjy2 = _mm_setzero_ps();
1866	fjz2 = _mm_setzero_ps();
1867
1868	/**************************
1869	* CALCULATE INTERACTIONS *
1870	**************************/
1871
1872	r00 = _mm_mul_ps(rsq00,rinv00);
1873	r00 = _mm_andnot_ps(dummy_mask,r00);
1874
1875	/* EWALD ELECTROSTATICS */
1876
1877	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1878	ewrt = _mm_mul_ps(r00,ewtabscale);
1879	ewitab = _mm_cvttps_epi32(ewrt);
1880	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1881	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1882	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1883	&ewtabF,&ewtabFn);
1884	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1885	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
1886
1887	fscal = felec;
1888
1889	fscal = _mm_andnot_ps(dummy_mask,fscal);
1890
1891	/* Calculate temporary vectorial force */
1892	tx = _mm_mul_ps(fscal,dx00);
1893	ty = _mm_mul_ps(fscal,dy00);
1894	tz = _mm_mul_ps(fscal,dz00);
1895
1896	/* Update vectorial force */
1897	fix0 = _mm_add_ps(fix0,tx);
1898	fiy0 = _mm_add_ps(fiy0,ty);
1899	fiz0 = _mm_add_ps(fiz0,tz);
1900
1901	fjx0 = _mm_add_ps(fjx0,tx);
1902	fjy0 = _mm_add_ps(fjy0,ty);
1903	fjz0 = _mm_add_ps(fjz0,tz);
1904
1905	/**************************
1906	* CALCULATE INTERACTIONS *
1907	**************************/
1908
1909	r01 = _mm_mul_ps(rsq01,rinv01);
1910	r01 = _mm_andnot_ps(dummy_mask,r01);
1911
1912	/* EWALD ELECTROSTATICS */
1913
1914	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1915	ewrt = _mm_mul_ps(r01,ewtabscale);
1916	ewitab = _mm_cvttps_epi32(ewrt);
1917	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1918	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1919	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1920	&ewtabF,&ewtabFn);
1921	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1922	felec = _mm_mul_ps(_mm_mul_ps(qq01,rinv01),_mm_sub_ps(rinvsq01,felec));
1923
1924	fscal = felec;
1925
1926	fscal = _mm_andnot_ps(dummy_mask,fscal);
1927
1928	/* Calculate temporary vectorial force */
1929	tx = _mm_mul_ps(fscal,dx01);
1930	ty = _mm_mul_ps(fscal,dy01);
1931	tz = _mm_mul_ps(fscal,dz01);
1932
1933	/* Update vectorial force */
1934	fix0 = _mm_add_ps(fix0,tx);
1935	fiy0 = _mm_add_ps(fiy0,ty);
1936	fiz0 = _mm_add_ps(fiz0,tz);
1937
1938	fjx1 = _mm_add_ps(fjx1,tx);
1939	fjy1 = _mm_add_ps(fjy1,ty);
1940	fjz1 = _mm_add_ps(fjz1,tz);
1941
1942	/**************************
1943	* CALCULATE INTERACTIONS *
1944	**************************/
1945
1946	r02 = _mm_mul_ps(rsq02,rinv02);
1947	r02 = _mm_andnot_ps(dummy_mask,r02);
1948
1949	/* EWALD ELECTROSTATICS */
1950
1951	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1952	ewrt = _mm_mul_ps(r02,ewtabscale);
1953	ewitab = _mm_cvttps_epi32(ewrt);
1954	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1955	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1956	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1957	&ewtabF,&ewtabFn);
1958	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1959	felec = _mm_mul_ps(_mm_mul_ps(qq02,rinv02),_mm_sub_ps(rinvsq02,felec));
1960
1961	fscal = felec;
1962
1963	fscal = _mm_andnot_ps(dummy_mask,fscal);
1964
1965	/* Calculate temporary vectorial force */
1966	tx = _mm_mul_ps(fscal,dx02);
1967	ty = _mm_mul_ps(fscal,dy02);
1968	tz = _mm_mul_ps(fscal,dz02);
1969
1970	/* Update vectorial force */
1971	fix0 = _mm_add_ps(fix0,tx);
1972	fiy0 = _mm_add_ps(fiy0,ty);
1973	fiz0 = _mm_add_ps(fiz0,tz);
1974
1975	fjx2 = _mm_add_ps(fjx2,tx);
1976	fjy2 = _mm_add_ps(fjy2,ty);
1977	fjz2 = _mm_add_ps(fjz2,tz);
1978
1979	/**************************
1980	* CALCULATE INTERACTIONS *
1981	**************************/
1982
1983	r10 = _mm_mul_ps(rsq10,rinv10);
1984	r10 = _mm_andnot_ps(dummy_mask,r10);
1985
1986	/* EWALD ELECTROSTATICS */
1987
1988	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1989	ewrt = _mm_mul_ps(r10,ewtabscale);
1990	ewitab = _mm_cvttps_epi32(ewrt);
1991	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1992	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
1993	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
1994	&ewtabF,&ewtabFn);
1995	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
1996	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
1997
1998	fscal = felec;
1999
2000	fscal = _mm_andnot_ps(dummy_mask,fscal);
2001
2002	/* Calculate temporary vectorial force */
2003	tx = _mm_mul_ps(fscal,dx10);
2004	ty = _mm_mul_ps(fscal,dy10);
2005	tz = _mm_mul_ps(fscal,dz10);
2006
2007	/* Update vectorial force */
2008	fix1 = _mm_add_ps(fix1,tx);
2009	fiy1 = _mm_add_ps(fiy1,ty);
2010	fiz1 = _mm_add_ps(fiz1,tz);
2011
2012	fjx0 = _mm_add_ps(fjx0,tx);
2013	fjy0 = _mm_add_ps(fjy0,ty);
2014	fjz0 = _mm_add_ps(fjz0,tz);
2015
2016	/**************************
2017	* CALCULATE INTERACTIONS *
2018	**************************/
2019
2020	r11 = _mm_mul_ps(rsq11,rinv11);
2021	r11 = _mm_andnot_ps(dummy_mask,r11);
2022
2023	/* EWALD ELECTROSTATICS */
2024
2025	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2026	ewrt = _mm_mul_ps(r11,ewtabscale);
2027	ewitab = _mm_cvttps_epi32(ewrt);
2028	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2029	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2030	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2031	&ewtabF,&ewtabFn);
2032	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2033	felec = _mm_mul_ps(_mm_mul_ps(qq11,rinv11),_mm_sub_ps(rinvsq11,felec));
2034
2035	fscal = felec;
2036
2037	fscal = _mm_andnot_ps(dummy_mask,fscal);
2038
2039	/* Calculate temporary vectorial force */
2040	tx = _mm_mul_ps(fscal,dx11);
2041	ty = _mm_mul_ps(fscal,dy11);
2042	tz = _mm_mul_ps(fscal,dz11);
2043
2044	/* Update vectorial force */
2045	fix1 = _mm_add_ps(fix1,tx);
2046	fiy1 = _mm_add_ps(fiy1,ty);
2047	fiz1 = _mm_add_ps(fiz1,tz);
2048
2049	fjx1 = _mm_add_ps(fjx1,tx);
2050	fjy1 = _mm_add_ps(fjy1,ty);
2051	fjz1 = _mm_add_ps(fjz1,tz);
2052
2053	/**************************
2054	* CALCULATE INTERACTIONS *
2055	**************************/
2056
2057	r12 = _mm_mul_ps(rsq12,rinv12);
2058	r12 = _mm_andnot_ps(dummy_mask,r12);
2059
2060	/* EWALD ELECTROSTATICS */
2061
2062	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2063	ewrt = _mm_mul_ps(r12,ewtabscale);
2064	ewitab = _mm_cvttps_epi32(ewrt);
2065	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2066	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2067	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2068	&ewtabF,&ewtabFn);
2069	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2070	felec = _mm_mul_ps(_mm_mul_ps(qq12,rinv12),_mm_sub_ps(rinvsq12,felec));
2071
2072	fscal = felec;
2073
2074	fscal = _mm_andnot_ps(dummy_mask,fscal);
2075
2076	/* Calculate temporary vectorial force */
2077	tx = _mm_mul_ps(fscal,dx12);
2078	ty = _mm_mul_ps(fscal,dy12);
2079	tz = _mm_mul_ps(fscal,dz12);
2080
2081	/* Update vectorial force */
2082	fix1 = _mm_add_ps(fix1,tx);
2083	fiy1 = _mm_add_ps(fiy1,ty);
2084	fiz1 = _mm_add_ps(fiz1,tz);
2085
2086	fjx2 = _mm_add_ps(fjx2,tx);
2087	fjy2 = _mm_add_ps(fjy2,ty);
2088	fjz2 = _mm_add_ps(fjz2,tz);
2089
2090	/**************************
2091	* CALCULATE INTERACTIONS *
2092	**************************/
2093
2094	r20 = _mm_mul_ps(rsq20,rinv20);
2095	r20 = _mm_andnot_ps(dummy_mask,r20);
2096
2097	/* EWALD ELECTROSTATICS */
2098
2099	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2100	ewrt = _mm_mul_ps(r20,ewtabscale);
2101	ewitab = _mm_cvttps_epi32(ewrt);
2102	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2103	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2104	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2105	&ewtabF,&ewtabFn);
2106	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2107	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
2108
2109	fscal = felec;
2110
2111	fscal = _mm_andnot_ps(dummy_mask,fscal);
2112
2113	/* Calculate temporary vectorial force */
2114	tx = _mm_mul_ps(fscal,dx20);
2115	ty = _mm_mul_ps(fscal,dy20);
2116	tz = _mm_mul_ps(fscal,dz20);
2117
2118	/* Update vectorial force */
2119	fix2 = _mm_add_ps(fix2,tx);
2120	fiy2 = _mm_add_ps(fiy2,ty);
2121	fiz2 = _mm_add_ps(fiz2,tz);
2122
2123	fjx0 = _mm_add_ps(fjx0,tx);
2124	fjy0 = _mm_add_ps(fjy0,ty);
2125	fjz0 = _mm_add_ps(fjz0,tz);
2126
2127	/**************************
2128	* CALCULATE INTERACTIONS *
2129	**************************/
2130
2131	r21 = _mm_mul_ps(rsq21,rinv21);
2132	r21 = _mm_andnot_ps(dummy_mask,r21);
2133
2134	/* EWALD ELECTROSTATICS */
2135
2136	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2137	ewrt = _mm_mul_ps(r21,ewtabscale);
2138	ewitab = _mm_cvttps_epi32(ewrt);
2139	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2140	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2141	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2142	&ewtabF,&ewtabFn);
2143	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2144	felec = _mm_mul_ps(_mm_mul_ps(qq21,rinv21),_mm_sub_ps(rinvsq21,felec));
2145
2146	fscal = felec;
2147
2148	fscal = _mm_andnot_ps(dummy_mask,fscal);
2149
2150	/* Calculate temporary vectorial force */
2151	tx = _mm_mul_ps(fscal,dx21);
2152	ty = _mm_mul_ps(fscal,dy21);
2153	tz = _mm_mul_ps(fscal,dz21);
2154
2155	/* Update vectorial force */
2156	fix2 = _mm_add_ps(fix2,tx);
2157	fiy2 = _mm_add_ps(fiy2,ty);
2158	fiz2 = _mm_add_ps(fiz2,tz);
2159
2160	fjx1 = _mm_add_ps(fjx1,tx);
2161	fjy1 = _mm_add_ps(fjy1,ty);
2162	fjz1 = _mm_add_ps(fjz1,tz);
2163
2164	/**************************
2165	* CALCULATE INTERACTIONS *
2166	**************************/
2167
2168	r22 = _mm_mul_ps(rsq22,rinv22);
2169	r22 = _mm_andnot_ps(dummy_mask,r22);
2170
2171	/* EWALD ELECTROSTATICS */
2172
2173	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
2174	ewrt = _mm_mul_ps(r22,ewtabscale);
2175	ewitab = _mm_cvttps_epi32(ewrt);
2176	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
2177	gmx_mm_load_4pair_swizzle_ps(ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})),
2178	ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})),ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})),
2179	&ewtabF,&ewtabFn);
2180	felec = _mm_add_ps(_mm_mul_ps( _mm_sub_ps(one,eweps),ewtabF),_mm_mul_ps(eweps,ewtabFn));
2181	felec = _mm_mul_ps(_mm_mul_ps(qq22,rinv22),_mm_sub_ps(rinvsq22,felec));
2182
2183	fscal = felec;
2184
2185	fscal = _mm_andnot_ps(dummy_mask,fscal);
2186
2187	/* Calculate temporary vectorial force */
2188	tx = _mm_mul_ps(fscal,dx22);
2189	ty = _mm_mul_ps(fscal,dy22);
2190	tz = _mm_mul_ps(fscal,dz22);
2191
2192	/* Update vectorial force */
2193	fix2 = _mm_add_ps(fix2,tx);
2194	fiy2 = _mm_add_ps(fiy2,ty);
2195	fiz2 = _mm_add_ps(fiz2,tz);
2196
2197	fjx2 = _mm_add_ps(fjx2,tx);
2198	fjy2 = _mm_add_ps(fjy2,ty);
2199	fjz2 = _mm_add_ps(fjz2,tz);
2200
2201	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
2202	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
2203	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
2204	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
2205
2206	gmx_mm_decrement_3rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
2207	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,fjx2,fjy2,fjz2);
2208
2209	/* Inner loop uses 333 flops */
2210	}
2211
2212	/* End of innermost loop */
2213
2214	gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
2215	f+i_coord_offset,fshift+i_shift_offset);
2216
2217	/* Increment number of inner iterations */
2218	inneriter += j_index_end - j_index_start;
2219
2220	/* Outer loop uses 18 flops */
2221	}
2222
2223	/* Increment number of outer iterations */
2224	outeriter += nri;
2225
2226	/* Update outer/inner flops */
2227
2228	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3W3_F,outeriter18 + inneriter333)(nrnb)->n[eNR_NBKERNEL_ELEC_W3W3_F] += outeriter18 + inneriter 333;
2229	}