/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEwSw_VdwNone_GeomW3P1_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEwSw_VdwNone_GeomW3P1_sse4_1_single.c
Location:	line 153, column 5
Description:	Value stored to 'j_coord_offsetC' is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecEwSw_VdwNone_GeomW3P1_VF_sse4_1_single
54	* Electrostatics interaction: Ewald
55	* VdW interaction: None
56	* Geometry: Water3-Particle
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecEwSw_VdwNone_GeomW3P1_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
92	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
93	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
94	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
95	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
96	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
97	real *charge;
98	__m128i ewitab;
99	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
100	real *ewtab;
101	__m128 rswitch,swV3,swV4,swV5,swF2,swF3,swF4,d,d2,sw,dsw;
102	real rswitch_scalar,d_scalar;
103	__m128 dummy_mask,cutoff_mask;
104	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
105	__m128 one = _mm_set1_ps(1.0);
106	__m128 two = _mm_set1_ps(2.0);
107	x = xx[0];
108	f = ff[0];
109
110	nri = nlist->nri;
111	iinr = nlist->iinr;
112	jindex = nlist->jindex;
113	jjnr = nlist->jjnr;
114	shiftidx = nlist->shift;
115	gid = nlist->gid;
116	shiftvec = fr->shift_vec[0];
117	fshift = fr->fshift[0];
118	facel = _mm_set1_ps(fr->epsfac);
119	charge = mdatoms->chargeA;
120
121	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
122	ewtab = fr->ic->tabq_coul_FDV0;
123	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
124	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
125
126	/* Setup water-specific parameters */
127	inr = nlist->iinr[0];
128	iq0 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
129	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
130	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
131
132	/* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
133	rcutoff_scalar = fr->rcoulomb;
134	rcutoff = _mm_set1_ps(rcutoff_scalar);
135	rcutoff2 = _mm_mul_ps(rcutoff,rcutoff);
136
137	rswitch_scalar = fr->rcoulomb_switch;
138	rswitch = _mm_set1_ps(rswitch_scalar);
139	/* Setup switch parameters */
140	d_scalar = rcutoff_scalar-rswitch_scalar;
141	d = _mm_set1_ps(d_scalar);
142	swV3 = _mm_set1_ps(-10.0/(d_scalard_scalard_scalar));
143	swV4 = _mm_set1_ps( 15.0/(d_scalard_scalard_scalar*d_scalar));
144	swV5 = _mm_set1_ps( -6.0/(d_scalard_scalard_scalard_scalard_scalar));
145	swF2 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalar));
146	swF3 = _mm_set1_ps( 60.0/(d_scalard_scalard_scalar*d_scalar));
147	swF4 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalard_scalard_scalar));
148
149	/* Avoid stupid compiler warnings */
150	jnrA = jnrB = jnrC = jnrD = 0;
151	j_coord_offsetA = 0;
152	j_coord_offsetB = 0;
153	j_coord_offsetC = 0;
	Value stored to 'j_coord_offsetC' is never read
154	j_coord_offsetD = 0;
155
156	outeriter = 0;
157	inneriter = 0;
158
159	for(iidx=0;iidx<4*DIM3;iidx++)
160	{
161	scratch[iidx] = 0.0;
162	}
163
164	/* Start outer loop over neighborlists */
165	for(iidx=0; iidx<nri; iidx++)
166	{
167	/* Load shift vector for this list */
168	i_shift_offset = DIM3*shiftidx[iidx];
169
170	/* Load limits for loop over neighbors */
171	j_index_start = jindex[iidx];
172	j_index_end = jindex[iidx+1];
173
174	/* Get outer coordinate index */
175	inr = iinr[iidx];
176	i_coord_offset = DIM3*inr;
177
178	/* Load i particle coords and add shift vector */
179	gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
180	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
181
182	fix0 = _mm_setzero_ps();
183	fiy0 = _mm_setzero_ps();
184	fiz0 = _mm_setzero_ps();
185	fix1 = _mm_setzero_ps();
186	fiy1 = _mm_setzero_ps();
187	fiz1 = _mm_setzero_ps();
188	fix2 = _mm_setzero_ps();
189	fiy2 = _mm_setzero_ps();
190	fiz2 = _mm_setzero_ps();
191
192	/* Reset potential sums */
193	velecsum = _mm_setzero_ps();
194
195	/* Start inner kernel loop */
196	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
197	{
198
199	/* Get j neighbor index, and coordinate index */
200	jnrA = jjnr[jidx];
201	jnrB = jjnr[jidx+1];
202	jnrC = jjnr[jidx+2];
203	jnrD = jjnr[jidx+3];
204	j_coord_offsetA = DIM3*jnrA;
205	j_coord_offsetB = DIM3*jnrB;
206	j_coord_offsetC = DIM3*jnrC;
207	j_coord_offsetD = DIM3*jnrD;
208
209	/* load j atom coordinates */
210	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
211	x+j_coord_offsetC,x+j_coord_offsetD,
212	&jx0,&jy0,&jz0);
213
214	/* Calculate displacement vector */
215	dx00 = _mm_sub_ps(ix0,jx0);
216	dy00 = _mm_sub_ps(iy0,jy0);
217	dz00 = _mm_sub_ps(iz0,jz0);
218	dx10 = _mm_sub_ps(ix1,jx0);
219	dy10 = _mm_sub_ps(iy1,jy0);
220	dz10 = _mm_sub_ps(iz1,jz0);
221	dx20 = _mm_sub_ps(ix2,jx0);
222	dy20 = _mm_sub_ps(iy2,jy0);
223	dz20 = _mm_sub_ps(iz2,jz0);
224
225	/* Calculate squared distance and things based on it */
226	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
227	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
228	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
229
230	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
231	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
232	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
233
234	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
235	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
236	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
237
238	/* Load parameters for j particles */
239	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
240	charge+jnrC+0,charge+jnrD+0);
241
242	fjx0 = _mm_setzero_ps();
243	fjy0 = _mm_setzero_ps();
244	fjz0 = _mm_setzero_ps();
245
246	/**************************
247	* CALCULATE INTERACTIONS *
248	**************************/
249
250	if (gmx_mm_any_lt(rsq00,rcutoff2))
251	{
252
253	r00 = _mm_mul_ps(rsq00,rinv00);
254
255	/* Compute parameters for interactions between i and j atoms */
256	qq00 = _mm_mul_ps(iq0,jq0);
257
258	/* EWALD ELECTROSTATICS */
259
260	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
261	ewrt = _mm_mul_ps(r00,ewtabscale);
262	ewitab = _mm_cvttps_epi32(ewrt);
263	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
264	ewitab = _mm_slli_epi32(ewitab,2);
265	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
266	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
267	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
268	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
269	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
270	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
271	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
272	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
273	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
274
275	d = _mm_sub_ps(r00,rswitch);
276	d = _mm_max_ps(d,_mm_setzero_ps());
277	d2 = _mm_mul_ps(d,d);
278	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
279
280	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
281
282	/* Evaluate switch function */
283	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
284	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
285	velec = _mm_mul_ps(velec,sw);
286	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
287
288	/* Update potential sum for this i atom from the interaction with this j atom. */
289	velec = _mm_and_ps(velec,cutoff_mask);
290	velecsum = _mm_add_ps(velecsum,velec);
291
292	fscal = felec;
293
294	fscal = _mm_and_ps(fscal,cutoff_mask);
295
296	/* Calculate temporary vectorial force */
297	tx = _mm_mul_ps(fscal,dx00);
298	ty = _mm_mul_ps(fscal,dy00);
299	tz = _mm_mul_ps(fscal,dz00);
300
301	/* Update vectorial force */
302	fix0 = _mm_add_ps(fix0,tx);
303	fiy0 = _mm_add_ps(fiy0,ty);
304	fiz0 = _mm_add_ps(fiz0,tz);
305
306	fjx0 = _mm_add_ps(fjx0,tx);
307	fjy0 = _mm_add_ps(fjy0,ty);
308	fjz0 = _mm_add_ps(fjz0,tz);
309
310	}
311
312	/**************************
313	* CALCULATE INTERACTIONS *
314	**************************/
315
316	if (gmx_mm_any_lt(rsq10,rcutoff2))
317	{
318
319	r10 = _mm_mul_ps(rsq10,rinv10);
320
321	/* Compute parameters for interactions between i and j atoms */
322	qq10 = _mm_mul_ps(iq1,jq0);
323
324	/* EWALD ELECTROSTATICS */
325
326	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
327	ewrt = _mm_mul_ps(r10,ewtabscale);
328	ewitab = _mm_cvttps_epi32(ewrt);
329	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
330	ewitab = _mm_slli_epi32(ewitab,2);
331	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
332	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
333	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
334	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
335	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
336	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
337	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
338	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
339	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
340
341	d = _mm_sub_ps(r10,rswitch);
342	d = _mm_max_ps(d,_mm_setzero_ps());
343	d2 = _mm_mul_ps(d,d);
344	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
345
346	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
347
348	/* Evaluate switch function */
349	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
350	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv10,_mm_mul_ps(velec,dsw)) );
351	velec = _mm_mul_ps(velec,sw);
352	cutoff_mask = _mm_cmplt_ps(rsq10,rcutoff2);
353
354	/* Update potential sum for this i atom from the interaction with this j atom. */
355	velec = _mm_and_ps(velec,cutoff_mask);
356	velecsum = _mm_add_ps(velecsum,velec);
357
358	fscal = felec;
359
360	fscal = _mm_and_ps(fscal,cutoff_mask);
361
362	/* Calculate temporary vectorial force */
363	tx = _mm_mul_ps(fscal,dx10);
364	ty = _mm_mul_ps(fscal,dy10);
365	tz = _mm_mul_ps(fscal,dz10);
366
367	/* Update vectorial force */
368	fix1 = _mm_add_ps(fix1,tx);
369	fiy1 = _mm_add_ps(fiy1,ty);
370	fiz1 = _mm_add_ps(fiz1,tz);
371
372	fjx0 = _mm_add_ps(fjx0,tx);
373	fjy0 = _mm_add_ps(fjy0,ty);
374	fjz0 = _mm_add_ps(fjz0,tz);
375
376	}
377
378	/**************************
379	* CALCULATE INTERACTIONS *
380	**************************/
381
382	if (gmx_mm_any_lt(rsq20,rcutoff2))
383	{
384
385	r20 = _mm_mul_ps(rsq20,rinv20);
386
387	/* Compute parameters for interactions between i and j atoms */
388	qq20 = _mm_mul_ps(iq2,jq0);
389
390	/* EWALD ELECTROSTATICS */
391
392	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
393	ewrt = _mm_mul_ps(r20,ewtabscale);
394	ewitab = _mm_cvttps_epi32(ewrt);
395	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
396	ewitab = _mm_slli_epi32(ewitab,2);
397	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
398	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
399	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
400	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
401	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
402	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
403	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
404	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
405	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
406
407	d = _mm_sub_ps(r20,rswitch);
408	d = _mm_max_ps(d,_mm_setzero_ps());
409	d2 = _mm_mul_ps(d,d);
410	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
411
412	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
413
414	/* Evaluate switch function */
415	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
416	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv20,_mm_mul_ps(velec,dsw)) );
417	velec = _mm_mul_ps(velec,sw);
418	cutoff_mask = _mm_cmplt_ps(rsq20,rcutoff2);
419
420	/* Update potential sum for this i atom from the interaction with this j atom. */
421	velec = _mm_and_ps(velec,cutoff_mask);
422	velecsum = _mm_add_ps(velecsum,velec);
423
424	fscal = felec;
425
426	fscal = _mm_and_ps(fscal,cutoff_mask);
427
428	/* Calculate temporary vectorial force */
429	tx = _mm_mul_ps(fscal,dx20);
430	ty = _mm_mul_ps(fscal,dy20);
431	tz = _mm_mul_ps(fscal,dz20);
432
433	/* Update vectorial force */
434	fix2 = _mm_add_ps(fix2,tx);
435	fiy2 = _mm_add_ps(fiy2,ty);
436	fiz2 = _mm_add_ps(fiz2,tz);
437
438	fjx0 = _mm_add_ps(fjx0,tx);
439	fjy0 = _mm_add_ps(fjy0,ty);
440	fjz0 = _mm_add_ps(fjz0,tz);
441
442	}
443
444	fjptrA = f+j_coord_offsetA;
445	fjptrB = f+j_coord_offsetB;
446	fjptrC = f+j_coord_offsetC;
447	fjptrD = f+j_coord_offsetD;
448
449	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
450
451	/* Inner loop uses 195 flops */
452	}
453
454	if(jidx<j_index_end)
455	{
456
457	/* Get j neighbor index, and coordinate index */
458	jnrlistA = jjnr[jidx];
459	jnrlistB = jjnr[jidx+1];
460	jnrlistC = jjnr[jidx+2];
461	jnrlistD = jjnr[jidx+3];
462	/* Sign of each element will be negative for non-real atoms.
463	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
464	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
465	*/
466	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
467	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
468	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
469	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
470	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
471	j_coord_offsetA = DIM3*jnrA;
472	j_coord_offsetB = DIM3*jnrB;
473	j_coord_offsetC = DIM3*jnrC;
474	j_coord_offsetD = DIM3*jnrD;
475
476	/* load j atom coordinates */
477	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
478	x+j_coord_offsetC,x+j_coord_offsetD,
479	&jx0,&jy0,&jz0);
480
481	/* Calculate displacement vector */
482	dx00 = _mm_sub_ps(ix0,jx0);
483	dy00 = _mm_sub_ps(iy0,jy0);
484	dz00 = _mm_sub_ps(iz0,jz0);
485	dx10 = _mm_sub_ps(ix1,jx0);
486	dy10 = _mm_sub_ps(iy1,jy0);
487	dz10 = _mm_sub_ps(iz1,jz0);
488	dx20 = _mm_sub_ps(ix2,jx0);
489	dy20 = _mm_sub_ps(iy2,jy0);
490	dz20 = _mm_sub_ps(iz2,jz0);
491
492	/* Calculate squared distance and things based on it */
493	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
494	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
495	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
496
497	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
498	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
499	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
500
501	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
502	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
503	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
504
505	/* Load parameters for j particles */
506	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
507	charge+jnrC+0,charge+jnrD+0);
508
509	fjx0 = _mm_setzero_ps();
510	fjy0 = _mm_setzero_ps();
511	fjz0 = _mm_setzero_ps();
512
513	/**************************
514	* CALCULATE INTERACTIONS *
515	**************************/
516
517	if (gmx_mm_any_lt(rsq00,rcutoff2))
518	{
519
520	r00 = _mm_mul_ps(rsq00,rinv00);
521	r00 = _mm_andnot_ps(dummy_mask,r00);
522
523	/* Compute parameters for interactions between i and j atoms */
524	qq00 = _mm_mul_ps(iq0,jq0);
525
526	/* EWALD ELECTROSTATICS */
527
528	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
529	ewrt = _mm_mul_ps(r00,ewtabscale);
530	ewitab = _mm_cvttps_epi32(ewrt);
531	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
532	ewitab = _mm_slli_epi32(ewitab,2);
533	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
534	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
535	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
536	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
537	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
538	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
539	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
540	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
541	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
542
543	d = _mm_sub_ps(r00,rswitch);
544	d = _mm_max_ps(d,_mm_setzero_ps());
545	d2 = _mm_mul_ps(d,d);
546	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
547
548	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
549
550	/* Evaluate switch function */
551	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
552	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
553	velec = _mm_mul_ps(velec,sw);
554	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
555
556	/* Update potential sum for this i atom from the interaction with this j atom. */
557	velec = _mm_and_ps(velec,cutoff_mask);
558	velec = _mm_andnot_ps(dummy_mask,velec);
559	velecsum = _mm_add_ps(velecsum,velec);
560
561	fscal = felec;
562
563	fscal = _mm_and_ps(fscal,cutoff_mask);
564
565	fscal = _mm_andnot_ps(dummy_mask,fscal);
566
567	/* Calculate temporary vectorial force */
568	tx = _mm_mul_ps(fscal,dx00);
569	ty = _mm_mul_ps(fscal,dy00);
570	tz = _mm_mul_ps(fscal,dz00);
571
572	/* Update vectorial force */
573	fix0 = _mm_add_ps(fix0,tx);
574	fiy0 = _mm_add_ps(fiy0,ty);
575	fiz0 = _mm_add_ps(fiz0,tz);
576
577	fjx0 = _mm_add_ps(fjx0,tx);
578	fjy0 = _mm_add_ps(fjy0,ty);
579	fjz0 = _mm_add_ps(fjz0,tz);
580
581	}
582
583	/**************************
584	* CALCULATE INTERACTIONS *
585	**************************/
586
587	if (gmx_mm_any_lt(rsq10,rcutoff2))
588	{
589
590	r10 = _mm_mul_ps(rsq10,rinv10);
591	r10 = _mm_andnot_ps(dummy_mask,r10);
592
593	/* Compute parameters for interactions between i and j atoms */
594	qq10 = _mm_mul_ps(iq1,jq0);
595
596	/* EWALD ELECTROSTATICS */
597
598	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
599	ewrt = _mm_mul_ps(r10,ewtabscale);
600	ewitab = _mm_cvttps_epi32(ewrt);
601	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
602	ewitab = _mm_slli_epi32(ewitab,2);
603	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
604	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
605	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
606	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
607	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
608	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
609	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
610	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
611	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
612
613	d = _mm_sub_ps(r10,rswitch);
614	d = _mm_max_ps(d,_mm_setzero_ps());
615	d2 = _mm_mul_ps(d,d);
616	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
617
618	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
619
620	/* Evaluate switch function */
621	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
622	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv10,_mm_mul_ps(velec,dsw)) );
623	velec = _mm_mul_ps(velec,sw);
624	cutoff_mask = _mm_cmplt_ps(rsq10,rcutoff2);
625
626	/* Update potential sum for this i atom from the interaction with this j atom. */
627	velec = _mm_and_ps(velec,cutoff_mask);
628	velec = _mm_andnot_ps(dummy_mask,velec);
629	velecsum = _mm_add_ps(velecsum,velec);
630
631	fscal = felec;
632
633	fscal = _mm_and_ps(fscal,cutoff_mask);
634
635	fscal = _mm_andnot_ps(dummy_mask,fscal);
636
637	/* Calculate temporary vectorial force */
638	tx = _mm_mul_ps(fscal,dx10);
639	ty = _mm_mul_ps(fscal,dy10);
640	tz = _mm_mul_ps(fscal,dz10);
641
642	/* Update vectorial force */
643	fix1 = _mm_add_ps(fix1,tx);
644	fiy1 = _mm_add_ps(fiy1,ty);
645	fiz1 = _mm_add_ps(fiz1,tz);
646
647	fjx0 = _mm_add_ps(fjx0,tx);
648	fjy0 = _mm_add_ps(fjy0,ty);
649	fjz0 = _mm_add_ps(fjz0,tz);
650
651	}
652
653	/**************************
654	* CALCULATE INTERACTIONS *
655	**************************/
656
657	if (gmx_mm_any_lt(rsq20,rcutoff2))
658	{
659
660	r20 = _mm_mul_ps(rsq20,rinv20);
661	r20 = _mm_andnot_ps(dummy_mask,r20);
662
663	/* Compute parameters for interactions between i and j atoms */
664	qq20 = _mm_mul_ps(iq2,jq0);
665
666	/* EWALD ELECTROSTATICS */
667
668	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
669	ewrt = _mm_mul_ps(r20,ewtabscale);
670	ewitab = _mm_cvttps_epi32(ewrt);
671	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
672	ewitab = _mm_slli_epi32(ewitab,2);
673	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
674	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
675	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
676	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
677	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
678	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
679	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
680	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
681	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
682
683	d = _mm_sub_ps(r20,rswitch);
684	d = _mm_max_ps(d,_mm_setzero_ps());
685	d2 = _mm_mul_ps(d,d);
686	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
687
688	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
689
690	/* Evaluate switch function */
691	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
692	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv20,_mm_mul_ps(velec,dsw)) );
693	velec = _mm_mul_ps(velec,sw);
694	cutoff_mask = _mm_cmplt_ps(rsq20,rcutoff2);
695
696	/* Update potential sum for this i atom from the interaction with this j atom. */
697	velec = _mm_and_ps(velec,cutoff_mask);
698	velec = _mm_andnot_ps(dummy_mask,velec);
699	velecsum = _mm_add_ps(velecsum,velec);
700
701	fscal = felec;
702
703	fscal = _mm_and_ps(fscal,cutoff_mask);
704
705	fscal = _mm_andnot_ps(dummy_mask,fscal);
706
707	/* Calculate temporary vectorial force */
708	tx = _mm_mul_ps(fscal,dx20);
709	ty = _mm_mul_ps(fscal,dy20);
710	tz = _mm_mul_ps(fscal,dz20);
711
712	/* Update vectorial force */
713	fix2 = _mm_add_ps(fix2,tx);
714	fiy2 = _mm_add_ps(fiy2,ty);
715	fiz2 = _mm_add_ps(fiz2,tz);
716
717	fjx0 = _mm_add_ps(fjx0,tx);
718	fjy0 = _mm_add_ps(fjy0,ty);
719	fjz0 = _mm_add_ps(fjz0,tz);
720
721	}
722
723	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
724	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
725	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
726	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
727
728	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
729
730	/* Inner loop uses 198 flops */
731	}
732
733	/* End of innermost loop */
734
735	gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
736	f+i_coord_offset,fshift+i_shift_offset);
737
738	ggid = gid[iidx];
739	/* Update potential energies */
740	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
741
742	/* Increment number of inner iterations */
743	inneriter += j_index_end - j_index_start;
744
745	/* Outer loop uses 19 flops */
746	}
747
748	/* Increment number of outer iterations */
749	outeriter += nri;
750
751	/* Update outer/inner flops */
752
753	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3_VF,outeriter19 + inneriter198)(nrnb)->n[eNR_NBKERNEL_ELEC_W3_VF] += outeriter19 + inneriter 198;
754	}
755	/*
756	* Gromacs nonbonded kernel: nb_kernel_ElecEwSw_VdwNone_GeomW3P1_F_sse4_1_single
757	* Electrostatics interaction: Ewald
758	* VdW interaction: None
759	* Geometry: Water3-Particle
760	* Calculate force/pot: Force
761	*/
762	void
763	nb_kernel_ElecEwSw_VdwNone_GeomW3P1_F_sse4_1_single
764	(t_nblist * gmx_restrict nlist,
765	rvec * gmx_restrict xx,
766	rvec * gmx_restrict ff,
767	t_forcerec * gmx_restrict fr,
768	t_mdatoms * gmx_restrict mdatoms,
769	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
770	t_nrnb * gmx_restrict nrnb)
771	{
772	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
773	* just 0 for non-waters.
774	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
775	* jnr indices corresponding to data put in the four positions in the SIMD register.
776	*/
777	int i_shift_offset,i_coord_offset,outeriter,inneriter;
778	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
779	int jnrA,jnrB,jnrC,jnrD;
780	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
781	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
782	int iinr,jindex,jjnr,shiftidx,*gid;
783	real rcutoff_scalar;
784	real shiftvec,fshift,x,f;
785	real fjptrA,fjptrB,fjptrC,fjptrD;
786	real scratch[4*DIM3];
787	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
788	int vdwioffset0;
789	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
790	int vdwioffset1;
791	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
792	int vdwioffset2;
793	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
794	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
795	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
796	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
797	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
798	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
799	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
800	real *charge;
801	__m128i ewitab;
802	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
803	real *ewtab;
804	__m128 rswitch,swV3,swV4,swV5,swF2,swF3,swF4,d,d2,sw,dsw;
805	real rswitch_scalar,d_scalar;
806	__m128 dummy_mask,cutoff_mask;
807	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
808	__m128 one = _mm_set1_ps(1.0);
809	__m128 two = _mm_set1_ps(2.0);
810	x = xx[0];
811	f = ff[0];
812
813	nri = nlist->nri;
814	iinr = nlist->iinr;
815	jindex = nlist->jindex;
816	jjnr = nlist->jjnr;
817	shiftidx = nlist->shift;
818	gid = nlist->gid;
819	shiftvec = fr->shift_vec[0];
820	fshift = fr->fshift[0];
821	facel = _mm_set1_ps(fr->epsfac);
822	charge = mdatoms->chargeA;
823
824	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
825	ewtab = fr->ic->tabq_coul_FDV0;
826	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
827	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
828
829	/* Setup water-specific parameters */
830	inr = nlist->iinr[0];
831	iq0 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+0]));
832	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
833	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
834
835	/* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
836	rcutoff_scalar = fr->rcoulomb;
837	rcutoff = _mm_set1_ps(rcutoff_scalar);
838	rcutoff2 = _mm_mul_ps(rcutoff,rcutoff);
839
840	rswitch_scalar = fr->rcoulomb_switch;
841	rswitch = _mm_set1_ps(rswitch_scalar);
842	/* Setup switch parameters */
843	d_scalar = rcutoff_scalar-rswitch_scalar;
844	d = _mm_set1_ps(d_scalar);
845	swV3 = _mm_set1_ps(-10.0/(d_scalard_scalard_scalar));
846	swV4 = _mm_set1_ps( 15.0/(d_scalard_scalard_scalar*d_scalar));
847	swV5 = _mm_set1_ps( -6.0/(d_scalard_scalard_scalard_scalard_scalar));
848	swF2 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalar));
849	swF3 = _mm_set1_ps( 60.0/(d_scalard_scalard_scalar*d_scalar));
850	swF4 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalard_scalard_scalar));
851
852	/* Avoid stupid compiler warnings */
853	jnrA = jnrB = jnrC = jnrD = 0;
854	j_coord_offsetA = 0;
855	j_coord_offsetB = 0;
856	j_coord_offsetC = 0;
857	j_coord_offsetD = 0;
858
859	outeriter = 0;
860	inneriter = 0;
861
862	for(iidx=0;iidx<4*DIM3;iidx++)
863	{
864	scratch[iidx] = 0.0;
865	}
866
867	/* Start outer loop over neighborlists */
868	for(iidx=0; iidx<nri; iidx++)
869	{
870	/* Load shift vector for this list */
871	i_shift_offset = DIM3*shiftidx[iidx];
872
873	/* Load limits for loop over neighbors */
874	j_index_start = jindex[iidx];
875	j_index_end = jindex[iidx+1];
876
877	/* Get outer coordinate index */
878	inr = iinr[iidx];
879	i_coord_offset = DIM3*inr;
880
881	/* Load i particle coords and add shift vector */
882	gmx_mm_load_shift_and_3rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
883	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2);
884
885	fix0 = _mm_setzero_ps();
886	fiy0 = _mm_setzero_ps();
887	fiz0 = _mm_setzero_ps();
888	fix1 = _mm_setzero_ps();
889	fiy1 = _mm_setzero_ps();
890	fiz1 = _mm_setzero_ps();
891	fix2 = _mm_setzero_ps();
892	fiy2 = _mm_setzero_ps();
893	fiz2 = _mm_setzero_ps();
894
895	/* Start inner kernel loop */
896	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
897	{
898
899	/* Get j neighbor index, and coordinate index */
900	jnrA = jjnr[jidx];
901	jnrB = jjnr[jidx+1];
902	jnrC = jjnr[jidx+2];
903	jnrD = jjnr[jidx+3];
904	j_coord_offsetA = DIM3*jnrA;
905	j_coord_offsetB = DIM3*jnrB;
906	j_coord_offsetC = DIM3*jnrC;
907	j_coord_offsetD = DIM3*jnrD;
908
909	/* load j atom coordinates */
910	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
911	x+j_coord_offsetC,x+j_coord_offsetD,
912	&jx0,&jy0,&jz0);
913
914	/* Calculate displacement vector */
915	dx00 = _mm_sub_ps(ix0,jx0);
916	dy00 = _mm_sub_ps(iy0,jy0);
917	dz00 = _mm_sub_ps(iz0,jz0);
918	dx10 = _mm_sub_ps(ix1,jx0);
919	dy10 = _mm_sub_ps(iy1,jy0);
920	dz10 = _mm_sub_ps(iz1,jz0);
921	dx20 = _mm_sub_ps(ix2,jx0);
922	dy20 = _mm_sub_ps(iy2,jy0);
923	dz20 = _mm_sub_ps(iz2,jz0);
924
925	/* Calculate squared distance and things based on it */
926	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
927	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
928	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
929
930	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
931	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
932	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
933
934	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
935	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
936	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
937
938	/* Load parameters for j particles */
939	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
940	charge+jnrC+0,charge+jnrD+0);
941
942	fjx0 = _mm_setzero_ps();
943	fjy0 = _mm_setzero_ps();
944	fjz0 = _mm_setzero_ps();
945
946	/**************************
947	* CALCULATE INTERACTIONS *
948	**************************/
949
950	if (gmx_mm_any_lt(rsq00,rcutoff2))
951	{
952
953	r00 = _mm_mul_ps(rsq00,rinv00);
954
955	/* Compute parameters for interactions between i and j atoms */
956	qq00 = _mm_mul_ps(iq0,jq0);
957
958	/* EWALD ELECTROSTATICS */
959
960	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
961	ewrt = _mm_mul_ps(r00,ewtabscale);
962	ewitab = _mm_cvttps_epi32(ewrt);
963	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
964	ewitab = _mm_slli_epi32(ewitab,2);
965	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
966	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
967	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
968	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
969	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
970	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
971	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
972	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
973	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
974
975	d = _mm_sub_ps(r00,rswitch);
976	d = _mm_max_ps(d,_mm_setzero_ps());
977	d2 = _mm_mul_ps(d,d);
978	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
979
980	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
981
982	/* Evaluate switch function */
983	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
984	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
985	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
986
987	fscal = felec;
988
989	fscal = _mm_and_ps(fscal,cutoff_mask);
990
991	/* Calculate temporary vectorial force */
992	tx = _mm_mul_ps(fscal,dx00);
993	ty = _mm_mul_ps(fscal,dy00);
994	tz = _mm_mul_ps(fscal,dz00);
995
996	/* Update vectorial force */
997	fix0 = _mm_add_ps(fix0,tx);
998	fiy0 = _mm_add_ps(fiy0,ty);
999	fiz0 = _mm_add_ps(fiz0,tz);
1000
1001	fjx0 = _mm_add_ps(fjx0,tx);
1002	fjy0 = _mm_add_ps(fjy0,ty);
1003	fjz0 = _mm_add_ps(fjz0,tz);
1004
1005	}
1006
1007	/**************************
1008	* CALCULATE INTERACTIONS *
1009	**************************/
1010
1011	if (gmx_mm_any_lt(rsq10,rcutoff2))
1012	{
1013
1014	r10 = _mm_mul_ps(rsq10,rinv10);
1015
1016	/* Compute parameters for interactions between i and j atoms */
1017	qq10 = _mm_mul_ps(iq1,jq0);
1018
1019	/* EWALD ELECTROSTATICS */
1020
1021	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1022	ewrt = _mm_mul_ps(r10,ewtabscale);
1023	ewitab = _mm_cvttps_epi32(ewrt);
1024	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1025	ewitab = _mm_slli_epi32(ewitab,2);
1026	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1027	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1028	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1029	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1030	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1031	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1032	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1033	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
1034	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
1035
1036	d = _mm_sub_ps(r10,rswitch);
1037	d = _mm_max_ps(d,_mm_setzero_ps());
1038	d2 = _mm_mul_ps(d,d);
1039	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
1040
1041	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
1042
1043	/* Evaluate switch function */
1044	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
1045	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv10,_mm_mul_ps(velec,dsw)) );
1046	cutoff_mask = _mm_cmplt_ps(rsq10,rcutoff2);
1047
1048	fscal = felec;
1049
1050	fscal = _mm_and_ps(fscal,cutoff_mask);
1051
1052	/* Calculate temporary vectorial force */
1053	tx = _mm_mul_ps(fscal,dx10);
1054	ty = _mm_mul_ps(fscal,dy10);
1055	tz = _mm_mul_ps(fscal,dz10);
1056
1057	/* Update vectorial force */
1058	fix1 = _mm_add_ps(fix1,tx);
1059	fiy1 = _mm_add_ps(fiy1,ty);
1060	fiz1 = _mm_add_ps(fiz1,tz);
1061
1062	fjx0 = _mm_add_ps(fjx0,tx);
1063	fjy0 = _mm_add_ps(fjy0,ty);
1064	fjz0 = _mm_add_ps(fjz0,tz);
1065
1066	}
1067
1068	/**************************
1069	* CALCULATE INTERACTIONS *
1070	**************************/
1071
1072	if (gmx_mm_any_lt(rsq20,rcutoff2))
1073	{
1074
1075	r20 = _mm_mul_ps(rsq20,rinv20);
1076
1077	/* Compute parameters for interactions between i and j atoms */
1078	qq20 = _mm_mul_ps(iq2,jq0);
1079
1080	/* EWALD ELECTROSTATICS */
1081
1082	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1083	ewrt = _mm_mul_ps(r20,ewtabscale);
1084	ewitab = _mm_cvttps_epi32(ewrt);
1085	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1086	ewitab = _mm_slli_epi32(ewitab,2);
1087	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1088	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1089	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1090	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1091	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1092	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1093	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1094	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
1095	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
1096
1097	d = _mm_sub_ps(r20,rswitch);
1098	d = _mm_max_ps(d,_mm_setzero_ps());
1099	d2 = _mm_mul_ps(d,d);
1100	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
1101
1102	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
1103
1104	/* Evaluate switch function */
1105	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
1106	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv20,_mm_mul_ps(velec,dsw)) );
1107	cutoff_mask = _mm_cmplt_ps(rsq20,rcutoff2);
1108
1109	fscal = felec;
1110
1111	fscal = _mm_and_ps(fscal,cutoff_mask);
1112
1113	/* Calculate temporary vectorial force */
1114	tx = _mm_mul_ps(fscal,dx20);
1115	ty = _mm_mul_ps(fscal,dy20);
1116	tz = _mm_mul_ps(fscal,dz20);
1117
1118	/* Update vectorial force */
1119	fix2 = _mm_add_ps(fix2,tx);
1120	fiy2 = _mm_add_ps(fiy2,ty);
1121	fiz2 = _mm_add_ps(fiz2,tz);
1122
1123	fjx0 = _mm_add_ps(fjx0,tx);
1124	fjy0 = _mm_add_ps(fjy0,ty);
1125	fjz0 = _mm_add_ps(fjz0,tz);
1126
1127	}
1128
1129	fjptrA = f+j_coord_offsetA;
1130	fjptrB = f+j_coord_offsetB;
1131	fjptrC = f+j_coord_offsetC;
1132	fjptrD = f+j_coord_offsetD;
1133
1134	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1135
1136	/* Inner loop uses 186 flops */
1137	}
1138
1139	if(jidx<j_index_end)
1140	{
1141
1142	/* Get j neighbor index, and coordinate index */
1143	jnrlistA = jjnr[jidx];
1144	jnrlistB = jjnr[jidx+1];
1145	jnrlistC = jjnr[jidx+2];
1146	jnrlistD = jjnr[jidx+3];
1147	/* Sign of each element will be negative for non-real atoms.
1148	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1149	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1150	*/
1151	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1152	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
1153	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
1154	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
1155	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
1156	j_coord_offsetA = DIM3*jnrA;
1157	j_coord_offsetB = DIM3*jnrB;
1158	j_coord_offsetC = DIM3*jnrC;
1159	j_coord_offsetD = DIM3*jnrD;
1160
1161	/* load j atom coordinates */
1162	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1163	x+j_coord_offsetC,x+j_coord_offsetD,
1164	&jx0,&jy0,&jz0);
1165
1166	/* Calculate displacement vector */
1167	dx00 = _mm_sub_ps(ix0,jx0);
1168	dy00 = _mm_sub_ps(iy0,jy0);
1169	dz00 = _mm_sub_ps(iz0,jz0);
1170	dx10 = _mm_sub_ps(ix1,jx0);
1171	dy10 = _mm_sub_ps(iy1,jy0);
1172	dz10 = _mm_sub_ps(iz1,jz0);
1173	dx20 = _mm_sub_ps(ix2,jx0);
1174	dy20 = _mm_sub_ps(iy2,jy0);
1175	dz20 = _mm_sub_ps(iz2,jz0);
1176
1177	/* Calculate squared distance and things based on it */
1178	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1179	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
1180	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
1181
1182	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1183	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
1184	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
1185
1186	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
1187	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
1188	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
1189
1190	/* Load parameters for j particles */
1191	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
1192	charge+jnrC+0,charge+jnrD+0);
1193
1194	fjx0 = _mm_setzero_ps();
1195	fjy0 = _mm_setzero_ps();
1196	fjz0 = _mm_setzero_ps();
1197
1198	/**************************
1199	* CALCULATE INTERACTIONS *
1200	**************************/
1201
1202	if (gmx_mm_any_lt(rsq00,rcutoff2))
1203	{
1204
1205	r00 = _mm_mul_ps(rsq00,rinv00);
1206	r00 = _mm_andnot_ps(dummy_mask,r00);
1207
1208	/* Compute parameters for interactions between i and j atoms */
1209	qq00 = _mm_mul_ps(iq0,jq0);
1210
1211	/* EWALD ELECTROSTATICS */
1212
1213	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1214	ewrt = _mm_mul_ps(r00,ewtabscale);
1215	ewitab = _mm_cvttps_epi32(ewrt);
1216	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1217	ewitab = _mm_slli_epi32(ewitab,2);
1218	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1219	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1220	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1221	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1222	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1223	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1224	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1225	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
1226	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
1227
1228	d = _mm_sub_ps(r00,rswitch);
1229	d = _mm_max_ps(d,_mm_setzero_ps());
1230	d2 = _mm_mul_ps(d,d);
1231	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
1232
1233	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
1234
1235	/* Evaluate switch function */
1236	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
1237	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
1238	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
1239
1240	fscal = felec;
1241
1242	fscal = _mm_and_ps(fscal,cutoff_mask);
1243
1244	fscal = _mm_andnot_ps(dummy_mask,fscal);
1245
1246	/* Calculate temporary vectorial force */
1247	tx = _mm_mul_ps(fscal,dx00);
1248	ty = _mm_mul_ps(fscal,dy00);
1249	tz = _mm_mul_ps(fscal,dz00);
1250
1251	/* Update vectorial force */
1252	fix0 = _mm_add_ps(fix0,tx);
1253	fiy0 = _mm_add_ps(fiy0,ty);
1254	fiz0 = _mm_add_ps(fiz0,tz);
1255
1256	fjx0 = _mm_add_ps(fjx0,tx);
1257	fjy0 = _mm_add_ps(fjy0,ty);
1258	fjz0 = _mm_add_ps(fjz0,tz);
1259
1260	}
1261
1262	/**************************
1263	* CALCULATE INTERACTIONS *
1264	**************************/
1265
1266	if (gmx_mm_any_lt(rsq10,rcutoff2))
1267	{
1268
1269	r10 = _mm_mul_ps(rsq10,rinv10);
1270	r10 = _mm_andnot_ps(dummy_mask,r10);
1271
1272	/* Compute parameters for interactions between i and j atoms */
1273	qq10 = _mm_mul_ps(iq1,jq0);
1274
1275	/* EWALD ELECTROSTATICS */
1276
1277	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1278	ewrt = _mm_mul_ps(r10,ewtabscale);
1279	ewitab = _mm_cvttps_epi32(ewrt);
1280	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1281	ewitab = _mm_slli_epi32(ewitab,2);
1282	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1283	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1284	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1285	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1286	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1287	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1288	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1289	velec = _mm_mul_ps(qq10,_mm_sub_ps(rinv10,velec));
1290	felec = _mm_mul_ps(_mm_mul_ps(qq10,rinv10),_mm_sub_ps(rinvsq10,felec));
1291
1292	d = _mm_sub_ps(r10,rswitch);
1293	d = _mm_max_ps(d,_mm_setzero_ps());
1294	d2 = _mm_mul_ps(d,d);
1295	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
1296
1297	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
1298
1299	/* Evaluate switch function */
1300	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
1301	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv10,_mm_mul_ps(velec,dsw)) );
1302	cutoff_mask = _mm_cmplt_ps(rsq10,rcutoff2);
1303
1304	fscal = felec;
1305
1306	fscal = _mm_and_ps(fscal,cutoff_mask);
1307
1308	fscal = _mm_andnot_ps(dummy_mask,fscal);
1309
1310	/* Calculate temporary vectorial force */
1311	tx = _mm_mul_ps(fscal,dx10);
1312	ty = _mm_mul_ps(fscal,dy10);
1313	tz = _mm_mul_ps(fscal,dz10);
1314
1315	/* Update vectorial force */
1316	fix1 = _mm_add_ps(fix1,tx);
1317	fiy1 = _mm_add_ps(fiy1,ty);
1318	fiz1 = _mm_add_ps(fiz1,tz);
1319
1320	fjx0 = _mm_add_ps(fjx0,tx);
1321	fjy0 = _mm_add_ps(fjy0,ty);
1322	fjz0 = _mm_add_ps(fjz0,tz);
1323
1324	}
1325
1326	/**************************
1327	* CALCULATE INTERACTIONS *
1328	**************************/
1329
1330	if (gmx_mm_any_lt(rsq20,rcutoff2))
1331	{
1332
1333	r20 = _mm_mul_ps(rsq20,rinv20);
1334	r20 = _mm_andnot_ps(dummy_mask,r20);
1335
1336	/* Compute parameters for interactions between i and j atoms */
1337	qq20 = _mm_mul_ps(iq2,jq0);
1338
1339	/* EWALD ELECTROSTATICS */
1340
1341	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
1342	ewrt = _mm_mul_ps(r20,ewtabscale);
1343	ewitab = _mm_cvttps_epi32(ewrt);
1344	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1345	ewitab = _mm_slli_epi32(ewitab,2);
1346	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
1347	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
1348	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
1349	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
1350	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
1351	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
1352	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
1353	velec = _mm_mul_ps(qq20,_mm_sub_ps(rinv20,velec));
1354	felec = _mm_mul_ps(_mm_mul_ps(qq20,rinv20),_mm_sub_ps(rinvsq20,felec));
1355
1356	d = _mm_sub_ps(r20,rswitch);
1357	d = _mm_max_ps(d,_mm_setzero_ps());
1358	d2 = _mm_mul_ps(d,d);
1359	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
1360
1361	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
1362
1363	/* Evaluate switch function */
1364	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
1365	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv20,_mm_mul_ps(velec,dsw)) );
1366	cutoff_mask = _mm_cmplt_ps(rsq20,rcutoff2);
1367
1368	fscal = felec;
1369
1370	fscal = _mm_and_ps(fscal,cutoff_mask);
1371
1372	fscal = _mm_andnot_ps(dummy_mask,fscal);
1373
1374	/* Calculate temporary vectorial force */
1375	tx = _mm_mul_ps(fscal,dx20);
1376	ty = _mm_mul_ps(fscal,dy20);
1377	tz = _mm_mul_ps(fscal,dz20);
1378
1379	/* Update vectorial force */
1380	fix2 = _mm_add_ps(fix2,tx);
1381	fiy2 = _mm_add_ps(fiy2,ty);
1382	fiz2 = _mm_add_ps(fiz2,tz);
1383
1384	fjx0 = _mm_add_ps(fjx0,tx);
1385	fjy0 = _mm_add_ps(fjy0,ty);
1386	fjz0 = _mm_add_ps(fjz0,tz);
1387
1388	}
1389
1390	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1391	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1392	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1393	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1394
1395	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1396
1397	/* Inner loop uses 189 flops */
1398	}
1399
1400	/* End of innermost loop */
1401
1402	gmx_mm_update_iforce_3atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,
1403	f+i_coord_offset,fshift+i_shift_offset);
1404
1405	/* Increment number of inner iterations */
1406	inneriter += j_index_end - j_index_start;
1407
1408	/* Outer loop uses 18 flops */
1409	}
1410
1411	/* Increment number of outer iterations */
1412	outeriter += nri;
1413
1414	/* Update outer/inner flops */
1415
1416	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_W3_F,outeriter18 + inneriter189)(nrnb)->n[eNR_NBKERNEL_ELEC_W3_F] += outeriter18 + inneriter 189;
1417	}