/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecRF_VdwCSTab_GeomW4P1_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecRF_VdwCSTab_GeomW4P1_sse4_1_single.c
Location:	line 146, column 5
Description:	Value stored to 'jnrA' is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecRF_VdwCSTab_GeomW4P1_VF_sse4_1_single
54	* Electrostatics interaction: ReactionField
55	* VdW interaction: CubicSplineTable
56	* Geometry: Water4-Particle
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecRF_VdwCSTab_GeomW4P1_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwioffset3;
92	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
93	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
94	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
95	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
96	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
97	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
98	__m128 dx30,dy30,dz30,rsq30,rinv30,rinvsq30,r30,qq30,c6_30,c12_30;
99	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
100	real *charge;
101	int nvdwtype;
102	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
103	int *vdwtype;
104	real *vdwparam;
105	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
106	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
107	__m128i vfitab;
108	__m128i ifour = _mm_set1_epi32(4);
109	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
110	real *vftab;
111	__m128 dummy_mask,cutoff_mask;
112	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
113	__m128 one = _mm_set1_ps(1.0);
114	__m128 two = _mm_set1_ps(2.0);
115	x = xx[0];
116	f = ff[0];
117
118	nri = nlist->nri;
119	iinr = nlist->iinr;
120	jindex = nlist->jindex;
121	jjnr = nlist->jjnr;
122	shiftidx = nlist->shift;
123	gid = nlist->gid;
124	shiftvec = fr->shift_vec[0];
125	fshift = fr->fshift[0];
126	facel = _mm_set1_ps(fr->epsfac);
127	charge = mdatoms->chargeA;
128	krf = _mm_set1_ps(fr->ic->k_rf);
129	krf2 = _mm_set1_ps(fr->ic->k_rf*2.0);
130	crf = _mm_set1_ps(fr->ic->c_rf);
131	nvdwtype = fr->ntype;
132	vdwparam = fr->nbfp;
133	vdwtype = mdatoms->typeA;
134
135	vftab = kernel_data->table_vdw->data;
136	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
137
138	/* Setup water-specific parameters */
139	inr = nlist->iinr[0];
140	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
141	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
142	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
143	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
144
145	/* Avoid stupid compiler warnings */
146	jnrA = jnrB = jnrC = jnrD = 0;
	Value stored to 'jnrA' is never read
147	j_coord_offsetA = 0;
148	j_coord_offsetB = 0;
149	j_coord_offsetC = 0;
150	j_coord_offsetD = 0;
151
152	outeriter = 0;
153	inneriter = 0;
154
155	for(iidx=0;iidx<4*DIM3;iidx++)
156	{
157	scratch[iidx] = 0.0;
158	}
159
160	/* Start outer loop over neighborlists */
161	for(iidx=0; iidx<nri; iidx++)
162	{
163	/* Load shift vector for this list */
164	i_shift_offset = DIM3*shiftidx[iidx];
165
166	/* Load limits for loop over neighbors */
167	j_index_start = jindex[iidx];
168	j_index_end = jindex[iidx+1];
169
170	/* Get outer coordinate index */
171	inr = iinr[iidx];
172	i_coord_offset = DIM3*inr;
173
174	/* Load i particle coords and add shift vector */
175	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
176	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
177
178	fix0 = _mm_setzero_ps();
179	fiy0 = _mm_setzero_ps();
180	fiz0 = _mm_setzero_ps();
181	fix1 = _mm_setzero_ps();
182	fiy1 = _mm_setzero_ps();
183	fiz1 = _mm_setzero_ps();
184	fix2 = _mm_setzero_ps();
185	fiy2 = _mm_setzero_ps();
186	fiz2 = _mm_setzero_ps();
187	fix3 = _mm_setzero_ps();
188	fiy3 = _mm_setzero_ps();
189	fiz3 = _mm_setzero_ps();
190
191	/* Reset potential sums */
192	velecsum = _mm_setzero_ps();
193	vvdwsum = _mm_setzero_ps();
194
195	/* Start inner kernel loop */
196	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
197	{
198
199	/* Get j neighbor index, and coordinate index */
200	jnrA = jjnr[jidx];
201	jnrB = jjnr[jidx+1];
202	jnrC = jjnr[jidx+2];
203	jnrD = jjnr[jidx+3];
204	j_coord_offsetA = DIM3*jnrA;
205	j_coord_offsetB = DIM3*jnrB;
206	j_coord_offsetC = DIM3*jnrC;
207	j_coord_offsetD = DIM3*jnrD;
208
209	/* load j atom coordinates */
210	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
211	x+j_coord_offsetC,x+j_coord_offsetD,
212	&jx0,&jy0,&jz0);
213
214	/* Calculate displacement vector */
215	dx00 = _mm_sub_ps(ix0,jx0);
216	dy00 = _mm_sub_ps(iy0,jy0);
217	dz00 = _mm_sub_ps(iz0,jz0);
218	dx10 = _mm_sub_ps(ix1,jx0);
219	dy10 = _mm_sub_ps(iy1,jy0);
220	dz10 = _mm_sub_ps(iz1,jz0);
221	dx20 = _mm_sub_ps(ix2,jx0);
222	dy20 = _mm_sub_ps(iy2,jy0);
223	dz20 = _mm_sub_ps(iz2,jz0);
224	dx30 = _mm_sub_ps(ix3,jx0);
225	dy30 = _mm_sub_ps(iy3,jy0);
226	dz30 = _mm_sub_ps(iz3,jz0);
227
228	/* Calculate squared distance and things based on it */
229	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
230	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
231	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
232	rsq30 = gmx_mm_calc_rsq_ps(dx30,dy30,dz30);
233
234	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
235	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
236	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
237	rinv30 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq30);
238
239	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
240	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
241	rinvsq30 = _mm_mul_ps(rinv30,rinv30);
242
243	/* Load parameters for j particles */
244	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
245	charge+jnrC+0,charge+jnrD+0);
246	vdwjidx0A = 2*vdwtype[jnrA+0];
247	vdwjidx0B = 2*vdwtype[jnrB+0];
248	vdwjidx0C = 2*vdwtype[jnrC+0];
249	vdwjidx0D = 2*vdwtype[jnrD+0];
250
251	fjx0 = _mm_setzero_ps();
252	fjy0 = _mm_setzero_ps();
253	fjz0 = _mm_setzero_ps();
254
255	/**************************
256	* CALCULATE INTERACTIONS *
257	**************************/
258
259	r00 = _mm_mul_ps(rsq00,rinv00);
260
261	/* Compute parameters for interactions between i and j atoms */
262	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
263	vdwparam+vdwioffset0+vdwjidx0B,
264	vdwparam+vdwioffset0+vdwjidx0C,
265	vdwparam+vdwioffset0+vdwjidx0D,
266	&c6_00,&c12_00);
267
268	/* Calculate table index by multiplying r with table scale and truncate to integer */
269	rt = _mm_mul_ps(r00,vftabscale);
270	vfitab = _mm_cvttps_epi32(rt);
271	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
272	vfitab = _mm_slli_epi32(vfitab,3);
273
274	/* CUBIC SPLINE TABLE DISPERSION */
275	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
276	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
277	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
278	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
279	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
280	Heps = _mm_mul_ps(vfeps,H);
281	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
282	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
283	vvdw6 = _mm_mul_ps(c6_00,VV);
284	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
285	fvdw6 = _mm_mul_ps(c6_00,FF);
286
287	/* CUBIC SPLINE TABLE REPULSION */
288	vfitab = _mm_add_epi32(vfitab,ifour);
289	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
290	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
291	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
292	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
293	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
294	Heps = _mm_mul_ps(vfeps,H);
295	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
296	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
297	vvdw12 = _mm_mul_ps(c12_00,VV);
298	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
299	fvdw12 = _mm_mul_ps(c12_00,FF);
300	vvdw = _mm_add_ps(vvdw12,vvdw6);
301	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
302
303	/* Update potential sum for this i atom from the interaction with this j atom. */
304	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
305
306	fscal = fvdw;
307
308	/* Calculate temporary vectorial force */
309	tx = _mm_mul_ps(fscal,dx00);
310	ty = _mm_mul_ps(fscal,dy00);
311	tz = _mm_mul_ps(fscal,dz00);
312
313	/* Update vectorial force */
314	fix0 = _mm_add_ps(fix0,tx);
315	fiy0 = _mm_add_ps(fiy0,ty);
316	fiz0 = _mm_add_ps(fiz0,tz);
317
318	fjx0 = _mm_add_ps(fjx0,tx);
319	fjy0 = _mm_add_ps(fjy0,ty);
320	fjz0 = _mm_add_ps(fjz0,tz);
321
322	/**************************
323	* CALCULATE INTERACTIONS *
324	**************************/
325
326	/* Compute parameters for interactions between i and j atoms */
327	qq10 = _mm_mul_ps(iq1,jq0);
328
329	/* REACTION-FIELD ELECTROSTATICS */
330	velec = _mm_mul_ps(qq10,_mm_sub_ps(_mm_add_ps(rinv10,_mm_mul_ps(krf,rsq10)),crf));
331	felec = _mm_mul_ps(qq10,_mm_sub_ps(_mm_mul_ps(rinv10,rinvsq10),krf2));
332
333	/* Update potential sum for this i atom from the interaction with this j atom. */
334	velecsum = _mm_add_ps(velecsum,velec);
335
336	fscal = felec;
337
338	/* Calculate temporary vectorial force */
339	tx = _mm_mul_ps(fscal,dx10);
340	ty = _mm_mul_ps(fscal,dy10);
341	tz = _mm_mul_ps(fscal,dz10);
342
343	/* Update vectorial force */
344	fix1 = _mm_add_ps(fix1,tx);
345	fiy1 = _mm_add_ps(fiy1,ty);
346	fiz1 = _mm_add_ps(fiz1,tz);
347
348	fjx0 = _mm_add_ps(fjx0,tx);
349	fjy0 = _mm_add_ps(fjy0,ty);
350	fjz0 = _mm_add_ps(fjz0,tz);
351
352	/**************************
353	* CALCULATE INTERACTIONS *
354	**************************/
355
356	/* Compute parameters for interactions between i and j atoms */
357	qq20 = _mm_mul_ps(iq2,jq0);
358
359	/* REACTION-FIELD ELECTROSTATICS */
360	velec = _mm_mul_ps(qq20,_mm_sub_ps(_mm_add_ps(rinv20,_mm_mul_ps(krf,rsq20)),crf));
361	felec = _mm_mul_ps(qq20,_mm_sub_ps(_mm_mul_ps(rinv20,rinvsq20),krf2));
362
363	/* Update potential sum for this i atom from the interaction with this j atom. */
364	velecsum = _mm_add_ps(velecsum,velec);
365
366	fscal = felec;
367
368	/* Calculate temporary vectorial force */
369	tx = _mm_mul_ps(fscal,dx20);
370	ty = _mm_mul_ps(fscal,dy20);
371	tz = _mm_mul_ps(fscal,dz20);
372
373	/* Update vectorial force */
374	fix2 = _mm_add_ps(fix2,tx);
375	fiy2 = _mm_add_ps(fiy2,ty);
376	fiz2 = _mm_add_ps(fiz2,tz);
377
378	fjx0 = _mm_add_ps(fjx0,tx);
379	fjy0 = _mm_add_ps(fjy0,ty);
380	fjz0 = _mm_add_ps(fjz0,tz);
381
382	/**************************
383	* CALCULATE INTERACTIONS *
384	**************************/
385
386	/* Compute parameters for interactions between i and j atoms */
387	qq30 = _mm_mul_ps(iq3,jq0);
388
389	/* REACTION-FIELD ELECTROSTATICS */
390	velec = _mm_mul_ps(qq30,_mm_sub_ps(_mm_add_ps(rinv30,_mm_mul_ps(krf,rsq30)),crf));
391	felec = _mm_mul_ps(qq30,_mm_sub_ps(_mm_mul_ps(rinv30,rinvsq30),krf2));
392
393	/* Update potential sum for this i atom from the interaction with this j atom. */
394	velecsum = _mm_add_ps(velecsum,velec);
395
396	fscal = felec;
397
398	/* Calculate temporary vectorial force */
399	tx = _mm_mul_ps(fscal,dx30);
400	ty = _mm_mul_ps(fscal,dy30);
401	tz = _mm_mul_ps(fscal,dz30);
402
403	/* Update vectorial force */
404	fix3 = _mm_add_ps(fix3,tx);
405	fiy3 = _mm_add_ps(fiy3,ty);
406	fiz3 = _mm_add_ps(fiz3,tz);
407
408	fjx0 = _mm_add_ps(fjx0,tx);
409	fjy0 = _mm_add_ps(fjy0,ty);
410	fjz0 = _mm_add_ps(fjz0,tz);
411
412	fjptrA = f+j_coord_offsetA;
413	fjptrB = f+j_coord_offsetB;
414	fjptrC = f+j_coord_offsetC;
415	fjptrD = f+j_coord_offsetD;
416
417	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
418
419	/* Inner loop uses 152 flops */
420	}
421
422	if(jidx<j_index_end)
423	{
424
425	/* Get j neighbor index, and coordinate index */
426	jnrlistA = jjnr[jidx];
427	jnrlistB = jjnr[jidx+1];
428	jnrlistC = jjnr[jidx+2];
429	jnrlistD = jjnr[jidx+3];
430	/* Sign of each element will be negative for non-real atoms.
431	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
432	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
433	*/
434	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
435	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
436	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
437	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
438	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
439	j_coord_offsetA = DIM3*jnrA;
440	j_coord_offsetB = DIM3*jnrB;
441	j_coord_offsetC = DIM3*jnrC;
442	j_coord_offsetD = DIM3*jnrD;
443
444	/* load j atom coordinates */
445	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
446	x+j_coord_offsetC,x+j_coord_offsetD,
447	&jx0,&jy0,&jz0);
448
449	/* Calculate displacement vector */
450	dx00 = _mm_sub_ps(ix0,jx0);
451	dy00 = _mm_sub_ps(iy0,jy0);
452	dz00 = _mm_sub_ps(iz0,jz0);
453	dx10 = _mm_sub_ps(ix1,jx0);
454	dy10 = _mm_sub_ps(iy1,jy0);
455	dz10 = _mm_sub_ps(iz1,jz0);
456	dx20 = _mm_sub_ps(ix2,jx0);
457	dy20 = _mm_sub_ps(iy2,jy0);
458	dz20 = _mm_sub_ps(iz2,jz0);
459	dx30 = _mm_sub_ps(ix3,jx0);
460	dy30 = _mm_sub_ps(iy3,jy0);
461	dz30 = _mm_sub_ps(iz3,jz0);
462
463	/* Calculate squared distance and things based on it */
464	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
465	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
466	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
467	rsq30 = gmx_mm_calc_rsq_ps(dx30,dy30,dz30);
468
469	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
470	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
471	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
472	rinv30 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq30);
473
474	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
475	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
476	rinvsq30 = _mm_mul_ps(rinv30,rinv30);
477
478	/* Load parameters for j particles */
479	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
480	charge+jnrC+0,charge+jnrD+0);
481	vdwjidx0A = 2*vdwtype[jnrA+0];
482	vdwjidx0B = 2*vdwtype[jnrB+0];
483	vdwjidx0C = 2*vdwtype[jnrC+0];
484	vdwjidx0D = 2*vdwtype[jnrD+0];
485
486	fjx0 = _mm_setzero_ps();
487	fjy0 = _mm_setzero_ps();
488	fjz0 = _mm_setzero_ps();
489
490	/**************************
491	* CALCULATE INTERACTIONS *
492	**************************/
493
494	r00 = _mm_mul_ps(rsq00,rinv00);
495	r00 = _mm_andnot_ps(dummy_mask,r00);
496
497	/* Compute parameters for interactions between i and j atoms */
498	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
499	vdwparam+vdwioffset0+vdwjidx0B,
500	vdwparam+vdwioffset0+vdwjidx0C,
501	vdwparam+vdwioffset0+vdwjidx0D,
502	&c6_00,&c12_00);
503
504	/* Calculate table index by multiplying r with table scale and truncate to integer */
505	rt = _mm_mul_ps(r00,vftabscale);
506	vfitab = _mm_cvttps_epi32(rt);
507	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
508	vfitab = _mm_slli_epi32(vfitab,3);
509
510	/* CUBIC SPLINE TABLE DISPERSION */
511	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
512	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
513	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
514	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
515	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
516	Heps = _mm_mul_ps(vfeps,H);
517	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
518	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
519	vvdw6 = _mm_mul_ps(c6_00,VV);
520	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
521	fvdw6 = _mm_mul_ps(c6_00,FF);
522
523	/* CUBIC SPLINE TABLE REPULSION */
524	vfitab = _mm_add_epi32(vfitab,ifour);
525	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
526	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
527	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
528	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
529	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
530	Heps = _mm_mul_ps(vfeps,H);
531	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
532	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
533	vvdw12 = _mm_mul_ps(c12_00,VV);
534	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
535	fvdw12 = _mm_mul_ps(c12_00,FF);
536	vvdw = _mm_add_ps(vvdw12,vvdw6);
537	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
538
539	/* Update potential sum for this i atom from the interaction with this j atom. */
540	vvdw = _mm_andnot_ps(dummy_mask,vvdw);
541	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
542
543	fscal = fvdw;
544
545	fscal = _mm_andnot_ps(dummy_mask,fscal);
546
547	/* Calculate temporary vectorial force */
548	tx = _mm_mul_ps(fscal,dx00);
549	ty = _mm_mul_ps(fscal,dy00);
550	tz = _mm_mul_ps(fscal,dz00);
551
552	/* Update vectorial force */
553	fix0 = _mm_add_ps(fix0,tx);
554	fiy0 = _mm_add_ps(fiy0,ty);
555	fiz0 = _mm_add_ps(fiz0,tz);
556
557	fjx0 = _mm_add_ps(fjx0,tx);
558	fjy0 = _mm_add_ps(fjy0,ty);
559	fjz0 = _mm_add_ps(fjz0,tz);
560
561	/**************************
562	* CALCULATE INTERACTIONS *
563	**************************/
564
565	/* Compute parameters for interactions between i and j atoms */
566	qq10 = _mm_mul_ps(iq1,jq0);
567
568	/* REACTION-FIELD ELECTROSTATICS */
569	velec = _mm_mul_ps(qq10,_mm_sub_ps(_mm_add_ps(rinv10,_mm_mul_ps(krf,rsq10)),crf));
570	felec = _mm_mul_ps(qq10,_mm_sub_ps(_mm_mul_ps(rinv10,rinvsq10),krf2));
571
572	/* Update potential sum for this i atom from the interaction with this j atom. */
573	velec = _mm_andnot_ps(dummy_mask,velec);
574	velecsum = _mm_add_ps(velecsum,velec);
575
576	fscal = felec;
577
578	fscal = _mm_andnot_ps(dummy_mask,fscal);
579
580	/* Calculate temporary vectorial force */
581	tx = _mm_mul_ps(fscal,dx10);
582	ty = _mm_mul_ps(fscal,dy10);
583	tz = _mm_mul_ps(fscal,dz10);
584
585	/* Update vectorial force */
586	fix1 = _mm_add_ps(fix1,tx);
587	fiy1 = _mm_add_ps(fiy1,ty);
588	fiz1 = _mm_add_ps(fiz1,tz);
589
590	fjx0 = _mm_add_ps(fjx0,tx);
591	fjy0 = _mm_add_ps(fjy0,ty);
592	fjz0 = _mm_add_ps(fjz0,tz);
593
594	/**************************
595	* CALCULATE INTERACTIONS *
596	**************************/
597
598	/* Compute parameters for interactions between i and j atoms */
599	qq20 = _mm_mul_ps(iq2,jq0);
600
601	/* REACTION-FIELD ELECTROSTATICS */
602	velec = _mm_mul_ps(qq20,_mm_sub_ps(_mm_add_ps(rinv20,_mm_mul_ps(krf,rsq20)),crf));
603	felec = _mm_mul_ps(qq20,_mm_sub_ps(_mm_mul_ps(rinv20,rinvsq20),krf2));
604
605	/* Update potential sum for this i atom from the interaction with this j atom. */
606	velec = _mm_andnot_ps(dummy_mask,velec);
607	velecsum = _mm_add_ps(velecsum,velec);
608
609	fscal = felec;
610
611	fscal = _mm_andnot_ps(dummy_mask,fscal);
612
613	/* Calculate temporary vectorial force */
614	tx = _mm_mul_ps(fscal,dx20);
615	ty = _mm_mul_ps(fscal,dy20);
616	tz = _mm_mul_ps(fscal,dz20);
617
618	/* Update vectorial force */
619	fix2 = _mm_add_ps(fix2,tx);
620	fiy2 = _mm_add_ps(fiy2,ty);
621	fiz2 = _mm_add_ps(fiz2,tz);
622
623	fjx0 = _mm_add_ps(fjx0,tx);
624	fjy0 = _mm_add_ps(fjy0,ty);
625	fjz0 = _mm_add_ps(fjz0,tz);
626
627	/**************************
628	* CALCULATE INTERACTIONS *
629	**************************/
630
631	/* Compute parameters for interactions between i and j atoms */
632	qq30 = _mm_mul_ps(iq3,jq0);
633
634	/* REACTION-FIELD ELECTROSTATICS */
635	velec = _mm_mul_ps(qq30,_mm_sub_ps(_mm_add_ps(rinv30,_mm_mul_ps(krf,rsq30)),crf));
636	felec = _mm_mul_ps(qq30,_mm_sub_ps(_mm_mul_ps(rinv30,rinvsq30),krf2));
637
638	/* Update potential sum for this i atom from the interaction with this j atom. */
639	velec = _mm_andnot_ps(dummy_mask,velec);
640	velecsum = _mm_add_ps(velecsum,velec);
641
642	fscal = felec;
643
644	fscal = _mm_andnot_ps(dummy_mask,fscal);
645
646	/* Calculate temporary vectorial force */
647	tx = _mm_mul_ps(fscal,dx30);
648	ty = _mm_mul_ps(fscal,dy30);
649	tz = _mm_mul_ps(fscal,dz30);
650
651	/* Update vectorial force */
652	fix3 = _mm_add_ps(fix3,tx);
653	fiy3 = _mm_add_ps(fiy3,ty);
654	fiz3 = _mm_add_ps(fiz3,tz);
655
656	fjx0 = _mm_add_ps(fjx0,tx);
657	fjy0 = _mm_add_ps(fjy0,ty);
658	fjz0 = _mm_add_ps(fjz0,tz);
659
660	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
661	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
662	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
663	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
664
665	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
666
667	/* Inner loop uses 153 flops */
668	}
669
670	/* End of innermost loop */
671
672	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
673	f+i_coord_offset,fshift+i_shift_offset);
674
675	ggid = gid[iidx];
676	/* Update potential energies */
677	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
678	gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
679
680	/* Increment number of inner iterations */
681	inneriter += j_index_end - j_index_start;
682
683	/* Outer loop uses 26 flops */
684	}
685
686	/* Increment number of outer iterations */
687	outeriter += nri;
688
689	/* Update outer/inner flops */
690
691	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4_VF,outeriter26 + inneriter153)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4_VF] += outeriter26 + inneriter 153;
692	}
693	/*
694	* Gromacs nonbonded kernel: nb_kernel_ElecRF_VdwCSTab_GeomW4P1_F_sse4_1_single
695	* Electrostatics interaction: ReactionField
696	* VdW interaction: CubicSplineTable
697	* Geometry: Water4-Particle
698	* Calculate force/pot: Force
699	*/
700	void
701	nb_kernel_ElecRF_VdwCSTab_GeomW4P1_F_sse4_1_single
702	(t_nblist * gmx_restrict nlist,
703	rvec * gmx_restrict xx,
704	rvec * gmx_restrict ff,
705	t_forcerec * gmx_restrict fr,
706	t_mdatoms * gmx_restrict mdatoms,
707	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
708	t_nrnb * gmx_restrict nrnb)
709	{
710	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
711	* just 0 for non-waters.
712	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
713	* jnr indices corresponding to data put in the four positions in the SIMD register.
714	*/
715	int i_shift_offset,i_coord_offset,outeriter,inneriter;
716	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
717	int jnrA,jnrB,jnrC,jnrD;
718	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
719	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
720	int iinr,jindex,jjnr,shiftidx,*gid;
721	real rcutoff_scalar;
722	real shiftvec,fshift,x,f;
723	real fjptrA,fjptrB,fjptrC,fjptrD;
724	real scratch[4*DIM3];
725	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
726	int vdwioffset0;
727	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
728	int vdwioffset1;
729	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
730	int vdwioffset2;
731	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
732	int vdwioffset3;
733	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
734	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
735	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
736	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
737	__m128 dx10,dy10,dz10,rsq10,rinv10,rinvsq10,r10,qq10,c6_10,c12_10;
738	__m128 dx20,dy20,dz20,rsq20,rinv20,rinvsq20,r20,qq20,c6_20,c12_20;
739	__m128 dx30,dy30,dz30,rsq30,rinv30,rinvsq30,r30,qq30,c6_30,c12_30;
740	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
741	real *charge;
742	int nvdwtype;
743	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
744	int *vdwtype;
745	real *vdwparam;
746	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
747	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
748	__m128i vfitab;
749	__m128i ifour = _mm_set1_epi32(4);
750	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
751	real *vftab;
752	__m128 dummy_mask,cutoff_mask;
753	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
754	__m128 one = _mm_set1_ps(1.0);
755	__m128 two = _mm_set1_ps(2.0);
756	x = xx[0];
757	f = ff[0];
758
759	nri = nlist->nri;
760	iinr = nlist->iinr;
761	jindex = nlist->jindex;
762	jjnr = nlist->jjnr;
763	shiftidx = nlist->shift;
764	gid = nlist->gid;
765	shiftvec = fr->shift_vec[0];
766	fshift = fr->fshift[0];
767	facel = _mm_set1_ps(fr->epsfac);
768	charge = mdatoms->chargeA;
769	krf = _mm_set1_ps(fr->ic->k_rf);
770	krf2 = _mm_set1_ps(fr->ic->k_rf*2.0);
771	crf = _mm_set1_ps(fr->ic->c_rf);
772	nvdwtype = fr->ntype;
773	vdwparam = fr->nbfp;
774	vdwtype = mdatoms->typeA;
775
776	vftab = kernel_data->table_vdw->data;
777	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
778
779	/* Setup water-specific parameters */
780	inr = nlist->iinr[0];
781	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
782	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
783	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
784	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
785
786	/* Avoid stupid compiler warnings */
787	jnrA = jnrB = jnrC = jnrD = 0;
788	j_coord_offsetA = 0;
789	j_coord_offsetB = 0;
790	j_coord_offsetC = 0;
791	j_coord_offsetD = 0;
792
793	outeriter = 0;
794	inneriter = 0;
795
796	for(iidx=0;iidx<4*DIM3;iidx++)
797	{
798	scratch[iidx] = 0.0;
799	}
800
801	/* Start outer loop over neighborlists */
802	for(iidx=0; iidx<nri; iidx++)
803	{
804	/* Load shift vector for this list */
805	i_shift_offset = DIM3*shiftidx[iidx];
806
807	/* Load limits for loop over neighbors */
808	j_index_start = jindex[iidx];
809	j_index_end = jindex[iidx+1];
810
811	/* Get outer coordinate index */
812	inr = iinr[iidx];
813	i_coord_offset = DIM3*inr;
814
815	/* Load i particle coords and add shift vector */
816	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
817	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
818
819	fix0 = _mm_setzero_ps();
820	fiy0 = _mm_setzero_ps();
821	fiz0 = _mm_setzero_ps();
822	fix1 = _mm_setzero_ps();
823	fiy1 = _mm_setzero_ps();
824	fiz1 = _mm_setzero_ps();
825	fix2 = _mm_setzero_ps();
826	fiy2 = _mm_setzero_ps();
827	fiz2 = _mm_setzero_ps();
828	fix3 = _mm_setzero_ps();
829	fiy3 = _mm_setzero_ps();
830	fiz3 = _mm_setzero_ps();
831
832	/* Start inner kernel loop */
833	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
834	{
835
836	/* Get j neighbor index, and coordinate index */
837	jnrA = jjnr[jidx];
838	jnrB = jjnr[jidx+1];
839	jnrC = jjnr[jidx+2];
840	jnrD = jjnr[jidx+3];
841	j_coord_offsetA = DIM3*jnrA;
842	j_coord_offsetB = DIM3*jnrB;
843	j_coord_offsetC = DIM3*jnrC;
844	j_coord_offsetD = DIM3*jnrD;
845
846	/* load j atom coordinates */
847	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
848	x+j_coord_offsetC,x+j_coord_offsetD,
849	&jx0,&jy0,&jz0);
850
851	/* Calculate displacement vector */
852	dx00 = _mm_sub_ps(ix0,jx0);
853	dy00 = _mm_sub_ps(iy0,jy0);
854	dz00 = _mm_sub_ps(iz0,jz0);
855	dx10 = _mm_sub_ps(ix1,jx0);
856	dy10 = _mm_sub_ps(iy1,jy0);
857	dz10 = _mm_sub_ps(iz1,jz0);
858	dx20 = _mm_sub_ps(ix2,jx0);
859	dy20 = _mm_sub_ps(iy2,jy0);
860	dz20 = _mm_sub_ps(iz2,jz0);
861	dx30 = _mm_sub_ps(ix3,jx0);
862	dy30 = _mm_sub_ps(iy3,jy0);
863	dz30 = _mm_sub_ps(iz3,jz0);
864
865	/* Calculate squared distance and things based on it */
866	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
867	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
868	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
869	rsq30 = gmx_mm_calc_rsq_ps(dx30,dy30,dz30);
870
871	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
872	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
873	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
874	rinv30 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq30);
875
876	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
877	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
878	rinvsq30 = _mm_mul_ps(rinv30,rinv30);
879
880	/* Load parameters for j particles */
881	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
882	charge+jnrC+0,charge+jnrD+0);
883	vdwjidx0A = 2*vdwtype[jnrA+0];
884	vdwjidx0B = 2*vdwtype[jnrB+0];
885	vdwjidx0C = 2*vdwtype[jnrC+0];
886	vdwjidx0D = 2*vdwtype[jnrD+0];
887
888	fjx0 = _mm_setzero_ps();
889	fjy0 = _mm_setzero_ps();
890	fjz0 = _mm_setzero_ps();
891
892	/**************************
893	* CALCULATE INTERACTIONS *
894	**************************/
895
896	r00 = _mm_mul_ps(rsq00,rinv00);
897
898	/* Compute parameters for interactions between i and j atoms */
899	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
900	vdwparam+vdwioffset0+vdwjidx0B,
901	vdwparam+vdwioffset0+vdwjidx0C,
902	vdwparam+vdwioffset0+vdwjidx0D,
903	&c6_00,&c12_00);
904
905	/* Calculate table index by multiplying r with table scale and truncate to integer */
906	rt = _mm_mul_ps(r00,vftabscale);
907	vfitab = _mm_cvttps_epi32(rt);
908	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
909	vfitab = _mm_slli_epi32(vfitab,3);
910
911	/* CUBIC SPLINE TABLE DISPERSION */
912	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
913	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
914	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
915	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
916	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
917	Heps = _mm_mul_ps(vfeps,H);
918	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
919	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
920	fvdw6 = _mm_mul_ps(c6_00,FF);
921
922	/* CUBIC SPLINE TABLE REPULSION */
923	vfitab = _mm_add_epi32(vfitab,ifour);
924	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
925	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
926	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
927	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
928	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
929	Heps = _mm_mul_ps(vfeps,H);
930	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
931	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
932	fvdw12 = _mm_mul_ps(c12_00,FF);
933	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
934
935	fscal = fvdw;
936
937	/* Calculate temporary vectorial force */
938	tx = _mm_mul_ps(fscal,dx00);
939	ty = _mm_mul_ps(fscal,dy00);
940	tz = _mm_mul_ps(fscal,dz00);
941
942	/* Update vectorial force */
943	fix0 = _mm_add_ps(fix0,tx);
944	fiy0 = _mm_add_ps(fiy0,ty);
945	fiz0 = _mm_add_ps(fiz0,tz);
946
947	fjx0 = _mm_add_ps(fjx0,tx);
948	fjy0 = _mm_add_ps(fjy0,ty);
949	fjz0 = _mm_add_ps(fjz0,tz);
950
951	/**************************
952	* CALCULATE INTERACTIONS *
953	**************************/
954
955	/* Compute parameters for interactions between i and j atoms */
956	qq10 = _mm_mul_ps(iq1,jq0);
957
958	/* REACTION-FIELD ELECTROSTATICS */
959	felec = _mm_mul_ps(qq10,_mm_sub_ps(_mm_mul_ps(rinv10,rinvsq10),krf2));
960
961	fscal = felec;
962
963	/* Calculate temporary vectorial force */
964	tx = _mm_mul_ps(fscal,dx10);
965	ty = _mm_mul_ps(fscal,dy10);
966	tz = _mm_mul_ps(fscal,dz10);
967
968	/* Update vectorial force */
969	fix1 = _mm_add_ps(fix1,tx);
970	fiy1 = _mm_add_ps(fiy1,ty);
971	fiz1 = _mm_add_ps(fiz1,tz);
972
973	fjx0 = _mm_add_ps(fjx0,tx);
974	fjy0 = _mm_add_ps(fjy0,ty);
975	fjz0 = _mm_add_ps(fjz0,tz);
976
977	/**************************
978	* CALCULATE INTERACTIONS *
979	**************************/
980
981	/* Compute parameters for interactions between i and j atoms */
982	qq20 = _mm_mul_ps(iq2,jq0);
983
984	/* REACTION-FIELD ELECTROSTATICS */
985	felec = _mm_mul_ps(qq20,_mm_sub_ps(_mm_mul_ps(rinv20,rinvsq20),krf2));
986
987	fscal = felec;
988
989	/* Calculate temporary vectorial force */
990	tx = _mm_mul_ps(fscal,dx20);
991	ty = _mm_mul_ps(fscal,dy20);
992	tz = _mm_mul_ps(fscal,dz20);
993
994	/* Update vectorial force */
995	fix2 = _mm_add_ps(fix2,tx);
996	fiy2 = _mm_add_ps(fiy2,ty);
997	fiz2 = _mm_add_ps(fiz2,tz);
998
999	fjx0 = _mm_add_ps(fjx0,tx);
1000	fjy0 = _mm_add_ps(fjy0,ty);
1001	fjz0 = _mm_add_ps(fjz0,tz);
1002
1003	/**************************
1004	* CALCULATE INTERACTIONS *
1005	**************************/
1006
1007	/* Compute parameters for interactions between i and j atoms */
1008	qq30 = _mm_mul_ps(iq3,jq0);
1009
1010	/* REACTION-FIELD ELECTROSTATICS */
1011	felec = _mm_mul_ps(qq30,_mm_sub_ps(_mm_mul_ps(rinv30,rinvsq30),krf2));
1012
1013	fscal = felec;
1014
1015	/* Calculate temporary vectorial force */
1016	tx = _mm_mul_ps(fscal,dx30);
1017	ty = _mm_mul_ps(fscal,dy30);
1018	tz = _mm_mul_ps(fscal,dz30);
1019
1020	/* Update vectorial force */
1021	fix3 = _mm_add_ps(fix3,tx);
1022	fiy3 = _mm_add_ps(fiy3,ty);
1023	fiz3 = _mm_add_ps(fiz3,tz);
1024
1025	fjx0 = _mm_add_ps(fjx0,tx);
1026	fjy0 = _mm_add_ps(fjy0,ty);
1027	fjz0 = _mm_add_ps(fjz0,tz);
1028
1029	fjptrA = f+j_coord_offsetA;
1030	fjptrB = f+j_coord_offsetB;
1031	fjptrC = f+j_coord_offsetC;
1032	fjptrD = f+j_coord_offsetD;
1033
1034	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1035
1036	/* Inner loop uses 129 flops */
1037	}
1038
1039	if(jidx<j_index_end)
1040	{
1041
1042	/* Get j neighbor index, and coordinate index */
1043	jnrlistA = jjnr[jidx];
1044	jnrlistB = jjnr[jidx+1];
1045	jnrlistC = jjnr[jidx+2];
1046	jnrlistD = jjnr[jidx+3];
1047	/* Sign of each element will be negative for non-real atoms.
1048	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1049	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1050	*/
1051	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1052	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
1053	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
1054	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
1055	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
1056	j_coord_offsetA = DIM3*jnrA;
1057	j_coord_offsetB = DIM3*jnrB;
1058	j_coord_offsetC = DIM3*jnrC;
1059	j_coord_offsetD = DIM3*jnrD;
1060
1061	/* load j atom coordinates */
1062	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1063	x+j_coord_offsetC,x+j_coord_offsetD,
1064	&jx0,&jy0,&jz0);
1065
1066	/* Calculate displacement vector */
1067	dx00 = _mm_sub_ps(ix0,jx0);
1068	dy00 = _mm_sub_ps(iy0,jy0);
1069	dz00 = _mm_sub_ps(iz0,jz0);
1070	dx10 = _mm_sub_ps(ix1,jx0);
1071	dy10 = _mm_sub_ps(iy1,jy0);
1072	dz10 = _mm_sub_ps(iz1,jz0);
1073	dx20 = _mm_sub_ps(ix2,jx0);
1074	dy20 = _mm_sub_ps(iy2,jy0);
1075	dz20 = _mm_sub_ps(iz2,jz0);
1076	dx30 = _mm_sub_ps(ix3,jx0);
1077	dy30 = _mm_sub_ps(iy3,jy0);
1078	dz30 = _mm_sub_ps(iz3,jz0);
1079
1080	/* Calculate squared distance and things based on it */
1081	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1082	rsq10 = gmx_mm_calc_rsq_ps(dx10,dy10,dz10);
1083	rsq20 = gmx_mm_calc_rsq_ps(dx20,dy20,dz20);
1084	rsq30 = gmx_mm_calc_rsq_ps(dx30,dy30,dz30);
1085
1086	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1087	rinv10 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq10);
1088	rinv20 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq20);
1089	rinv30 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq30);
1090
1091	rinvsq10 = _mm_mul_ps(rinv10,rinv10);
1092	rinvsq20 = _mm_mul_ps(rinv20,rinv20);
1093	rinvsq30 = _mm_mul_ps(rinv30,rinv30);
1094
1095	/* Load parameters for j particles */
1096	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
1097	charge+jnrC+0,charge+jnrD+0);
1098	vdwjidx0A = 2*vdwtype[jnrA+0];
1099	vdwjidx0B = 2*vdwtype[jnrB+0];
1100	vdwjidx0C = 2*vdwtype[jnrC+0];
1101	vdwjidx0D = 2*vdwtype[jnrD+0];
1102
1103	fjx0 = _mm_setzero_ps();
1104	fjy0 = _mm_setzero_ps();
1105	fjz0 = _mm_setzero_ps();
1106
1107	/**************************
1108	* CALCULATE INTERACTIONS *
1109	**************************/
1110
1111	r00 = _mm_mul_ps(rsq00,rinv00);
1112	r00 = _mm_andnot_ps(dummy_mask,r00);
1113
1114	/* Compute parameters for interactions between i and j atoms */
1115	gmx_mm_load_4pair_swizzle_ps(vdwparam+vdwioffset0+vdwjidx0A,
1116	vdwparam+vdwioffset0+vdwjidx0B,
1117	vdwparam+vdwioffset0+vdwjidx0C,
1118	vdwparam+vdwioffset0+vdwjidx0D,
1119	&c6_00,&c12_00);
1120
1121	/* Calculate table index by multiplying r with table scale and truncate to integer */
1122	rt = _mm_mul_ps(r00,vftabscale);
1123	vfitab = _mm_cvttps_epi32(rt);
1124	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1125	vfitab = _mm_slli_epi32(vfitab,3);
1126
1127	/* CUBIC SPLINE TABLE DISPERSION */
1128	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1129	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1130	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1131	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1132	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1133	Heps = _mm_mul_ps(vfeps,H);
1134	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1135	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1136	fvdw6 = _mm_mul_ps(c6_00,FF);
1137
1138	/* CUBIC SPLINE TABLE REPULSION */
1139	vfitab = _mm_add_epi32(vfitab,ifour);
1140	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1141	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1142	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1143	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1144	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1145	Heps = _mm_mul_ps(vfeps,H);
1146	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1147	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1148	fvdw12 = _mm_mul_ps(c12_00,FF);
1149	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
1150
1151	fscal = fvdw;
1152
1153	fscal = _mm_andnot_ps(dummy_mask,fscal);
1154
1155	/* Calculate temporary vectorial force */
1156	tx = _mm_mul_ps(fscal,dx00);
1157	ty = _mm_mul_ps(fscal,dy00);
1158	tz = _mm_mul_ps(fscal,dz00);
1159
1160	/* Update vectorial force */
1161	fix0 = _mm_add_ps(fix0,tx);
1162	fiy0 = _mm_add_ps(fiy0,ty);
1163	fiz0 = _mm_add_ps(fiz0,tz);
1164
1165	fjx0 = _mm_add_ps(fjx0,tx);
1166	fjy0 = _mm_add_ps(fjy0,ty);
1167	fjz0 = _mm_add_ps(fjz0,tz);
1168
1169	/**************************
1170	* CALCULATE INTERACTIONS *
1171	**************************/
1172
1173	/* Compute parameters for interactions between i and j atoms */
1174	qq10 = _mm_mul_ps(iq1,jq0);
1175
1176	/* REACTION-FIELD ELECTROSTATICS */
1177	felec = _mm_mul_ps(qq10,_mm_sub_ps(_mm_mul_ps(rinv10,rinvsq10),krf2));
1178
1179	fscal = felec;
1180
1181	fscal = _mm_andnot_ps(dummy_mask,fscal);
1182
1183	/* Calculate temporary vectorial force */
1184	tx = _mm_mul_ps(fscal,dx10);
1185	ty = _mm_mul_ps(fscal,dy10);
1186	tz = _mm_mul_ps(fscal,dz10);
1187
1188	/* Update vectorial force */
1189	fix1 = _mm_add_ps(fix1,tx);
1190	fiy1 = _mm_add_ps(fiy1,ty);
1191	fiz1 = _mm_add_ps(fiz1,tz);
1192
1193	fjx0 = _mm_add_ps(fjx0,tx);
1194	fjy0 = _mm_add_ps(fjy0,ty);
1195	fjz0 = _mm_add_ps(fjz0,tz);
1196
1197	/**************************
1198	* CALCULATE INTERACTIONS *
1199	**************************/
1200
1201	/* Compute parameters for interactions between i and j atoms */
1202	qq20 = _mm_mul_ps(iq2,jq0);
1203
1204	/* REACTION-FIELD ELECTROSTATICS */
1205	felec = _mm_mul_ps(qq20,_mm_sub_ps(_mm_mul_ps(rinv20,rinvsq20),krf2));
1206
1207	fscal = felec;
1208
1209	fscal = _mm_andnot_ps(dummy_mask,fscal);
1210
1211	/* Calculate temporary vectorial force */
1212	tx = _mm_mul_ps(fscal,dx20);
1213	ty = _mm_mul_ps(fscal,dy20);
1214	tz = _mm_mul_ps(fscal,dz20);
1215
1216	/* Update vectorial force */
1217	fix2 = _mm_add_ps(fix2,tx);
1218	fiy2 = _mm_add_ps(fiy2,ty);
1219	fiz2 = _mm_add_ps(fiz2,tz);
1220
1221	fjx0 = _mm_add_ps(fjx0,tx);
1222	fjy0 = _mm_add_ps(fjy0,ty);
1223	fjz0 = _mm_add_ps(fjz0,tz);
1224
1225	/**************************
1226	* CALCULATE INTERACTIONS *
1227	**************************/
1228
1229	/* Compute parameters for interactions between i and j atoms */
1230	qq30 = _mm_mul_ps(iq3,jq0);
1231
1232	/* REACTION-FIELD ELECTROSTATICS */
1233	felec = _mm_mul_ps(qq30,_mm_sub_ps(_mm_mul_ps(rinv30,rinvsq30),krf2));
1234
1235	fscal = felec;
1236
1237	fscal = _mm_andnot_ps(dummy_mask,fscal);
1238
1239	/* Calculate temporary vectorial force */
1240	tx = _mm_mul_ps(fscal,dx30);
1241	ty = _mm_mul_ps(fscal,dy30);
1242	tz = _mm_mul_ps(fscal,dz30);
1243
1244	/* Update vectorial force */
1245	fix3 = _mm_add_ps(fix3,tx);
1246	fiy3 = _mm_add_ps(fiy3,ty);
1247	fiz3 = _mm_add_ps(fiz3,tz);
1248
1249	fjx0 = _mm_add_ps(fjx0,tx);
1250	fjy0 = _mm_add_ps(fjy0,ty);
1251	fjz0 = _mm_add_ps(fjz0,tz);
1252
1253	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1254	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1255	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1256	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1257
1258	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,fjx0,fjy0,fjz0);
1259
1260	/* Inner loop uses 130 flops */
1261	}
1262
1263	/* End of innermost loop */
1264
1265	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1266	f+i_coord_offset,fshift+i_shift_offset);
1267
1268	/* Increment number of inner iterations */
1269	inneriter += j_index_end - j_index_start;
1270
1271	/* Outer loop uses 24 flops */
1272	}
1273
1274	/* Increment number of outer iterations */
1275	outeriter += nri;
1276
1277	/* Update outer/inner flops */
1278
1279	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4_F,outeriter24 + inneriter130)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4_F] += outeriter24 + inneriter 130;
1280	}