/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecCoul_VdwCSTab_GeomW4W4_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecCoul_VdwCSTab_GeomW4W4_sse4_1_single.c
Location:	line 1174, column 22
Description:	Value stored to 'one_twelfth' during its initialization is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecCoul_VdwCSTab_GeomW4W4_VF_sse4_1_single
54	* Electrostatics interaction: Coulomb
55	* VdW interaction: CubicSplineTable
56	* Geometry: Water4-Water4
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecCoul_VdwCSTab_GeomW4W4_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwioffset1;
88	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
89	int vdwioffset2;
90	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
91	int vdwioffset3;
92	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
93	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
94	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
95	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
96	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
97	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
98	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
99	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
100	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
101	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
102	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
103	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
104	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
105	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
106	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
107	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
108	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
109	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
110	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
111	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
112	real *charge;
113	int nvdwtype;
114	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
115	int *vdwtype;
116	real *vdwparam;
117	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
118	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
119	__m128i vfitab;
120	__m128i ifour = _mm_set1_epi32(4);
121	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
122	real *vftab;
123	__m128 dummy_mask,cutoff_mask;
124	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
125	__m128 one = _mm_set1_ps(1.0);
126	__m128 two = _mm_set1_ps(2.0);
127	x = xx[0];
128	f = ff[0];
129
130	nri = nlist->nri;
131	iinr = nlist->iinr;
132	jindex = nlist->jindex;
133	jjnr = nlist->jjnr;
134	shiftidx = nlist->shift;
135	gid = nlist->gid;
136	shiftvec = fr->shift_vec[0];
137	fshift = fr->fshift[0];
138	facel = _mm_set1_ps(fr->epsfac);
139	charge = mdatoms->chargeA;
140	nvdwtype = fr->ntype;
141	vdwparam = fr->nbfp;
142	vdwtype = mdatoms->typeA;
143
144	vftab = kernel_data->table_vdw->data;
145	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
146
147	/* Setup water-specific parameters */
148	inr = nlist->iinr[0];
149	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
150	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
151	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
152	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
153
154	jq1 = _mm_set1_ps(charge[inr+1]);
155	jq2 = _mm_set1_ps(charge[inr+2]);
156	jq3 = _mm_set1_ps(charge[inr+3]);
157	vdwjidx0A = 2*vdwtype[inr+0];
158	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
159	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
160	qq11 = _mm_mul_ps(iq1,jq1);
161	qq12 = _mm_mul_ps(iq1,jq2);
162	qq13 = _mm_mul_ps(iq1,jq3);
163	qq21 = _mm_mul_ps(iq2,jq1);
164	qq22 = _mm_mul_ps(iq2,jq2);
165	qq23 = _mm_mul_ps(iq2,jq3);
166	qq31 = _mm_mul_ps(iq3,jq1);
167	qq32 = _mm_mul_ps(iq3,jq2);
168	qq33 = _mm_mul_ps(iq3,jq3);
169
170	/* Avoid stupid compiler warnings */
171	jnrA = jnrB = jnrC = jnrD = 0;
172	j_coord_offsetA = 0;
173	j_coord_offsetB = 0;
174	j_coord_offsetC = 0;
175	j_coord_offsetD = 0;
176
177	outeriter = 0;
178	inneriter = 0;
179
180	for(iidx=0;iidx<4*DIM3;iidx++)
181	{
182	scratch[iidx] = 0.0;
183	}
184
185	/* Start outer loop over neighborlists */
186	for(iidx=0; iidx<nri; iidx++)
187	{
188	/* Load shift vector for this list */
189	i_shift_offset = DIM3*shiftidx[iidx];
190
191	/* Load limits for loop over neighbors */
192	j_index_start = jindex[iidx];
193	j_index_end = jindex[iidx+1];
194
195	/* Get outer coordinate index */
196	inr = iinr[iidx];
197	i_coord_offset = DIM3*inr;
198
199	/* Load i particle coords and add shift vector */
200	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
201	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
202
203	fix0 = _mm_setzero_ps();
204	fiy0 = _mm_setzero_ps();
205	fiz0 = _mm_setzero_ps();
206	fix1 = _mm_setzero_ps();
207	fiy1 = _mm_setzero_ps();
208	fiz1 = _mm_setzero_ps();
209	fix2 = _mm_setzero_ps();
210	fiy2 = _mm_setzero_ps();
211	fiz2 = _mm_setzero_ps();
212	fix3 = _mm_setzero_ps();
213	fiy3 = _mm_setzero_ps();
214	fiz3 = _mm_setzero_ps();
215
216	/* Reset potential sums */
217	velecsum = _mm_setzero_ps();
218	vvdwsum = _mm_setzero_ps();
219
220	/* Start inner kernel loop */
221	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
222	{
223
224	/* Get j neighbor index, and coordinate index */
225	jnrA = jjnr[jidx];
226	jnrB = jjnr[jidx+1];
227	jnrC = jjnr[jidx+2];
228	jnrD = jjnr[jidx+3];
229	j_coord_offsetA = DIM3*jnrA;
230	j_coord_offsetB = DIM3*jnrB;
231	j_coord_offsetC = DIM3*jnrC;
232	j_coord_offsetD = DIM3*jnrD;
233
234	/* load j atom coordinates */
235	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
236	x+j_coord_offsetC,x+j_coord_offsetD,
237	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
238	&jy2,&jz2,&jx3,&jy3,&jz3);
239
240	/* Calculate displacement vector */
241	dx00 = _mm_sub_ps(ix0,jx0);
242	dy00 = _mm_sub_ps(iy0,jy0);
243	dz00 = _mm_sub_ps(iz0,jz0);
244	dx11 = _mm_sub_ps(ix1,jx1);
245	dy11 = _mm_sub_ps(iy1,jy1);
246	dz11 = _mm_sub_ps(iz1,jz1);
247	dx12 = _mm_sub_ps(ix1,jx2);
248	dy12 = _mm_sub_ps(iy1,jy2);
249	dz12 = _mm_sub_ps(iz1,jz2);
250	dx13 = _mm_sub_ps(ix1,jx3);
251	dy13 = _mm_sub_ps(iy1,jy3);
252	dz13 = _mm_sub_ps(iz1,jz3);
253	dx21 = _mm_sub_ps(ix2,jx1);
254	dy21 = _mm_sub_ps(iy2,jy1);
255	dz21 = _mm_sub_ps(iz2,jz1);
256	dx22 = _mm_sub_ps(ix2,jx2);
257	dy22 = _mm_sub_ps(iy2,jy2);
258	dz22 = _mm_sub_ps(iz2,jz2);
259	dx23 = _mm_sub_ps(ix2,jx3);
260	dy23 = _mm_sub_ps(iy2,jy3);
261	dz23 = _mm_sub_ps(iz2,jz3);
262	dx31 = _mm_sub_ps(ix3,jx1);
263	dy31 = _mm_sub_ps(iy3,jy1);
264	dz31 = _mm_sub_ps(iz3,jz1);
265	dx32 = _mm_sub_ps(ix3,jx2);
266	dy32 = _mm_sub_ps(iy3,jy2);
267	dz32 = _mm_sub_ps(iz3,jz2);
268	dx33 = _mm_sub_ps(ix3,jx3);
269	dy33 = _mm_sub_ps(iy3,jy3);
270	dz33 = _mm_sub_ps(iz3,jz3);
271
272	/* Calculate squared distance and things based on it */
273	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
274	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
275	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
276	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
277	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
278	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
279	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
280	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
281	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
282	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
283
284	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
285	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
286	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
287	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
288	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
289	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
290	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
291	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
292	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
293	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
294
295	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
296	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
297	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
298	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
299	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
300	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
301	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
302	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
303	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
304
305	fjx0 = _mm_setzero_ps();
306	fjy0 = _mm_setzero_ps();
307	fjz0 = _mm_setzero_ps();
308	fjx1 = _mm_setzero_ps();
309	fjy1 = _mm_setzero_ps();
310	fjz1 = _mm_setzero_ps();
311	fjx2 = _mm_setzero_ps();
312	fjy2 = _mm_setzero_ps();
313	fjz2 = _mm_setzero_ps();
314	fjx3 = _mm_setzero_ps();
315	fjy3 = _mm_setzero_ps();
316	fjz3 = _mm_setzero_ps();
317
318	/**************************
319	* CALCULATE INTERACTIONS *
320	**************************/
321
322	r00 = _mm_mul_ps(rsq00,rinv00);
323
324	/* Calculate table index by multiplying r with table scale and truncate to integer */
325	rt = _mm_mul_ps(r00,vftabscale);
326	vfitab = _mm_cvttps_epi32(rt);
327	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
328	vfitab = _mm_slli_epi32(vfitab,3);
329
330	/* CUBIC SPLINE TABLE DISPERSION */
331	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
332	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
333	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
334	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
335	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
336	Heps = _mm_mul_ps(vfeps,H);
337	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
338	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
339	vvdw6 = _mm_mul_ps(c6_00,VV);
340	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
341	fvdw6 = _mm_mul_ps(c6_00,FF);
342
343	/* CUBIC SPLINE TABLE REPULSION */
344	vfitab = _mm_add_epi32(vfitab,ifour);
345	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
346	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
347	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
348	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
349	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
350	Heps = _mm_mul_ps(vfeps,H);
351	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
352	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
353	vvdw12 = _mm_mul_ps(c12_00,VV);
354	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
355	fvdw12 = _mm_mul_ps(c12_00,FF);
356	vvdw = _mm_add_ps(vvdw12,vvdw6);
357	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
358
359	/* Update potential sum for this i atom from the interaction with this j atom. */
360	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
361
362	fscal = fvdw;
363
364	/* Calculate temporary vectorial force */
365	tx = _mm_mul_ps(fscal,dx00);
366	ty = _mm_mul_ps(fscal,dy00);
367	tz = _mm_mul_ps(fscal,dz00);
368
369	/* Update vectorial force */
370	fix0 = _mm_add_ps(fix0,tx);
371	fiy0 = _mm_add_ps(fiy0,ty);
372	fiz0 = _mm_add_ps(fiz0,tz);
373
374	fjx0 = _mm_add_ps(fjx0,tx);
375	fjy0 = _mm_add_ps(fjy0,ty);
376	fjz0 = _mm_add_ps(fjz0,tz);
377
378	/**************************
379	* CALCULATE INTERACTIONS *
380	**************************/
381
382	/* COULOMB ELECTROSTATICS */
383	velec = _mm_mul_ps(qq11,rinv11);
384	felec = _mm_mul_ps(velec,rinvsq11);
385
386	/* Update potential sum for this i atom from the interaction with this j atom. */
387	velecsum = _mm_add_ps(velecsum,velec);
388
389	fscal = felec;
390
391	/* Calculate temporary vectorial force */
392	tx = _mm_mul_ps(fscal,dx11);
393	ty = _mm_mul_ps(fscal,dy11);
394	tz = _mm_mul_ps(fscal,dz11);
395
396	/* Update vectorial force */
397	fix1 = _mm_add_ps(fix1,tx);
398	fiy1 = _mm_add_ps(fiy1,ty);
399	fiz1 = _mm_add_ps(fiz1,tz);
400
401	fjx1 = _mm_add_ps(fjx1,tx);
402	fjy1 = _mm_add_ps(fjy1,ty);
403	fjz1 = _mm_add_ps(fjz1,tz);
404
405	/**************************
406	* CALCULATE INTERACTIONS *
407	**************************/
408
409	/* COULOMB ELECTROSTATICS */
410	velec = _mm_mul_ps(qq12,rinv12);
411	felec = _mm_mul_ps(velec,rinvsq12);
412
413	/* Update potential sum for this i atom from the interaction with this j atom. */
414	velecsum = _mm_add_ps(velecsum,velec);
415
416	fscal = felec;
417
418	/* Calculate temporary vectorial force */
419	tx = _mm_mul_ps(fscal,dx12);
420	ty = _mm_mul_ps(fscal,dy12);
421	tz = _mm_mul_ps(fscal,dz12);
422
423	/* Update vectorial force */
424	fix1 = _mm_add_ps(fix1,tx);
425	fiy1 = _mm_add_ps(fiy1,ty);
426	fiz1 = _mm_add_ps(fiz1,tz);
427
428	fjx2 = _mm_add_ps(fjx2,tx);
429	fjy2 = _mm_add_ps(fjy2,ty);
430	fjz2 = _mm_add_ps(fjz2,tz);
431
432	/**************************
433	* CALCULATE INTERACTIONS *
434	**************************/
435
436	/* COULOMB ELECTROSTATICS */
437	velec = _mm_mul_ps(qq13,rinv13);
438	felec = _mm_mul_ps(velec,rinvsq13);
439
440	/* Update potential sum for this i atom from the interaction with this j atom. */
441	velecsum = _mm_add_ps(velecsum,velec);
442
443	fscal = felec;
444
445	/* Calculate temporary vectorial force */
446	tx = _mm_mul_ps(fscal,dx13);
447	ty = _mm_mul_ps(fscal,dy13);
448	tz = _mm_mul_ps(fscal,dz13);
449
450	/* Update vectorial force */
451	fix1 = _mm_add_ps(fix1,tx);
452	fiy1 = _mm_add_ps(fiy1,ty);
453	fiz1 = _mm_add_ps(fiz1,tz);
454
455	fjx3 = _mm_add_ps(fjx3,tx);
456	fjy3 = _mm_add_ps(fjy3,ty);
457	fjz3 = _mm_add_ps(fjz3,tz);
458
459	/**************************
460	* CALCULATE INTERACTIONS *
461	**************************/
462
463	/* COULOMB ELECTROSTATICS */
464	velec = _mm_mul_ps(qq21,rinv21);
465	felec = _mm_mul_ps(velec,rinvsq21);
466
467	/* Update potential sum for this i atom from the interaction with this j atom. */
468	velecsum = _mm_add_ps(velecsum,velec);
469
470	fscal = felec;
471
472	/* Calculate temporary vectorial force */
473	tx = _mm_mul_ps(fscal,dx21);
474	ty = _mm_mul_ps(fscal,dy21);
475	tz = _mm_mul_ps(fscal,dz21);
476
477	/* Update vectorial force */
478	fix2 = _mm_add_ps(fix2,tx);
479	fiy2 = _mm_add_ps(fiy2,ty);
480	fiz2 = _mm_add_ps(fiz2,tz);
481
482	fjx1 = _mm_add_ps(fjx1,tx);
483	fjy1 = _mm_add_ps(fjy1,ty);
484	fjz1 = _mm_add_ps(fjz1,tz);
485
486	/**************************
487	* CALCULATE INTERACTIONS *
488	**************************/
489
490	/* COULOMB ELECTROSTATICS */
491	velec = _mm_mul_ps(qq22,rinv22);
492	felec = _mm_mul_ps(velec,rinvsq22);
493
494	/* Update potential sum for this i atom from the interaction with this j atom. */
495	velecsum = _mm_add_ps(velecsum,velec);
496
497	fscal = felec;
498
499	/* Calculate temporary vectorial force */
500	tx = _mm_mul_ps(fscal,dx22);
501	ty = _mm_mul_ps(fscal,dy22);
502	tz = _mm_mul_ps(fscal,dz22);
503
504	/* Update vectorial force */
505	fix2 = _mm_add_ps(fix2,tx);
506	fiy2 = _mm_add_ps(fiy2,ty);
507	fiz2 = _mm_add_ps(fiz2,tz);
508
509	fjx2 = _mm_add_ps(fjx2,tx);
510	fjy2 = _mm_add_ps(fjy2,ty);
511	fjz2 = _mm_add_ps(fjz2,tz);
512
513	/**************************
514	* CALCULATE INTERACTIONS *
515	**************************/
516
517	/* COULOMB ELECTROSTATICS */
518	velec = _mm_mul_ps(qq23,rinv23);
519	felec = _mm_mul_ps(velec,rinvsq23);
520
521	/* Update potential sum for this i atom from the interaction with this j atom. */
522	velecsum = _mm_add_ps(velecsum,velec);
523
524	fscal = felec;
525
526	/* Calculate temporary vectorial force */
527	tx = _mm_mul_ps(fscal,dx23);
528	ty = _mm_mul_ps(fscal,dy23);
529	tz = _mm_mul_ps(fscal,dz23);
530
531	/* Update vectorial force */
532	fix2 = _mm_add_ps(fix2,tx);
533	fiy2 = _mm_add_ps(fiy2,ty);
534	fiz2 = _mm_add_ps(fiz2,tz);
535
536	fjx3 = _mm_add_ps(fjx3,tx);
537	fjy3 = _mm_add_ps(fjy3,ty);
538	fjz3 = _mm_add_ps(fjz3,tz);
539
540	/**************************
541	* CALCULATE INTERACTIONS *
542	**************************/
543
544	/* COULOMB ELECTROSTATICS */
545	velec = _mm_mul_ps(qq31,rinv31);
546	felec = _mm_mul_ps(velec,rinvsq31);
547
548	/* Update potential sum for this i atom from the interaction with this j atom. */
549	velecsum = _mm_add_ps(velecsum,velec);
550
551	fscal = felec;
552
553	/* Calculate temporary vectorial force */
554	tx = _mm_mul_ps(fscal,dx31);
555	ty = _mm_mul_ps(fscal,dy31);
556	tz = _mm_mul_ps(fscal,dz31);
557
558	/* Update vectorial force */
559	fix3 = _mm_add_ps(fix3,tx);
560	fiy3 = _mm_add_ps(fiy3,ty);
561	fiz3 = _mm_add_ps(fiz3,tz);
562
563	fjx1 = _mm_add_ps(fjx1,tx);
564	fjy1 = _mm_add_ps(fjy1,ty);
565	fjz1 = _mm_add_ps(fjz1,tz);
566
567	/**************************
568	* CALCULATE INTERACTIONS *
569	**************************/
570
571	/* COULOMB ELECTROSTATICS */
572	velec = _mm_mul_ps(qq32,rinv32);
573	felec = _mm_mul_ps(velec,rinvsq32);
574
575	/* Update potential sum for this i atom from the interaction with this j atom. */
576	velecsum = _mm_add_ps(velecsum,velec);
577
578	fscal = felec;
579
580	/* Calculate temporary vectorial force */
581	tx = _mm_mul_ps(fscal,dx32);
582	ty = _mm_mul_ps(fscal,dy32);
583	tz = _mm_mul_ps(fscal,dz32);
584
585	/* Update vectorial force */
586	fix3 = _mm_add_ps(fix3,tx);
587	fiy3 = _mm_add_ps(fiy3,ty);
588	fiz3 = _mm_add_ps(fiz3,tz);
589
590	fjx2 = _mm_add_ps(fjx2,tx);
591	fjy2 = _mm_add_ps(fjy2,ty);
592	fjz2 = _mm_add_ps(fjz2,tz);
593
594	/**************************
595	* CALCULATE INTERACTIONS *
596	**************************/
597
598	/* COULOMB ELECTROSTATICS */
599	velec = _mm_mul_ps(qq33,rinv33);
600	felec = _mm_mul_ps(velec,rinvsq33);
601
602	/* Update potential sum for this i atom from the interaction with this j atom. */
603	velecsum = _mm_add_ps(velecsum,velec);
604
605	fscal = felec;
606
607	/* Calculate temporary vectorial force */
608	tx = _mm_mul_ps(fscal,dx33);
609	ty = _mm_mul_ps(fscal,dy33);
610	tz = _mm_mul_ps(fscal,dz33);
611
612	/* Update vectorial force */
613	fix3 = _mm_add_ps(fix3,tx);
614	fiy3 = _mm_add_ps(fiy3,ty);
615	fiz3 = _mm_add_ps(fiz3,tz);
616
617	fjx3 = _mm_add_ps(fjx3,tx);
618	fjy3 = _mm_add_ps(fjy3,ty);
619	fjz3 = _mm_add_ps(fjz3,tz);
620
621	fjptrA = f+j_coord_offsetA;
622	fjptrB = f+j_coord_offsetB;
623	fjptrC = f+j_coord_offsetC;
624	fjptrD = f+j_coord_offsetD;
625
626	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
627	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
628	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
629
630	/* Inner loop uses 311 flops */
631	}
632
633	if(jidx<j_index_end)
634	{
635
636	/* Get j neighbor index, and coordinate index */
637	jnrlistA = jjnr[jidx];
638	jnrlistB = jjnr[jidx+1];
639	jnrlistC = jjnr[jidx+2];
640	jnrlistD = jjnr[jidx+3];
641	/* Sign of each element will be negative for non-real atoms.
642	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
643	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
644	*/
645	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
646	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
647	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
648	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
649	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
650	j_coord_offsetA = DIM3*jnrA;
651	j_coord_offsetB = DIM3*jnrB;
652	j_coord_offsetC = DIM3*jnrC;
653	j_coord_offsetD = DIM3*jnrD;
654
655	/* load j atom coordinates */
656	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
657	x+j_coord_offsetC,x+j_coord_offsetD,
658	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
659	&jy2,&jz2,&jx3,&jy3,&jz3);
660
661	/* Calculate displacement vector */
662	dx00 = _mm_sub_ps(ix0,jx0);
663	dy00 = _mm_sub_ps(iy0,jy0);
664	dz00 = _mm_sub_ps(iz0,jz0);
665	dx11 = _mm_sub_ps(ix1,jx1);
666	dy11 = _mm_sub_ps(iy1,jy1);
667	dz11 = _mm_sub_ps(iz1,jz1);
668	dx12 = _mm_sub_ps(ix1,jx2);
669	dy12 = _mm_sub_ps(iy1,jy2);
670	dz12 = _mm_sub_ps(iz1,jz2);
671	dx13 = _mm_sub_ps(ix1,jx3);
672	dy13 = _mm_sub_ps(iy1,jy3);
673	dz13 = _mm_sub_ps(iz1,jz3);
674	dx21 = _mm_sub_ps(ix2,jx1);
675	dy21 = _mm_sub_ps(iy2,jy1);
676	dz21 = _mm_sub_ps(iz2,jz1);
677	dx22 = _mm_sub_ps(ix2,jx2);
678	dy22 = _mm_sub_ps(iy2,jy2);
679	dz22 = _mm_sub_ps(iz2,jz2);
680	dx23 = _mm_sub_ps(ix2,jx3);
681	dy23 = _mm_sub_ps(iy2,jy3);
682	dz23 = _mm_sub_ps(iz2,jz3);
683	dx31 = _mm_sub_ps(ix3,jx1);
684	dy31 = _mm_sub_ps(iy3,jy1);
685	dz31 = _mm_sub_ps(iz3,jz1);
686	dx32 = _mm_sub_ps(ix3,jx2);
687	dy32 = _mm_sub_ps(iy3,jy2);
688	dz32 = _mm_sub_ps(iz3,jz2);
689	dx33 = _mm_sub_ps(ix3,jx3);
690	dy33 = _mm_sub_ps(iy3,jy3);
691	dz33 = _mm_sub_ps(iz3,jz3);
692
693	/* Calculate squared distance and things based on it */
694	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
695	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
696	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
697	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
698	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
699	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
700	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
701	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
702	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
703	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
704
705	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
706	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
707	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
708	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
709	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
710	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
711	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
712	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
713	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
714	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
715
716	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
717	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
718	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
719	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
720	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
721	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
722	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
723	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
724	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
725
726	fjx0 = _mm_setzero_ps();
727	fjy0 = _mm_setzero_ps();
728	fjz0 = _mm_setzero_ps();
729	fjx1 = _mm_setzero_ps();
730	fjy1 = _mm_setzero_ps();
731	fjz1 = _mm_setzero_ps();
732	fjx2 = _mm_setzero_ps();
733	fjy2 = _mm_setzero_ps();
734	fjz2 = _mm_setzero_ps();
735	fjx3 = _mm_setzero_ps();
736	fjy3 = _mm_setzero_ps();
737	fjz3 = _mm_setzero_ps();
738
739	/**************************
740	* CALCULATE INTERACTIONS *
741	**************************/
742
743	r00 = _mm_mul_ps(rsq00,rinv00);
744	r00 = _mm_andnot_ps(dummy_mask,r00);
745
746	/* Calculate table index by multiplying r with table scale and truncate to integer */
747	rt = _mm_mul_ps(r00,vftabscale);
748	vfitab = _mm_cvttps_epi32(rt);
749	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
750	vfitab = _mm_slli_epi32(vfitab,3);
751
752	/* CUBIC SPLINE TABLE DISPERSION */
753	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
754	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
755	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
756	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
757	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
758	Heps = _mm_mul_ps(vfeps,H);
759	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
760	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
761	vvdw6 = _mm_mul_ps(c6_00,VV);
762	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
763	fvdw6 = _mm_mul_ps(c6_00,FF);
764
765	/* CUBIC SPLINE TABLE REPULSION */
766	vfitab = _mm_add_epi32(vfitab,ifour);
767	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
768	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
769	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
770	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
771	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
772	Heps = _mm_mul_ps(vfeps,H);
773	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
774	VV = _mm_add_ps(Y,_mm_mul_ps(vfeps,Fp));
775	vvdw12 = _mm_mul_ps(c12_00,VV);
776	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
777	fvdw12 = _mm_mul_ps(c12_00,FF);
778	vvdw = _mm_add_ps(vvdw12,vvdw6);
779	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
780
781	/* Update potential sum for this i atom from the interaction with this j atom. */
782	vvdw = _mm_andnot_ps(dummy_mask,vvdw);
783	vvdwsum = _mm_add_ps(vvdwsum,vvdw);
784
785	fscal = fvdw;
786
787	fscal = _mm_andnot_ps(dummy_mask,fscal);
788
789	/* Calculate temporary vectorial force */
790	tx = _mm_mul_ps(fscal,dx00);
791	ty = _mm_mul_ps(fscal,dy00);
792	tz = _mm_mul_ps(fscal,dz00);
793
794	/* Update vectorial force */
795	fix0 = _mm_add_ps(fix0,tx);
796	fiy0 = _mm_add_ps(fiy0,ty);
797	fiz0 = _mm_add_ps(fiz0,tz);
798
799	fjx0 = _mm_add_ps(fjx0,tx);
800	fjy0 = _mm_add_ps(fjy0,ty);
801	fjz0 = _mm_add_ps(fjz0,tz);
802
803	/**************************
804	* CALCULATE INTERACTIONS *
805	**************************/
806
807	/* COULOMB ELECTROSTATICS */
808	velec = _mm_mul_ps(qq11,rinv11);
809	felec = _mm_mul_ps(velec,rinvsq11);
810
811	/* Update potential sum for this i atom from the interaction with this j atom. */
812	velec = _mm_andnot_ps(dummy_mask,velec);
813	velecsum = _mm_add_ps(velecsum,velec);
814
815	fscal = felec;
816
817	fscal = _mm_andnot_ps(dummy_mask,fscal);
818
819	/* Calculate temporary vectorial force */
820	tx = _mm_mul_ps(fscal,dx11);
821	ty = _mm_mul_ps(fscal,dy11);
822	tz = _mm_mul_ps(fscal,dz11);
823
824	/* Update vectorial force */
825	fix1 = _mm_add_ps(fix1,tx);
826	fiy1 = _mm_add_ps(fiy1,ty);
827	fiz1 = _mm_add_ps(fiz1,tz);
828
829	fjx1 = _mm_add_ps(fjx1,tx);
830	fjy1 = _mm_add_ps(fjy1,ty);
831	fjz1 = _mm_add_ps(fjz1,tz);
832
833	/**************************
834	* CALCULATE INTERACTIONS *
835	**************************/
836
837	/* COULOMB ELECTROSTATICS */
838	velec = _mm_mul_ps(qq12,rinv12);
839	felec = _mm_mul_ps(velec,rinvsq12);
840
841	/* Update potential sum for this i atom from the interaction with this j atom. */
842	velec = _mm_andnot_ps(dummy_mask,velec);
843	velecsum = _mm_add_ps(velecsum,velec);
844
845	fscal = felec;
846
847	fscal = _mm_andnot_ps(dummy_mask,fscal);
848
849	/* Calculate temporary vectorial force */
850	tx = _mm_mul_ps(fscal,dx12);
851	ty = _mm_mul_ps(fscal,dy12);
852	tz = _mm_mul_ps(fscal,dz12);
853
854	/* Update vectorial force */
855	fix1 = _mm_add_ps(fix1,tx);
856	fiy1 = _mm_add_ps(fiy1,ty);
857	fiz1 = _mm_add_ps(fiz1,tz);
858
859	fjx2 = _mm_add_ps(fjx2,tx);
860	fjy2 = _mm_add_ps(fjy2,ty);
861	fjz2 = _mm_add_ps(fjz2,tz);
862
863	/**************************
864	* CALCULATE INTERACTIONS *
865	**************************/
866
867	/* COULOMB ELECTROSTATICS */
868	velec = _mm_mul_ps(qq13,rinv13);
869	felec = _mm_mul_ps(velec,rinvsq13);
870
871	/* Update potential sum for this i atom from the interaction with this j atom. */
872	velec = _mm_andnot_ps(dummy_mask,velec);
873	velecsum = _mm_add_ps(velecsum,velec);
874
875	fscal = felec;
876
877	fscal = _mm_andnot_ps(dummy_mask,fscal);
878
879	/* Calculate temporary vectorial force */
880	tx = _mm_mul_ps(fscal,dx13);
881	ty = _mm_mul_ps(fscal,dy13);
882	tz = _mm_mul_ps(fscal,dz13);
883
884	/* Update vectorial force */
885	fix1 = _mm_add_ps(fix1,tx);
886	fiy1 = _mm_add_ps(fiy1,ty);
887	fiz1 = _mm_add_ps(fiz1,tz);
888
889	fjx3 = _mm_add_ps(fjx3,tx);
890	fjy3 = _mm_add_ps(fjy3,ty);
891	fjz3 = _mm_add_ps(fjz3,tz);
892
893	/**************************
894	* CALCULATE INTERACTIONS *
895	**************************/
896
897	/* COULOMB ELECTROSTATICS */
898	velec = _mm_mul_ps(qq21,rinv21);
899	felec = _mm_mul_ps(velec,rinvsq21);
900
901	/* Update potential sum for this i atom from the interaction with this j atom. */
902	velec = _mm_andnot_ps(dummy_mask,velec);
903	velecsum = _mm_add_ps(velecsum,velec);
904
905	fscal = felec;
906
907	fscal = _mm_andnot_ps(dummy_mask,fscal);
908
909	/* Calculate temporary vectorial force */
910	tx = _mm_mul_ps(fscal,dx21);
911	ty = _mm_mul_ps(fscal,dy21);
912	tz = _mm_mul_ps(fscal,dz21);
913
914	/* Update vectorial force */
915	fix2 = _mm_add_ps(fix2,tx);
916	fiy2 = _mm_add_ps(fiy2,ty);
917	fiz2 = _mm_add_ps(fiz2,tz);
918
919	fjx1 = _mm_add_ps(fjx1,tx);
920	fjy1 = _mm_add_ps(fjy1,ty);
921	fjz1 = _mm_add_ps(fjz1,tz);
922
923	/**************************
924	* CALCULATE INTERACTIONS *
925	**************************/
926
927	/* COULOMB ELECTROSTATICS */
928	velec = _mm_mul_ps(qq22,rinv22);
929	felec = _mm_mul_ps(velec,rinvsq22);
930
931	/* Update potential sum for this i atom from the interaction with this j atom. */
932	velec = _mm_andnot_ps(dummy_mask,velec);
933	velecsum = _mm_add_ps(velecsum,velec);
934
935	fscal = felec;
936
937	fscal = _mm_andnot_ps(dummy_mask,fscal);
938
939	/* Calculate temporary vectorial force */
940	tx = _mm_mul_ps(fscal,dx22);
941	ty = _mm_mul_ps(fscal,dy22);
942	tz = _mm_mul_ps(fscal,dz22);
943
944	/* Update vectorial force */
945	fix2 = _mm_add_ps(fix2,tx);
946	fiy2 = _mm_add_ps(fiy2,ty);
947	fiz2 = _mm_add_ps(fiz2,tz);
948
949	fjx2 = _mm_add_ps(fjx2,tx);
950	fjy2 = _mm_add_ps(fjy2,ty);
951	fjz2 = _mm_add_ps(fjz2,tz);
952
953	/**************************
954	* CALCULATE INTERACTIONS *
955	**************************/
956
957	/* COULOMB ELECTROSTATICS */
958	velec = _mm_mul_ps(qq23,rinv23);
959	felec = _mm_mul_ps(velec,rinvsq23);
960
961	/* Update potential sum for this i atom from the interaction with this j atom. */
962	velec = _mm_andnot_ps(dummy_mask,velec);
963	velecsum = _mm_add_ps(velecsum,velec);
964
965	fscal = felec;
966
967	fscal = _mm_andnot_ps(dummy_mask,fscal);
968
969	/* Calculate temporary vectorial force */
970	tx = _mm_mul_ps(fscal,dx23);
971	ty = _mm_mul_ps(fscal,dy23);
972	tz = _mm_mul_ps(fscal,dz23);
973
974	/* Update vectorial force */
975	fix2 = _mm_add_ps(fix2,tx);
976	fiy2 = _mm_add_ps(fiy2,ty);
977	fiz2 = _mm_add_ps(fiz2,tz);
978
979	fjx3 = _mm_add_ps(fjx3,tx);
980	fjy3 = _mm_add_ps(fjy3,ty);
981	fjz3 = _mm_add_ps(fjz3,tz);
982
983	/**************************
984	* CALCULATE INTERACTIONS *
985	**************************/
986
987	/* COULOMB ELECTROSTATICS */
988	velec = _mm_mul_ps(qq31,rinv31);
989	felec = _mm_mul_ps(velec,rinvsq31);
990
991	/* Update potential sum for this i atom from the interaction with this j atom. */
992	velec = _mm_andnot_ps(dummy_mask,velec);
993	velecsum = _mm_add_ps(velecsum,velec);
994
995	fscal = felec;
996
997	fscal = _mm_andnot_ps(dummy_mask,fscal);
998
999	/* Calculate temporary vectorial force */
1000	tx = _mm_mul_ps(fscal,dx31);
1001	ty = _mm_mul_ps(fscal,dy31);
1002	tz = _mm_mul_ps(fscal,dz31);
1003
1004	/* Update vectorial force */
1005	fix3 = _mm_add_ps(fix3,tx);
1006	fiy3 = _mm_add_ps(fiy3,ty);
1007	fiz3 = _mm_add_ps(fiz3,tz);
1008
1009	fjx1 = _mm_add_ps(fjx1,tx);
1010	fjy1 = _mm_add_ps(fjy1,ty);
1011	fjz1 = _mm_add_ps(fjz1,tz);
1012
1013	/**************************
1014	* CALCULATE INTERACTIONS *
1015	**************************/
1016
1017	/* COULOMB ELECTROSTATICS */
1018	velec = _mm_mul_ps(qq32,rinv32);
1019	felec = _mm_mul_ps(velec,rinvsq32);
1020
1021	/* Update potential sum for this i atom from the interaction with this j atom. */
1022	velec = _mm_andnot_ps(dummy_mask,velec);
1023	velecsum = _mm_add_ps(velecsum,velec);
1024
1025	fscal = felec;
1026
1027	fscal = _mm_andnot_ps(dummy_mask,fscal);
1028
1029	/* Calculate temporary vectorial force */
1030	tx = _mm_mul_ps(fscal,dx32);
1031	ty = _mm_mul_ps(fscal,dy32);
1032	tz = _mm_mul_ps(fscal,dz32);
1033
1034	/* Update vectorial force */
1035	fix3 = _mm_add_ps(fix3,tx);
1036	fiy3 = _mm_add_ps(fiy3,ty);
1037	fiz3 = _mm_add_ps(fiz3,tz);
1038
1039	fjx2 = _mm_add_ps(fjx2,tx);
1040	fjy2 = _mm_add_ps(fjy2,ty);
1041	fjz2 = _mm_add_ps(fjz2,tz);
1042
1043	/**************************
1044	* CALCULATE INTERACTIONS *
1045	**************************/
1046
1047	/* COULOMB ELECTROSTATICS */
1048	velec = _mm_mul_ps(qq33,rinv33);
1049	felec = _mm_mul_ps(velec,rinvsq33);
1050
1051	/* Update potential sum for this i atom from the interaction with this j atom. */
1052	velec = _mm_andnot_ps(dummy_mask,velec);
1053	velecsum = _mm_add_ps(velecsum,velec);
1054
1055	fscal = felec;
1056
1057	fscal = _mm_andnot_ps(dummy_mask,fscal);
1058
1059	/* Calculate temporary vectorial force */
1060	tx = _mm_mul_ps(fscal,dx33);
1061	ty = _mm_mul_ps(fscal,dy33);
1062	tz = _mm_mul_ps(fscal,dz33);
1063
1064	/* Update vectorial force */
1065	fix3 = _mm_add_ps(fix3,tx);
1066	fiy3 = _mm_add_ps(fiy3,ty);
1067	fiz3 = _mm_add_ps(fiz3,tz);
1068
1069	fjx3 = _mm_add_ps(fjx3,tx);
1070	fjy3 = _mm_add_ps(fjy3,ty);
1071	fjz3 = _mm_add_ps(fjz3,tz);
1072
1073	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
1074	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
1075	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
1076	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
1077
1078	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1079	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1080	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1081
1082	/* Inner loop uses 312 flops */
1083	}
1084
1085	/* End of innermost loop */
1086
1087	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
1088	f+i_coord_offset,fshift+i_shift_offset);
1089
1090	ggid = gid[iidx];
1091	/* Update potential energies */
1092	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
1093	gmx_mm_update_1pot_ps(vvdwsum,kernel_data->energygrp_vdw+ggid);
1094
1095	/* Increment number of inner iterations */
1096	inneriter += j_index_end - j_index_start;
1097
1098	/* Outer loop uses 26 flops */
1099	}
1100
1101	/* Increment number of outer iterations */
1102	outeriter += nri;
1103
1104	/* Update outer/inner flops */
1105
1106	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_VF,outeriter26 + inneriter312)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_VF] += outeriter26 + inneriter312;
1107	}
1108	/*
1109	* Gromacs nonbonded kernel: nb_kernel_ElecCoul_VdwCSTab_GeomW4W4_F_sse4_1_single
1110	* Electrostatics interaction: Coulomb
1111	* VdW interaction: CubicSplineTable
1112	* Geometry: Water4-Water4
1113	* Calculate force/pot: Force
1114	*/
1115	void
1116	nb_kernel_ElecCoul_VdwCSTab_GeomW4W4_F_sse4_1_single
1117	(t_nblist * gmx_restrict nlist,
1118	rvec * gmx_restrict xx,
1119	rvec * gmx_restrict ff,
1120	t_forcerec * gmx_restrict fr,
1121	t_mdatoms * gmx_restrict mdatoms,
1122	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
1123	t_nrnb * gmx_restrict nrnb)
1124	{
1125	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
1126	* just 0 for non-waters.
1127	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
1128	* jnr indices corresponding to data put in the four positions in the SIMD register.
1129	*/
1130	int i_shift_offset,i_coord_offset,outeriter,inneriter;
1131	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
1132	int jnrA,jnrB,jnrC,jnrD;
1133	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
1134	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
1135	int iinr,jindex,jjnr,shiftidx,*gid;
1136	real rcutoff_scalar;
1137	real shiftvec,fshift,x,f;
1138	real fjptrA,fjptrB,fjptrC,fjptrD;
1139	real scratch[4*DIM3];
1140	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
1141	int vdwioffset0;
1142	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
1143	int vdwioffset1;
1144	__m128 ix1,iy1,iz1,fix1,fiy1,fiz1,iq1,isai1;
1145	int vdwioffset2;
1146	__m128 ix2,iy2,iz2,fix2,fiy2,fiz2,iq2,isai2;
1147	int vdwioffset3;
1148	__m128 ix3,iy3,iz3,fix3,fiy3,fiz3,iq3,isai3;
1149	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
1150	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
1151	int vdwjidx1A,vdwjidx1B,vdwjidx1C,vdwjidx1D;
1152	__m128 jx1,jy1,jz1,fjx1,fjy1,fjz1,jq1,isaj1;
1153	int vdwjidx2A,vdwjidx2B,vdwjidx2C,vdwjidx2D;
1154	__m128 jx2,jy2,jz2,fjx2,fjy2,fjz2,jq2,isaj2;
1155	int vdwjidx3A,vdwjidx3B,vdwjidx3C,vdwjidx3D;
1156	__m128 jx3,jy3,jz3,fjx3,fjy3,fjz3,jq3,isaj3;
1157	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
1158	__m128 dx11,dy11,dz11,rsq11,rinv11,rinvsq11,r11,qq11,c6_11,c12_11;
1159	__m128 dx12,dy12,dz12,rsq12,rinv12,rinvsq12,r12,qq12,c6_12,c12_12;
1160	__m128 dx13,dy13,dz13,rsq13,rinv13,rinvsq13,r13,qq13,c6_13,c12_13;
1161	__m128 dx21,dy21,dz21,rsq21,rinv21,rinvsq21,r21,qq21,c6_21,c12_21;
1162	__m128 dx22,dy22,dz22,rsq22,rinv22,rinvsq22,r22,qq22,c6_22,c12_22;
1163	__m128 dx23,dy23,dz23,rsq23,rinv23,rinvsq23,r23,qq23,c6_23,c12_23;
1164	__m128 dx31,dy31,dz31,rsq31,rinv31,rinvsq31,r31,qq31,c6_31,c12_31;
1165	__m128 dx32,dy32,dz32,rsq32,rinv32,rinvsq32,r32,qq32,c6_32,c12_32;
1166	__m128 dx33,dy33,dz33,rsq33,rinv33,rinvsq33,r33,qq33,c6_33,c12_33;
1167	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
1168	real *charge;
1169	int nvdwtype;
1170	__m128 rinvsix,rvdw,vvdw,vvdw6,vvdw12,fvdw,fvdw6,fvdw12,vvdwsum,sh_vdw_invrcut6;
1171	int *vdwtype;
1172	real *vdwparam;
1173	__m128 one_sixth = _mm_set1_ps(1.0/6.0);
1174	__m128 one_twelfth = _mm_set1_ps(1.0/12.0);
	Value stored to 'one_twelfth' during its initialization is never read
1175	__m128i vfitab;
1176	__m128i ifour = _mm_set1_epi32(4);
1177	__m128 rt,vfeps,vftabscale,Y,F,G,H,Heps,Fp,VV,FF;
1178	real *vftab;
1179	__m128 dummy_mask,cutoff_mask;
1180	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
1181	__m128 one = _mm_set1_ps(1.0);
1182	__m128 two = _mm_set1_ps(2.0);
1183	x = xx[0];
1184	f = ff[0];
1185
1186	nri = nlist->nri;
1187	iinr = nlist->iinr;
1188	jindex = nlist->jindex;
1189	jjnr = nlist->jjnr;
1190	shiftidx = nlist->shift;
1191	gid = nlist->gid;
1192	shiftvec = fr->shift_vec[0];
1193	fshift = fr->fshift[0];
1194	facel = _mm_set1_ps(fr->epsfac);
1195	charge = mdatoms->chargeA;
1196	nvdwtype = fr->ntype;
1197	vdwparam = fr->nbfp;
1198	vdwtype = mdatoms->typeA;
1199
1200	vftab = kernel_data->table_vdw->data;
1201	vftabscale = _mm_set1_ps(kernel_data->table_vdw->scale);
1202
1203	/* Setup water-specific parameters */
1204	inr = nlist->iinr[0];
1205	iq1 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+1]));
1206	iq2 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+2]));
1207	iq3 = _mm_mul_ps(facel,_mm_set1_ps(charge[inr+3]));
1208	vdwioffset0 = 2nvdwtypevdwtype[inr+0];
1209
1210	jq1 = _mm_set1_ps(charge[inr+1]);
1211	jq2 = _mm_set1_ps(charge[inr+2]);
1212	jq3 = _mm_set1_ps(charge[inr+3]);
1213	vdwjidx0A = 2*vdwtype[inr+0];
1214	c6_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A]);
1215	c12_00 = _mm_set1_ps(vdwparam[vdwioffset0+vdwjidx0A+1]);
1216	qq11 = _mm_mul_ps(iq1,jq1);
1217	qq12 = _mm_mul_ps(iq1,jq2);
1218	qq13 = _mm_mul_ps(iq1,jq3);
1219	qq21 = _mm_mul_ps(iq2,jq1);
1220	qq22 = _mm_mul_ps(iq2,jq2);
1221	qq23 = _mm_mul_ps(iq2,jq3);
1222	qq31 = _mm_mul_ps(iq3,jq1);
1223	qq32 = _mm_mul_ps(iq3,jq2);
1224	qq33 = _mm_mul_ps(iq3,jq3);
1225
1226	/* Avoid stupid compiler warnings */
1227	jnrA = jnrB = jnrC = jnrD = 0;
1228	j_coord_offsetA = 0;
1229	j_coord_offsetB = 0;
1230	j_coord_offsetC = 0;
1231	j_coord_offsetD = 0;
1232
1233	outeriter = 0;
1234	inneriter = 0;
1235
1236	for(iidx=0;iidx<4*DIM3;iidx++)
1237	{
1238	scratch[iidx] = 0.0;
1239	}
1240
1241	/* Start outer loop over neighborlists */
1242	for(iidx=0; iidx<nri; iidx++)
1243	{
1244	/* Load shift vector for this list */
1245	i_shift_offset = DIM3*shiftidx[iidx];
1246
1247	/* Load limits for loop over neighbors */
1248	j_index_start = jindex[iidx];
1249	j_index_end = jindex[iidx+1];
1250
1251	/* Get outer coordinate index */
1252	inr = iinr[iidx];
1253	i_coord_offset = DIM3*inr;
1254
1255	/* Load i particle coords and add shift vector */
1256	gmx_mm_load_shift_and_4rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,
1257	&ix0,&iy0,&iz0,&ix1,&iy1,&iz1,&ix2,&iy2,&iz2,&ix3,&iy3,&iz3);
1258
1259	fix0 = _mm_setzero_ps();
1260	fiy0 = _mm_setzero_ps();
1261	fiz0 = _mm_setzero_ps();
1262	fix1 = _mm_setzero_ps();
1263	fiy1 = _mm_setzero_ps();
1264	fiz1 = _mm_setzero_ps();
1265	fix2 = _mm_setzero_ps();
1266	fiy2 = _mm_setzero_ps();
1267	fiz2 = _mm_setzero_ps();
1268	fix3 = _mm_setzero_ps();
1269	fiy3 = _mm_setzero_ps();
1270	fiz3 = _mm_setzero_ps();
1271
1272	/* Start inner kernel loop */
1273	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
1274	{
1275
1276	/* Get j neighbor index, and coordinate index */
1277	jnrA = jjnr[jidx];
1278	jnrB = jjnr[jidx+1];
1279	jnrC = jjnr[jidx+2];
1280	jnrD = jjnr[jidx+3];
1281	j_coord_offsetA = DIM3*jnrA;
1282	j_coord_offsetB = DIM3*jnrB;
1283	j_coord_offsetC = DIM3*jnrC;
1284	j_coord_offsetD = DIM3*jnrD;
1285
1286	/* load j atom coordinates */
1287	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1288	x+j_coord_offsetC,x+j_coord_offsetD,
1289	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1290	&jy2,&jz2,&jx3,&jy3,&jz3);
1291
1292	/* Calculate displacement vector */
1293	dx00 = _mm_sub_ps(ix0,jx0);
1294	dy00 = _mm_sub_ps(iy0,jy0);
1295	dz00 = _mm_sub_ps(iz0,jz0);
1296	dx11 = _mm_sub_ps(ix1,jx1);
1297	dy11 = _mm_sub_ps(iy1,jy1);
1298	dz11 = _mm_sub_ps(iz1,jz1);
1299	dx12 = _mm_sub_ps(ix1,jx2);
1300	dy12 = _mm_sub_ps(iy1,jy2);
1301	dz12 = _mm_sub_ps(iz1,jz2);
1302	dx13 = _mm_sub_ps(ix1,jx3);
1303	dy13 = _mm_sub_ps(iy1,jy3);
1304	dz13 = _mm_sub_ps(iz1,jz3);
1305	dx21 = _mm_sub_ps(ix2,jx1);
1306	dy21 = _mm_sub_ps(iy2,jy1);
1307	dz21 = _mm_sub_ps(iz2,jz1);
1308	dx22 = _mm_sub_ps(ix2,jx2);
1309	dy22 = _mm_sub_ps(iy2,jy2);
1310	dz22 = _mm_sub_ps(iz2,jz2);
1311	dx23 = _mm_sub_ps(ix2,jx3);
1312	dy23 = _mm_sub_ps(iy2,jy3);
1313	dz23 = _mm_sub_ps(iz2,jz3);
1314	dx31 = _mm_sub_ps(ix3,jx1);
1315	dy31 = _mm_sub_ps(iy3,jy1);
1316	dz31 = _mm_sub_ps(iz3,jz1);
1317	dx32 = _mm_sub_ps(ix3,jx2);
1318	dy32 = _mm_sub_ps(iy3,jy2);
1319	dz32 = _mm_sub_ps(iz3,jz2);
1320	dx33 = _mm_sub_ps(ix3,jx3);
1321	dy33 = _mm_sub_ps(iy3,jy3);
1322	dz33 = _mm_sub_ps(iz3,jz3);
1323
1324	/* Calculate squared distance and things based on it */
1325	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1326	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1327	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1328	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1329	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1330	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1331	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1332	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1333	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1334	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1335
1336	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1337	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1338	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1339	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
1340	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1341	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1342	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
1343	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
1344	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
1345	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
1346
1347	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1348	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1349	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
1350	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1351	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1352	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
1353	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
1354	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
1355	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
1356
1357	fjx0 = _mm_setzero_ps();
1358	fjy0 = _mm_setzero_ps();
1359	fjz0 = _mm_setzero_ps();
1360	fjx1 = _mm_setzero_ps();
1361	fjy1 = _mm_setzero_ps();
1362	fjz1 = _mm_setzero_ps();
1363	fjx2 = _mm_setzero_ps();
1364	fjy2 = _mm_setzero_ps();
1365	fjz2 = _mm_setzero_ps();
1366	fjx3 = _mm_setzero_ps();
1367	fjy3 = _mm_setzero_ps();
1368	fjz3 = _mm_setzero_ps();
1369
1370	/**************************
1371	* CALCULATE INTERACTIONS *
1372	**************************/
1373
1374	r00 = _mm_mul_ps(rsq00,rinv00);
1375
1376	/* Calculate table index by multiplying r with table scale and truncate to integer */
1377	rt = _mm_mul_ps(r00,vftabscale);
1378	vfitab = _mm_cvttps_epi32(rt);
1379	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1380	vfitab = _mm_slli_epi32(vfitab,3);
1381
1382	/* CUBIC SPLINE TABLE DISPERSION */
1383	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1384	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1385	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1386	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1387	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1388	Heps = _mm_mul_ps(vfeps,H);
1389	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1390	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1391	fvdw6 = _mm_mul_ps(c6_00,FF);
1392
1393	/* CUBIC SPLINE TABLE REPULSION */
1394	vfitab = _mm_add_epi32(vfitab,ifour);
1395	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1396	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1397	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1398	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1399	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1400	Heps = _mm_mul_ps(vfeps,H);
1401	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1402	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1403	fvdw12 = _mm_mul_ps(c12_00,FF);
1404	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
1405
1406	fscal = fvdw;
1407
1408	/* Calculate temporary vectorial force */
1409	tx = _mm_mul_ps(fscal,dx00);
1410	ty = _mm_mul_ps(fscal,dy00);
1411	tz = _mm_mul_ps(fscal,dz00);
1412
1413	/* Update vectorial force */
1414	fix0 = _mm_add_ps(fix0,tx);
1415	fiy0 = _mm_add_ps(fiy0,ty);
1416	fiz0 = _mm_add_ps(fiz0,tz);
1417
1418	fjx0 = _mm_add_ps(fjx0,tx);
1419	fjy0 = _mm_add_ps(fjy0,ty);
1420	fjz0 = _mm_add_ps(fjz0,tz);
1421
1422	/**************************
1423	* CALCULATE INTERACTIONS *
1424	**************************/
1425
1426	/* COULOMB ELECTROSTATICS */
1427	velec = _mm_mul_ps(qq11,rinv11);
1428	felec = _mm_mul_ps(velec,rinvsq11);
1429
1430	fscal = felec;
1431
1432	/* Calculate temporary vectorial force */
1433	tx = _mm_mul_ps(fscal,dx11);
1434	ty = _mm_mul_ps(fscal,dy11);
1435	tz = _mm_mul_ps(fscal,dz11);
1436
1437	/* Update vectorial force */
1438	fix1 = _mm_add_ps(fix1,tx);
1439	fiy1 = _mm_add_ps(fiy1,ty);
1440	fiz1 = _mm_add_ps(fiz1,tz);
1441
1442	fjx1 = _mm_add_ps(fjx1,tx);
1443	fjy1 = _mm_add_ps(fjy1,ty);
1444	fjz1 = _mm_add_ps(fjz1,tz);
1445
1446	/**************************
1447	* CALCULATE INTERACTIONS *
1448	**************************/
1449
1450	/* COULOMB ELECTROSTATICS */
1451	velec = _mm_mul_ps(qq12,rinv12);
1452	felec = _mm_mul_ps(velec,rinvsq12);
1453
1454	fscal = felec;
1455
1456	/* Calculate temporary vectorial force */
1457	tx = _mm_mul_ps(fscal,dx12);
1458	ty = _mm_mul_ps(fscal,dy12);
1459	tz = _mm_mul_ps(fscal,dz12);
1460
1461	/* Update vectorial force */
1462	fix1 = _mm_add_ps(fix1,tx);
1463	fiy1 = _mm_add_ps(fiy1,ty);
1464	fiz1 = _mm_add_ps(fiz1,tz);
1465
1466	fjx2 = _mm_add_ps(fjx2,tx);
1467	fjy2 = _mm_add_ps(fjy2,ty);
1468	fjz2 = _mm_add_ps(fjz2,tz);
1469
1470	/**************************
1471	* CALCULATE INTERACTIONS *
1472	**************************/
1473
1474	/* COULOMB ELECTROSTATICS */
1475	velec = _mm_mul_ps(qq13,rinv13);
1476	felec = _mm_mul_ps(velec,rinvsq13);
1477
1478	fscal = felec;
1479
1480	/* Calculate temporary vectorial force */
1481	tx = _mm_mul_ps(fscal,dx13);
1482	ty = _mm_mul_ps(fscal,dy13);
1483	tz = _mm_mul_ps(fscal,dz13);
1484
1485	/* Update vectorial force */
1486	fix1 = _mm_add_ps(fix1,tx);
1487	fiy1 = _mm_add_ps(fiy1,ty);
1488	fiz1 = _mm_add_ps(fiz1,tz);
1489
1490	fjx3 = _mm_add_ps(fjx3,tx);
1491	fjy3 = _mm_add_ps(fjy3,ty);
1492	fjz3 = _mm_add_ps(fjz3,tz);
1493
1494	/**************************
1495	* CALCULATE INTERACTIONS *
1496	**************************/
1497
1498	/* COULOMB ELECTROSTATICS */
1499	velec = _mm_mul_ps(qq21,rinv21);
1500	felec = _mm_mul_ps(velec,rinvsq21);
1501
1502	fscal = felec;
1503
1504	/* Calculate temporary vectorial force */
1505	tx = _mm_mul_ps(fscal,dx21);
1506	ty = _mm_mul_ps(fscal,dy21);
1507	tz = _mm_mul_ps(fscal,dz21);
1508
1509	/* Update vectorial force */
1510	fix2 = _mm_add_ps(fix2,tx);
1511	fiy2 = _mm_add_ps(fiy2,ty);
1512	fiz2 = _mm_add_ps(fiz2,tz);
1513
1514	fjx1 = _mm_add_ps(fjx1,tx);
1515	fjy1 = _mm_add_ps(fjy1,ty);
1516	fjz1 = _mm_add_ps(fjz1,tz);
1517
1518	/**************************
1519	* CALCULATE INTERACTIONS *
1520	**************************/
1521
1522	/* COULOMB ELECTROSTATICS */
1523	velec = _mm_mul_ps(qq22,rinv22);
1524	felec = _mm_mul_ps(velec,rinvsq22);
1525
1526	fscal = felec;
1527
1528	/* Calculate temporary vectorial force */
1529	tx = _mm_mul_ps(fscal,dx22);
1530	ty = _mm_mul_ps(fscal,dy22);
1531	tz = _mm_mul_ps(fscal,dz22);
1532
1533	/* Update vectorial force */
1534	fix2 = _mm_add_ps(fix2,tx);
1535	fiy2 = _mm_add_ps(fiy2,ty);
1536	fiz2 = _mm_add_ps(fiz2,tz);
1537
1538	fjx2 = _mm_add_ps(fjx2,tx);
1539	fjy2 = _mm_add_ps(fjy2,ty);
1540	fjz2 = _mm_add_ps(fjz2,tz);
1541
1542	/**************************
1543	* CALCULATE INTERACTIONS *
1544	**************************/
1545
1546	/* COULOMB ELECTROSTATICS */
1547	velec = _mm_mul_ps(qq23,rinv23);
1548	felec = _mm_mul_ps(velec,rinvsq23);
1549
1550	fscal = felec;
1551
1552	/* Calculate temporary vectorial force */
1553	tx = _mm_mul_ps(fscal,dx23);
1554	ty = _mm_mul_ps(fscal,dy23);
1555	tz = _mm_mul_ps(fscal,dz23);
1556
1557	/* Update vectorial force */
1558	fix2 = _mm_add_ps(fix2,tx);
1559	fiy2 = _mm_add_ps(fiy2,ty);
1560	fiz2 = _mm_add_ps(fiz2,tz);
1561
1562	fjx3 = _mm_add_ps(fjx3,tx);
1563	fjy3 = _mm_add_ps(fjy3,ty);
1564	fjz3 = _mm_add_ps(fjz3,tz);
1565
1566	/**************************
1567	* CALCULATE INTERACTIONS *
1568	**************************/
1569
1570	/* COULOMB ELECTROSTATICS */
1571	velec = _mm_mul_ps(qq31,rinv31);
1572	felec = _mm_mul_ps(velec,rinvsq31);
1573
1574	fscal = felec;
1575
1576	/* Calculate temporary vectorial force */
1577	tx = _mm_mul_ps(fscal,dx31);
1578	ty = _mm_mul_ps(fscal,dy31);
1579	tz = _mm_mul_ps(fscal,dz31);
1580
1581	/* Update vectorial force */
1582	fix3 = _mm_add_ps(fix3,tx);
1583	fiy3 = _mm_add_ps(fiy3,ty);
1584	fiz3 = _mm_add_ps(fiz3,tz);
1585
1586	fjx1 = _mm_add_ps(fjx1,tx);
1587	fjy1 = _mm_add_ps(fjy1,ty);
1588	fjz1 = _mm_add_ps(fjz1,tz);
1589
1590	/**************************
1591	* CALCULATE INTERACTIONS *
1592	**************************/
1593
1594	/* COULOMB ELECTROSTATICS */
1595	velec = _mm_mul_ps(qq32,rinv32);
1596	felec = _mm_mul_ps(velec,rinvsq32);
1597
1598	fscal = felec;
1599
1600	/* Calculate temporary vectorial force */
1601	tx = _mm_mul_ps(fscal,dx32);
1602	ty = _mm_mul_ps(fscal,dy32);
1603	tz = _mm_mul_ps(fscal,dz32);
1604
1605	/* Update vectorial force */
1606	fix3 = _mm_add_ps(fix3,tx);
1607	fiy3 = _mm_add_ps(fiy3,ty);
1608	fiz3 = _mm_add_ps(fiz3,tz);
1609
1610	fjx2 = _mm_add_ps(fjx2,tx);
1611	fjy2 = _mm_add_ps(fjy2,ty);
1612	fjz2 = _mm_add_ps(fjz2,tz);
1613
1614	/**************************
1615	* CALCULATE INTERACTIONS *
1616	**************************/
1617
1618	/* COULOMB ELECTROSTATICS */
1619	velec = _mm_mul_ps(qq33,rinv33);
1620	felec = _mm_mul_ps(velec,rinvsq33);
1621
1622	fscal = felec;
1623
1624	/* Calculate temporary vectorial force */
1625	tx = _mm_mul_ps(fscal,dx33);
1626	ty = _mm_mul_ps(fscal,dy33);
1627	tz = _mm_mul_ps(fscal,dz33);
1628
1629	/* Update vectorial force */
1630	fix3 = _mm_add_ps(fix3,tx);
1631	fiy3 = _mm_add_ps(fiy3,ty);
1632	fiz3 = _mm_add_ps(fiz3,tz);
1633
1634	fjx3 = _mm_add_ps(fjx3,tx);
1635	fjy3 = _mm_add_ps(fjy3,ty);
1636	fjz3 = _mm_add_ps(fjz3,tz);
1637
1638	fjptrA = f+j_coord_offsetA;
1639	fjptrB = f+j_coord_offsetB;
1640	fjptrC = f+j_coord_offsetC;
1641	fjptrD = f+j_coord_offsetD;
1642
1643	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
1644	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
1645	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
1646
1647	/* Inner loop uses 294 flops */
1648	}
1649
1650	if(jidx<j_index_end)
1651	{
1652
1653	/* Get j neighbor index, and coordinate index */
1654	jnrlistA = jjnr[jidx];
1655	jnrlistB = jjnr[jidx+1];
1656	jnrlistC = jjnr[jidx+2];
1657	jnrlistD = jjnr[jidx+3];
1658	/* Sign of each element will be negative for non-real atoms.
1659	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
1660	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
1661	*/
1662	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
1663	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
1664	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
1665	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
1666	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
1667	j_coord_offsetA = DIM3*jnrA;
1668	j_coord_offsetB = DIM3*jnrB;
1669	j_coord_offsetC = DIM3*jnrC;
1670	j_coord_offsetD = DIM3*jnrD;
1671
1672	/* load j atom coordinates */
1673	gmx_mm_load_4rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
1674	x+j_coord_offsetC,x+j_coord_offsetD,
1675	&jx0,&jy0,&jz0,&jx1,&jy1,&jz1,&jx2,
1676	&jy2,&jz2,&jx3,&jy3,&jz3);
1677
1678	/* Calculate displacement vector */
1679	dx00 = _mm_sub_ps(ix0,jx0);
1680	dy00 = _mm_sub_ps(iy0,jy0);
1681	dz00 = _mm_sub_ps(iz0,jz0);
1682	dx11 = _mm_sub_ps(ix1,jx1);
1683	dy11 = _mm_sub_ps(iy1,jy1);
1684	dz11 = _mm_sub_ps(iz1,jz1);
1685	dx12 = _mm_sub_ps(ix1,jx2);
1686	dy12 = _mm_sub_ps(iy1,jy2);
1687	dz12 = _mm_sub_ps(iz1,jz2);
1688	dx13 = _mm_sub_ps(ix1,jx3);
1689	dy13 = _mm_sub_ps(iy1,jy3);
1690	dz13 = _mm_sub_ps(iz1,jz3);
1691	dx21 = _mm_sub_ps(ix2,jx1);
1692	dy21 = _mm_sub_ps(iy2,jy1);
1693	dz21 = _mm_sub_ps(iz2,jz1);
1694	dx22 = _mm_sub_ps(ix2,jx2);
1695	dy22 = _mm_sub_ps(iy2,jy2);
1696	dz22 = _mm_sub_ps(iz2,jz2);
1697	dx23 = _mm_sub_ps(ix2,jx3);
1698	dy23 = _mm_sub_ps(iy2,jy3);
1699	dz23 = _mm_sub_ps(iz2,jz3);
1700	dx31 = _mm_sub_ps(ix3,jx1);
1701	dy31 = _mm_sub_ps(iy3,jy1);
1702	dz31 = _mm_sub_ps(iz3,jz1);
1703	dx32 = _mm_sub_ps(ix3,jx2);
1704	dy32 = _mm_sub_ps(iy3,jy2);
1705	dz32 = _mm_sub_ps(iz3,jz2);
1706	dx33 = _mm_sub_ps(ix3,jx3);
1707	dy33 = _mm_sub_ps(iy3,jy3);
1708	dz33 = _mm_sub_ps(iz3,jz3);
1709
1710	/* Calculate squared distance and things based on it */
1711	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
1712	rsq11 = gmx_mm_calc_rsq_ps(dx11,dy11,dz11);
1713	rsq12 = gmx_mm_calc_rsq_ps(dx12,dy12,dz12);
1714	rsq13 = gmx_mm_calc_rsq_ps(dx13,dy13,dz13);
1715	rsq21 = gmx_mm_calc_rsq_ps(dx21,dy21,dz21);
1716	rsq22 = gmx_mm_calc_rsq_ps(dx22,dy22,dz22);
1717	rsq23 = gmx_mm_calc_rsq_ps(dx23,dy23,dz23);
1718	rsq31 = gmx_mm_calc_rsq_ps(dx31,dy31,dz31);
1719	rsq32 = gmx_mm_calc_rsq_ps(dx32,dy32,dz32);
1720	rsq33 = gmx_mm_calc_rsq_ps(dx33,dy33,dz33);
1721
1722	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
1723	rinv11 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq11);
1724	rinv12 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq12);
1725	rinv13 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq13);
1726	rinv21 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq21);
1727	rinv22 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq22);
1728	rinv23 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq23);
1729	rinv31 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq31);
1730	rinv32 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq32);
1731	rinv33 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq33);
1732
1733	rinvsq11 = _mm_mul_ps(rinv11,rinv11);
1734	rinvsq12 = _mm_mul_ps(rinv12,rinv12);
1735	rinvsq13 = _mm_mul_ps(rinv13,rinv13);
1736	rinvsq21 = _mm_mul_ps(rinv21,rinv21);
1737	rinvsq22 = _mm_mul_ps(rinv22,rinv22);
1738	rinvsq23 = _mm_mul_ps(rinv23,rinv23);
1739	rinvsq31 = _mm_mul_ps(rinv31,rinv31);
1740	rinvsq32 = _mm_mul_ps(rinv32,rinv32);
1741	rinvsq33 = _mm_mul_ps(rinv33,rinv33);
1742
1743	fjx0 = _mm_setzero_ps();
1744	fjy0 = _mm_setzero_ps();
1745	fjz0 = _mm_setzero_ps();
1746	fjx1 = _mm_setzero_ps();
1747	fjy1 = _mm_setzero_ps();
1748	fjz1 = _mm_setzero_ps();
1749	fjx2 = _mm_setzero_ps();
1750	fjy2 = _mm_setzero_ps();
1751	fjz2 = _mm_setzero_ps();
1752	fjx3 = _mm_setzero_ps();
1753	fjy3 = _mm_setzero_ps();
1754	fjz3 = _mm_setzero_ps();
1755
1756	/**************************
1757	* CALCULATE INTERACTIONS *
1758	**************************/
1759
1760	r00 = _mm_mul_ps(rsq00,rinv00);
1761	r00 = _mm_andnot_ps(dummy_mask,r00);
1762
1763	/* Calculate table index by multiplying r with table scale and truncate to integer */
1764	rt = _mm_mul_ps(r00,vftabscale);
1765	vfitab = _mm_cvttps_epi32(rt);
1766	vfeps = _mm_sub_ps(rt,_mm_round_ps(rt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (rt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
1767	vfitab = _mm_slli_epi32(vfitab,3);
1768
1769	/* CUBIC SPLINE TABLE DISPERSION */
1770	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1771	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1772	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1773	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1774	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1775	Heps = _mm_mul_ps(vfeps,H);
1776	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1777	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1778	fvdw6 = _mm_mul_ps(c6_00,FF);
1779
1780	/* CUBIC SPLINE TABLE REPULSION */
1781	vfitab = _mm_add_epi32(vfitab,ifour);
1782	Y = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,0)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(0) & 3];})) );
1783	F = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,1)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(1) & 3];})) );
1784	G = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,2)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(2) & 3];})) );
1785	H = _mm_load_ps( vftab + gmx_mm_extract_epi32(vfitab,3)(__extension__ ({ __v4si __a = (__v4si)(vfitab); __a[(3) & 3];})) );
1786	_MM_TRANSPOSE4_PS(Y,F,G,H)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((Y ), (F)); tmp2 = _mm_unpacklo_ps((G), (H)); tmp1 = _mm_unpackhi_ps ((Y), (F)); tmp3 = _mm_unpackhi_ps((G), (H)); (Y) = _mm_movelh_ps (tmp0, tmp2); (F) = _mm_movehl_ps(tmp2, tmp0); (G) = _mm_movelh_ps (tmp1, tmp3); (H) = _mm_movehl_ps(tmp3, tmp1); } while (0);
1787	Heps = _mm_mul_ps(vfeps,H);
1788	Fp = _mm_add_ps(F,_mm_mul_ps(vfeps,_mm_add_ps(G,Heps)));
1789	FF = _mm_add_ps(Fp,_mm_mul_ps(vfeps,_mm_add_ps(G,_mm_add_ps(Heps,Heps))));
1790	fvdw12 = _mm_mul_ps(c12_00,FF);
1791	fvdw = _mm_xor_ps(signbit,_mm_mul_ps(_mm_add_ps(fvdw6,fvdw12),_mm_mul_ps(vftabscale,rinv00)));
1792
1793	fscal = fvdw;
1794
1795	fscal = _mm_andnot_ps(dummy_mask,fscal);
1796
1797	/* Calculate temporary vectorial force */
1798	tx = _mm_mul_ps(fscal,dx00);
1799	ty = _mm_mul_ps(fscal,dy00);
1800	tz = _mm_mul_ps(fscal,dz00);
1801
1802	/* Update vectorial force */
1803	fix0 = _mm_add_ps(fix0,tx);
1804	fiy0 = _mm_add_ps(fiy0,ty);
1805	fiz0 = _mm_add_ps(fiz0,tz);
1806
1807	fjx0 = _mm_add_ps(fjx0,tx);
1808	fjy0 = _mm_add_ps(fjy0,ty);
1809	fjz0 = _mm_add_ps(fjz0,tz);
1810
1811	/**************************
1812	* CALCULATE INTERACTIONS *
1813	**************************/
1814
1815	/* COULOMB ELECTROSTATICS */
1816	velec = _mm_mul_ps(qq11,rinv11);
1817	felec = _mm_mul_ps(velec,rinvsq11);
1818
1819	fscal = felec;
1820
1821	fscal = _mm_andnot_ps(dummy_mask,fscal);
1822
1823	/* Calculate temporary vectorial force */
1824	tx = _mm_mul_ps(fscal,dx11);
1825	ty = _mm_mul_ps(fscal,dy11);
1826	tz = _mm_mul_ps(fscal,dz11);
1827
1828	/* Update vectorial force */
1829	fix1 = _mm_add_ps(fix1,tx);
1830	fiy1 = _mm_add_ps(fiy1,ty);
1831	fiz1 = _mm_add_ps(fiz1,tz);
1832
1833	fjx1 = _mm_add_ps(fjx1,tx);
1834	fjy1 = _mm_add_ps(fjy1,ty);
1835	fjz1 = _mm_add_ps(fjz1,tz);
1836
1837	/**************************
1838	* CALCULATE INTERACTIONS *
1839	**************************/
1840
1841	/* COULOMB ELECTROSTATICS */
1842	velec = _mm_mul_ps(qq12,rinv12);
1843	felec = _mm_mul_ps(velec,rinvsq12);
1844
1845	fscal = felec;
1846
1847	fscal = _mm_andnot_ps(dummy_mask,fscal);
1848
1849	/* Calculate temporary vectorial force */
1850	tx = _mm_mul_ps(fscal,dx12);
1851	ty = _mm_mul_ps(fscal,dy12);
1852	tz = _mm_mul_ps(fscal,dz12);
1853
1854	/* Update vectorial force */
1855	fix1 = _mm_add_ps(fix1,tx);
1856	fiy1 = _mm_add_ps(fiy1,ty);
1857	fiz1 = _mm_add_ps(fiz1,tz);
1858
1859	fjx2 = _mm_add_ps(fjx2,tx);
1860	fjy2 = _mm_add_ps(fjy2,ty);
1861	fjz2 = _mm_add_ps(fjz2,tz);
1862
1863	/**************************
1864	* CALCULATE INTERACTIONS *
1865	**************************/
1866
1867	/* COULOMB ELECTROSTATICS */
1868	velec = _mm_mul_ps(qq13,rinv13);
1869	felec = _mm_mul_ps(velec,rinvsq13);
1870
1871	fscal = felec;
1872
1873	fscal = _mm_andnot_ps(dummy_mask,fscal);
1874
1875	/* Calculate temporary vectorial force */
1876	tx = _mm_mul_ps(fscal,dx13);
1877	ty = _mm_mul_ps(fscal,dy13);
1878	tz = _mm_mul_ps(fscal,dz13);
1879
1880	/* Update vectorial force */
1881	fix1 = _mm_add_ps(fix1,tx);
1882	fiy1 = _mm_add_ps(fiy1,ty);
1883	fiz1 = _mm_add_ps(fiz1,tz);
1884
1885	fjx3 = _mm_add_ps(fjx3,tx);
1886	fjy3 = _mm_add_ps(fjy3,ty);
1887	fjz3 = _mm_add_ps(fjz3,tz);
1888
1889	/**************************
1890	* CALCULATE INTERACTIONS *
1891	**************************/
1892
1893	/* COULOMB ELECTROSTATICS */
1894	velec = _mm_mul_ps(qq21,rinv21);
1895	felec = _mm_mul_ps(velec,rinvsq21);
1896
1897	fscal = felec;
1898
1899	fscal = _mm_andnot_ps(dummy_mask,fscal);
1900
1901	/* Calculate temporary vectorial force */
1902	tx = _mm_mul_ps(fscal,dx21);
1903	ty = _mm_mul_ps(fscal,dy21);
1904	tz = _mm_mul_ps(fscal,dz21);
1905
1906	/* Update vectorial force */
1907	fix2 = _mm_add_ps(fix2,tx);
1908	fiy2 = _mm_add_ps(fiy2,ty);
1909	fiz2 = _mm_add_ps(fiz2,tz);
1910
1911	fjx1 = _mm_add_ps(fjx1,tx);
1912	fjy1 = _mm_add_ps(fjy1,ty);
1913	fjz1 = _mm_add_ps(fjz1,tz);
1914
1915	/**************************
1916	* CALCULATE INTERACTIONS *
1917	**************************/
1918
1919	/* COULOMB ELECTROSTATICS */
1920	velec = _mm_mul_ps(qq22,rinv22);
1921	felec = _mm_mul_ps(velec,rinvsq22);
1922
1923	fscal = felec;
1924
1925	fscal = _mm_andnot_ps(dummy_mask,fscal);
1926
1927	/* Calculate temporary vectorial force */
1928	tx = _mm_mul_ps(fscal,dx22);
1929	ty = _mm_mul_ps(fscal,dy22);
1930	tz = _mm_mul_ps(fscal,dz22);
1931
1932	/* Update vectorial force */
1933	fix2 = _mm_add_ps(fix2,tx);
1934	fiy2 = _mm_add_ps(fiy2,ty);
1935	fiz2 = _mm_add_ps(fiz2,tz);
1936
1937	fjx2 = _mm_add_ps(fjx2,tx);
1938	fjy2 = _mm_add_ps(fjy2,ty);
1939	fjz2 = _mm_add_ps(fjz2,tz);
1940
1941	/**************************
1942	* CALCULATE INTERACTIONS *
1943	**************************/
1944
1945	/* COULOMB ELECTROSTATICS */
1946	velec = _mm_mul_ps(qq23,rinv23);
1947	felec = _mm_mul_ps(velec,rinvsq23);
1948
1949	fscal = felec;
1950
1951	fscal = _mm_andnot_ps(dummy_mask,fscal);
1952
1953	/* Calculate temporary vectorial force */
1954	tx = _mm_mul_ps(fscal,dx23);
1955	ty = _mm_mul_ps(fscal,dy23);
1956	tz = _mm_mul_ps(fscal,dz23);
1957
1958	/* Update vectorial force */
1959	fix2 = _mm_add_ps(fix2,tx);
1960	fiy2 = _mm_add_ps(fiy2,ty);
1961	fiz2 = _mm_add_ps(fiz2,tz);
1962
1963	fjx3 = _mm_add_ps(fjx3,tx);
1964	fjy3 = _mm_add_ps(fjy3,ty);
1965	fjz3 = _mm_add_ps(fjz3,tz);
1966
1967	/**************************
1968	* CALCULATE INTERACTIONS *
1969	**************************/
1970
1971	/* COULOMB ELECTROSTATICS */
1972	velec = _mm_mul_ps(qq31,rinv31);
1973	felec = _mm_mul_ps(velec,rinvsq31);
1974
1975	fscal = felec;
1976
1977	fscal = _mm_andnot_ps(dummy_mask,fscal);
1978
1979	/* Calculate temporary vectorial force */
1980	tx = _mm_mul_ps(fscal,dx31);
1981	ty = _mm_mul_ps(fscal,dy31);
1982	tz = _mm_mul_ps(fscal,dz31);
1983
1984	/* Update vectorial force */
1985	fix3 = _mm_add_ps(fix3,tx);
1986	fiy3 = _mm_add_ps(fiy3,ty);
1987	fiz3 = _mm_add_ps(fiz3,tz);
1988
1989	fjx1 = _mm_add_ps(fjx1,tx);
1990	fjy1 = _mm_add_ps(fjy1,ty);
1991	fjz1 = _mm_add_ps(fjz1,tz);
1992
1993	/**************************
1994	* CALCULATE INTERACTIONS *
1995	**************************/
1996
1997	/* COULOMB ELECTROSTATICS */
1998	velec = _mm_mul_ps(qq32,rinv32);
1999	felec = _mm_mul_ps(velec,rinvsq32);
2000
2001	fscal = felec;
2002
2003	fscal = _mm_andnot_ps(dummy_mask,fscal);
2004
2005	/* Calculate temporary vectorial force */
2006	tx = _mm_mul_ps(fscal,dx32);
2007	ty = _mm_mul_ps(fscal,dy32);
2008	tz = _mm_mul_ps(fscal,dz32);
2009
2010	/* Update vectorial force */
2011	fix3 = _mm_add_ps(fix3,tx);
2012	fiy3 = _mm_add_ps(fiy3,ty);
2013	fiz3 = _mm_add_ps(fiz3,tz);
2014
2015	fjx2 = _mm_add_ps(fjx2,tx);
2016	fjy2 = _mm_add_ps(fjy2,ty);
2017	fjz2 = _mm_add_ps(fjz2,tz);
2018
2019	/**************************
2020	* CALCULATE INTERACTIONS *
2021	**************************/
2022
2023	/* COULOMB ELECTROSTATICS */
2024	velec = _mm_mul_ps(qq33,rinv33);
2025	felec = _mm_mul_ps(velec,rinvsq33);
2026
2027	fscal = felec;
2028
2029	fscal = _mm_andnot_ps(dummy_mask,fscal);
2030
2031	/* Calculate temporary vectorial force */
2032	tx = _mm_mul_ps(fscal,dx33);
2033	ty = _mm_mul_ps(fscal,dy33);
2034	tz = _mm_mul_ps(fscal,dz33);
2035
2036	/* Update vectorial force */
2037	fix3 = _mm_add_ps(fix3,tx);
2038	fiy3 = _mm_add_ps(fiy3,ty);
2039	fiz3 = _mm_add_ps(fiz3,tz);
2040
2041	fjx3 = _mm_add_ps(fjx3,tx);
2042	fjy3 = _mm_add_ps(fjy3,ty);
2043	fjz3 = _mm_add_ps(fjz3,tz);
2044
2045	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
2046	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
2047	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
2048	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
2049
2050	gmx_mm_decrement_4rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,
2051	fjx0,fjy0,fjz0,fjx1,fjy1,fjz1,
2052	fjx2,fjy2,fjz2,fjx3,fjy3,fjz3);
2053
2054	/* Inner loop uses 295 flops */
2055	}
2056
2057	/* End of innermost loop */
2058
2059	gmx_mm_update_iforce_4atom_swizzle_ps(fix0,fiy0,fiz0,fix1,fiy1,fiz1,fix2,fiy2,fiz2,fix3,fiy3,fiz3,
2060	f+i_coord_offset,fshift+i_shift_offset);
2061
2062	/* Increment number of inner iterations */
2063	inneriter += j_index_end - j_index_start;
2064
2065	/* Outer loop uses 24 flops */
2066	}
2067
2068	/* Increment number of outer iterations */
2069	outeriter += nri;
2070
2071	/* Update outer/inner flops */
2072
2073	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VDW_W4W4_F,outeriter24 + inneriter295)(nrnb)->n[eNR_NBKERNEL_ELEC_VDW_W4W4_F] += outeriter24 + inneriter 295;
2074	}