/home/alexxy/Develop/gromacs/src/gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEwSw_VdwNone_GeomP1P1_sse4_1

Bug Summary

File:	gromacs/gmxlib/nonbonded/nb_kernel_sse4_1_single/nb_kernel_ElecEwSw_VdwNone_GeomP1P1_sse4_1_single.c
Location:	line 515, column 5
Description:	Value stored to 'j_coord_offsetD' is never read

Annotated Source Code

1	/*
2	* This file is part of the GROMACS molecular simulation package.
3	*
4	* Copyright (c) 2012,2013,2014, by the GROMACS development team, led by
5	* Mark Abraham, David van der Spoel, Berk Hess, and Erik Lindahl,
6	* and including many others, as listed in the AUTHORS file in the
7	* top-level source directory and at http://www.gromacs.org.
8	*
9	* GROMACS is free software; you can redistribute it and/or
10	* modify it under the terms of the GNU Lesser General Public License
11	* as published by the Free Software Foundation; either version 2.1
12	* of the License, or (at your option) any later version.
13	*
14	* GROMACS is distributed in the hope that it will be useful,
15	* but WITHOUT ANY WARRANTY; without even the implied warranty of
16	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
17	* Lesser General Public License for more details.
18	*
19	* You should have received a copy of the GNU Lesser General Public
20	* License along with GROMACS; if not, see
21	* http://www.gnu.org/licenses, or write to the Free Software Foundation,
22	* Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
23	*
24	* If you want to redistribute modifications to GROMACS, please
25	* consider that scientific software is very special. Version
26	* control is crucial - bugs must be traceable. We will be happy to
27	* consider code for inclusion in the official distribution, but
28	* derived work must not be called official GROMACS. Details are found
29	* in the README & COPYING files - if they are missing, get the
30	* official version at http://www.gromacs.org.
31	*
32	* To help us fund GROMACS development, we humbly ask that you cite
33	* the research papers on the package. Check out http://www.gromacs.org.
34	*/
35	/*
36	* Note: this file was generated by the GROMACS sse4_1_single kernel generator.
37	*/
38	#ifdef HAVE_CONFIG_H1
39	#include <config.h>
40	#endif
41
42	#include <math.h>
43
44	#include "../nb_kernel.h"
45	#include "types/simple.h"
46	#include "gromacs/math/vec.h"
47	#include "nrnb.h"
48
49	#include "gromacs/simd/math_x86_sse4_1_single.h"
50	#include "kernelutil_x86_sse4_1_single.h"
51
52	/*
53	* Gromacs nonbonded kernel: nb_kernel_ElecEwSw_VdwNone_GeomP1P1_VF_sse4_1_single
54	* Electrostatics interaction: Ewald
55	* VdW interaction: None
56	* Geometry: Particle-Particle
57	* Calculate force/pot: PotentialAndForce
58	*/
59	void
60	nb_kernel_ElecEwSw_VdwNone_GeomP1P1_VF_sse4_1_single
61	(t_nblist * gmx_restrict nlist,
62	rvec * gmx_restrict xx,
63	rvec * gmx_restrict ff,
64	t_forcerec * gmx_restrict fr,
65	t_mdatoms * gmx_restrict mdatoms,
66	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
67	t_nrnb * gmx_restrict nrnb)
68	{
69	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
70	* just 0 for non-waters.
71	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
72	* jnr indices corresponding to data put in the four positions in the SIMD register.
73	*/
74	int i_shift_offset,i_coord_offset,outeriter,inneriter;
75	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
76	int jnrA,jnrB,jnrC,jnrD;
77	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
78	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
79	int iinr,jindex,jjnr,shiftidx,*gid;
80	real rcutoff_scalar;
81	real shiftvec,fshift,x,f;
82	real fjptrA,fjptrB,fjptrC,fjptrD;
83	real scratch[4*DIM3];
84	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
85	int vdwioffset0;
86	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
87	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
88	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
89	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
90	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
91	real *charge;
92	__m128i ewitab;
93	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
94	real *ewtab;
95	__m128 rswitch,swV3,swV4,swV5,swF2,swF3,swF4,d,d2,sw,dsw;
96	real rswitch_scalar,d_scalar;
97	__m128 dummy_mask,cutoff_mask;
98	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
99	__m128 one = _mm_set1_ps(1.0);
100	__m128 two = _mm_set1_ps(2.0);
101	x = xx[0];
102	f = ff[0];
103
104	nri = nlist->nri;
105	iinr = nlist->iinr;
106	jindex = nlist->jindex;
107	jjnr = nlist->jjnr;
108	shiftidx = nlist->shift;
109	gid = nlist->gid;
110	shiftvec = fr->shift_vec[0];
111	fshift = fr->fshift[0];
112	facel = _mm_set1_ps(fr->epsfac);
113	charge = mdatoms->chargeA;
114
115	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
116	ewtab = fr->ic->tabq_coul_FDV0;
117	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
118	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
119
120	/* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
121	rcutoff_scalar = fr->rcoulomb;
122	rcutoff = _mm_set1_ps(rcutoff_scalar);
123	rcutoff2 = _mm_mul_ps(rcutoff,rcutoff);
124
125	rswitch_scalar = fr->rcoulomb_switch;
126	rswitch = _mm_set1_ps(rswitch_scalar);
127	/* Setup switch parameters */
128	d_scalar = rcutoff_scalar-rswitch_scalar;
129	d = _mm_set1_ps(d_scalar);
130	swV3 = _mm_set1_ps(-10.0/(d_scalard_scalard_scalar));
131	swV4 = _mm_set1_ps( 15.0/(d_scalard_scalard_scalar*d_scalar));
132	swV5 = _mm_set1_ps( -6.0/(d_scalard_scalard_scalard_scalard_scalar));
133	swF2 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalar));
134	swF3 = _mm_set1_ps( 60.0/(d_scalard_scalard_scalar*d_scalar));
135	swF4 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalard_scalard_scalar));
136
137	/* Avoid stupid compiler warnings */
138	jnrA = jnrB = jnrC = jnrD = 0;
139	j_coord_offsetA = 0;
140	j_coord_offsetB = 0;
141	j_coord_offsetC = 0;
142	j_coord_offsetD = 0;
143
144	outeriter = 0;
145	inneriter = 0;
146
147	for(iidx=0;iidx<4*DIM3;iidx++)
148	{
149	scratch[iidx] = 0.0;
150	}
151
152	/* Start outer loop over neighborlists */
153	for(iidx=0; iidx<nri; iidx++)
154	{
155	/* Load shift vector for this list */
156	i_shift_offset = DIM3*shiftidx[iidx];
157
158	/* Load limits for loop over neighbors */
159	j_index_start = jindex[iidx];
160	j_index_end = jindex[iidx+1];
161
162	/* Get outer coordinate index */
163	inr = iinr[iidx];
164	i_coord_offset = DIM3*inr;
165
166	/* Load i particle coords and add shift vector */
167	gmx_mm_load_shift_and_1rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,&ix0,&iy0,&iz0);
168
169	fix0 = _mm_setzero_ps();
170	fiy0 = _mm_setzero_ps();
171	fiz0 = _mm_setzero_ps();
172
173	/* Load parameters for i particles */
174	iq0 = _mm_mul_ps(facel,_mm_load1_ps(charge+inr+0));
175
176	/* Reset potential sums */
177	velecsum = _mm_setzero_ps();
178
179	/* Start inner kernel loop */
180	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
181	{
182
183	/* Get j neighbor index, and coordinate index */
184	jnrA = jjnr[jidx];
185	jnrB = jjnr[jidx+1];
186	jnrC = jjnr[jidx+2];
187	jnrD = jjnr[jidx+3];
188	j_coord_offsetA = DIM3*jnrA;
189	j_coord_offsetB = DIM3*jnrB;
190	j_coord_offsetC = DIM3*jnrC;
191	j_coord_offsetD = DIM3*jnrD;
192
193	/* load j atom coordinates */
194	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
195	x+j_coord_offsetC,x+j_coord_offsetD,
196	&jx0,&jy0,&jz0);
197
198	/* Calculate displacement vector */
199	dx00 = _mm_sub_ps(ix0,jx0);
200	dy00 = _mm_sub_ps(iy0,jy0);
201	dz00 = _mm_sub_ps(iz0,jz0);
202
203	/* Calculate squared distance and things based on it */
204	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
205
206	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
207
208	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
209
210	/* Load parameters for j particles */
211	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
212	charge+jnrC+0,charge+jnrD+0);
213
214	/**************************
215	* CALCULATE INTERACTIONS *
216	**************************/
217
218	if (gmx_mm_any_lt(rsq00,rcutoff2))
219	{
220
221	r00 = _mm_mul_ps(rsq00,rinv00);
222
223	/* Compute parameters for interactions between i and j atoms */
224	qq00 = _mm_mul_ps(iq0,jq0);
225
226	/* EWALD ELECTROSTATICS */
227
228	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
229	ewrt = _mm_mul_ps(r00,ewtabscale);
230	ewitab = _mm_cvttps_epi32(ewrt);
231	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
232	ewitab = _mm_slli_epi32(ewitab,2);
233	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
234	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
235	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
236	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
237	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
238	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
239	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
240	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
241	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
242
243	d = _mm_sub_ps(r00,rswitch);
244	d = _mm_max_ps(d,_mm_setzero_ps());
245	d2 = _mm_mul_ps(d,d);
246	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
247
248	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
249
250	/* Evaluate switch function */
251	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
252	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
253	velec = _mm_mul_ps(velec,sw);
254	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
255
256	/* Update potential sum for this i atom from the interaction with this j atom. */
257	velec = _mm_and_ps(velec,cutoff_mask);
258	velecsum = _mm_add_ps(velecsum,velec);
259
260	fscal = felec;
261
262	fscal = _mm_and_ps(fscal,cutoff_mask);
263
264	/* Calculate temporary vectorial force */
265	tx = _mm_mul_ps(fscal,dx00);
266	ty = _mm_mul_ps(fscal,dy00);
267	tz = _mm_mul_ps(fscal,dz00);
268
269	/* Update vectorial force */
270	fix0 = _mm_add_ps(fix0,tx);
271	fiy0 = _mm_add_ps(fiy0,ty);
272	fiz0 = _mm_add_ps(fiz0,tz);
273
274	fjptrA = f+j_coord_offsetA;
275	fjptrB = f+j_coord_offsetB;
276	fjptrC = f+j_coord_offsetC;
277	fjptrD = f+j_coord_offsetD;
278	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,tx,ty,tz);
279
280	}
281
282	/* Inner loop uses 65 flops */
283	}
284
285	if(jidx<j_index_end)
286	{
287
288	/* Get j neighbor index, and coordinate index */
289	jnrlistA = jjnr[jidx];
290	jnrlistB = jjnr[jidx+1];
291	jnrlistC = jjnr[jidx+2];
292	jnrlistD = jjnr[jidx+3];
293	/* Sign of each element will be negative for non-real atoms.
294	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
295	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
296	*/
297	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
298	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
299	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
300	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
301	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
302	j_coord_offsetA = DIM3*jnrA;
303	j_coord_offsetB = DIM3*jnrB;
304	j_coord_offsetC = DIM3*jnrC;
305	j_coord_offsetD = DIM3*jnrD;
306
307	/* load j atom coordinates */
308	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
309	x+j_coord_offsetC,x+j_coord_offsetD,
310	&jx0,&jy0,&jz0);
311
312	/* Calculate displacement vector */
313	dx00 = _mm_sub_ps(ix0,jx0);
314	dy00 = _mm_sub_ps(iy0,jy0);
315	dz00 = _mm_sub_ps(iz0,jz0);
316
317	/* Calculate squared distance and things based on it */
318	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
319
320	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
321
322	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
323
324	/* Load parameters for j particles */
325	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
326	charge+jnrC+0,charge+jnrD+0);
327
328	/**************************
329	* CALCULATE INTERACTIONS *
330	**************************/
331
332	if (gmx_mm_any_lt(rsq00,rcutoff2))
333	{
334
335	r00 = _mm_mul_ps(rsq00,rinv00);
336	r00 = _mm_andnot_ps(dummy_mask,r00);
337
338	/* Compute parameters for interactions between i and j atoms */
339	qq00 = _mm_mul_ps(iq0,jq0);
340
341	/* EWALD ELECTROSTATICS */
342
343	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
344	ewrt = _mm_mul_ps(r00,ewtabscale);
345	ewitab = _mm_cvttps_epi32(ewrt);
346	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
347	ewitab = _mm_slli_epi32(ewitab,2);
348	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
349	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
350	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
351	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
352	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
353	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
354	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
355	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
356	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
357
358	d = _mm_sub_ps(r00,rswitch);
359	d = _mm_max_ps(d,_mm_setzero_ps());
360	d2 = _mm_mul_ps(d,d);
361	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
362
363	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
364
365	/* Evaluate switch function */
366	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
367	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
368	velec = _mm_mul_ps(velec,sw);
369	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
370
371	/* Update potential sum for this i atom from the interaction with this j atom. */
372	velec = _mm_and_ps(velec,cutoff_mask);
373	velec = _mm_andnot_ps(dummy_mask,velec);
374	velecsum = _mm_add_ps(velecsum,velec);
375
376	fscal = felec;
377
378	fscal = _mm_and_ps(fscal,cutoff_mask);
379
380	fscal = _mm_andnot_ps(dummy_mask,fscal);
381
382	/* Calculate temporary vectorial force */
383	tx = _mm_mul_ps(fscal,dx00);
384	ty = _mm_mul_ps(fscal,dy00);
385	tz = _mm_mul_ps(fscal,dz00);
386
387	/* Update vectorial force */
388	fix0 = _mm_add_ps(fix0,tx);
389	fiy0 = _mm_add_ps(fiy0,ty);
390	fiz0 = _mm_add_ps(fiz0,tz);
391
392	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
393	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
394	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
395	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
396	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,tx,ty,tz);
397
398	}
399
400	/* Inner loop uses 66 flops */
401	}
402
403	/* End of innermost loop */
404
405	gmx_mm_update_iforce_1atom_swizzle_ps(fix0,fiy0,fiz0,
406	f+i_coord_offset,fshift+i_shift_offset);
407
408	ggid = gid[iidx];
409	/* Update potential energies */
410	gmx_mm_update_1pot_ps(velecsum,kernel_data->energygrp_elec+ggid);
411
412	/* Increment number of inner iterations */
413	inneriter += j_index_end - j_index_start;
414
415	/* Outer loop uses 8 flops */
416	}
417
418	/* Increment number of outer iterations */
419	outeriter += nri;
420
421	/* Update outer/inner flops */
422
423	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_VF,outeriter8 + inneriter66)(nrnb)->n[eNR_NBKERNEL_ELEC_VF] += outeriter8 + inneriter 66;
424	}
425	/*
426	* Gromacs nonbonded kernel: nb_kernel_ElecEwSw_VdwNone_GeomP1P1_F_sse4_1_single
427	* Electrostatics interaction: Ewald
428	* VdW interaction: None
429	* Geometry: Particle-Particle
430	* Calculate force/pot: Force
431	*/
432	void
433	nb_kernel_ElecEwSw_VdwNone_GeomP1P1_F_sse4_1_single
434	(t_nblist * gmx_restrict nlist,
435	rvec * gmx_restrict xx,
436	rvec * gmx_restrict ff,
437	t_forcerec * gmx_restrict fr,
438	t_mdatoms * gmx_restrict mdatoms,
439	nb_kernel_data_t gmx_unused__attribute__ ((unused)) * gmx_restrict kernel_data,
440	t_nrnb * gmx_restrict nrnb)
441	{
442	/* Suffixes 0,1,2,3 refer to particle indices for waters in the inner or outer loop, or
443	* just 0 for non-waters.
444	* Suffixes A,B,C,D refer to j loop unrolling done with SSE, e.g. for the four different
445	* jnr indices corresponding to data put in the four positions in the SIMD register.
446	*/
447	int i_shift_offset,i_coord_offset,outeriter,inneriter;
448	int j_index_start,j_index_end,jidx,nri,inr,ggid,iidx;
449	int jnrA,jnrB,jnrC,jnrD;
450	int jnrlistA,jnrlistB,jnrlistC,jnrlistD;
451	int j_coord_offsetA,j_coord_offsetB,j_coord_offsetC,j_coord_offsetD;
452	int iinr,jindex,jjnr,shiftidx,*gid;
453	real rcutoff_scalar;
454	real shiftvec,fshift,x,f;
455	real fjptrA,fjptrB,fjptrC,fjptrD;
456	real scratch[4*DIM3];
457	__m128 tx,ty,tz,fscal,rcutoff,rcutoff2,jidxall;
458	int vdwioffset0;
459	__m128 ix0,iy0,iz0,fix0,fiy0,fiz0,iq0,isai0;
460	int vdwjidx0A,vdwjidx0B,vdwjidx0C,vdwjidx0D;
461	__m128 jx0,jy0,jz0,fjx0,fjy0,fjz0,jq0,isaj0;
462	__m128 dx00,dy00,dz00,rsq00,rinv00,rinvsq00,r00,qq00,c6_00,c12_00;
463	__m128 velec,felec,velecsum,facel,crf,krf,krf2;
464	real *charge;
465	__m128i ewitab;
466	__m128 ewtabscale,eweps,sh_ewald,ewrt,ewtabhalfspace,ewtabF,ewtabFn,ewtabD,ewtabV;
467	real *ewtab;
468	__m128 rswitch,swV3,swV4,swV5,swF2,swF3,swF4,d,d2,sw,dsw;
469	real rswitch_scalar,d_scalar;
470	__m128 dummy_mask,cutoff_mask;
471	__m128 signbit = _mm_castsi128_ps( _mm_set1_epi32(0x80000000) );
472	__m128 one = _mm_set1_ps(1.0);
473	__m128 two = _mm_set1_ps(2.0);
474	x = xx[0];
475	f = ff[0];
476
477	nri = nlist->nri;
478	iinr = nlist->iinr;
479	jindex = nlist->jindex;
480	jjnr = nlist->jjnr;
481	shiftidx = nlist->shift;
482	gid = nlist->gid;
483	shiftvec = fr->shift_vec[0];
484	fshift = fr->fshift[0];
485	facel = _mm_set1_ps(fr->epsfac);
486	charge = mdatoms->chargeA;
487
488	sh_ewald = _mm_set1_ps(fr->ic->sh_ewald);
489	ewtab = fr->ic->tabq_coul_FDV0;
490	ewtabscale = _mm_set1_ps(fr->ic->tabq_scale);
491	ewtabhalfspace = _mm_set1_ps(0.5/fr->ic->tabq_scale);
492
493	/* When we use explicit cutoffs the value must be identical for elec and VdW, so use elec as an arbitrary choice */
494	rcutoff_scalar = fr->rcoulomb;
495	rcutoff = _mm_set1_ps(rcutoff_scalar);
496	rcutoff2 = _mm_mul_ps(rcutoff,rcutoff);
497
498	rswitch_scalar = fr->rcoulomb_switch;
499	rswitch = _mm_set1_ps(rswitch_scalar);
500	/* Setup switch parameters */
501	d_scalar = rcutoff_scalar-rswitch_scalar;
502	d = _mm_set1_ps(d_scalar);
503	swV3 = _mm_set1_ps(-10.0/(d_scalard_scalard_scalar));
504	swV4 = _mm_set1_ps( 15.0/(d_scalard_scalard_scalar*d_scalar));
505	swV5 = _mm_set1_ps( -6.0/(d_scalard_scalard_scalard_scalard_scalar));
506	swF2 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalar));
507	swF3 = _mm_set1_ps( 60.0/(d_scalard_scalard_scalar*d_scalar));
508	swF4 = _mm_set1_ps(-30.0/(d_scalard_scalard_scalard_scalard_scalar));
509
510	/* Avoid stupid compiler warnings */
511	jnrA = jnrB = jnrC = jnrD = 0;
512	j_coord_offsetA = 0;
513	j_coord_offsetB = 0;
514	j_coord_offsetC = 0;
515	j_coord_offsetD = 0;
	Value stored to 'j_coord_offsetD' is never read
516
517	outeriter = 0;
518	inneriter = 0;
519
520	for(iidx=0;iidx<4*DIM3;iidx++)
521	{
522	scratch[iidx] = 0.0;
523	}
524
525	/* Start outer loop over neighborlists */
526	for(iidx=0; iidx<nri; iidx++)
527	{
528	/* Load shift vector for this list */
529	i_shift_offset = DIM3*shiftidx[iidx];
530
531	/* Load limits for loop over neighbors */
532	j_index_start = jindex[iidx];
533	j_index_end = jindex[iidx+1];
534
535	/* Get outer coordinate index */
536	inr = iinr[iidx];
537	i_coord_offset = DIM3*inr;
538
539	/* Load i particle coords and add shift vector */
540	gmx_mm_load_shift_and_1rvec_broadcast_ps(shiftvec+i_shift_offset,x+i_coord_offset,&ix0,&iy0,&iz0);
541
542	fix0 = _mm_setzero_ps();
543	fiy0 = _mm_setzero_ps();
544	fiz0 = _mm_setzero_ps();
545
546	/* Load parameters for i particles */
547	iq0 = _mm_mul_ps(facel,_mm_load1_ps(charge+inr+0));
548
549	/* Start inner kernel loop */
550	for(jidx=j_index_start; jidx<j_index_end && jjnr[jidx+3]>=0; jidx+=4)
551	{
552
553	/* Get j neighbor index, and coordinate index */
554	jnrA = jjnr[jidx];
555	jnrB = jjnr[jidx+1];
556	jnrC = jjnr[jidx+2];
557	jnrD = jjnr[jidx+3];
558	j_coord_offsetA = DIM3*jnrA;
559	j_coord_offsetB = DIM3*jnrB;
560	j_coord_offsetC = DIM3*jnrC;
561	j_coord_offsetD = DIM3*jnrD;
562
563	/* load j atom coordinates */
564	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
565	x+j_coord_offsetC,x+j_coord_offsetD,
566	&jx0,&jy0,&jz0);
567
568	/* Calculate displacement vector */
569	dx00 = _mm_sub_ps(ix0,jx0);
570	dy00 = _mm_sub_ps(iy0,jy0);
571	dz00 = _mm_sub_ps(iz0,jz0);
572
573	/* Calculate squared distance and things based on it */
574	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
575
576	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
577
578	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
579
580	/* Load parameters for j particles */
581	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
582	charge+jnrC+0,charge+jnrD+0);
583
584	/**************************
585	* CALCULATE INTERACTIONS *
586	**************************/
587
588	if (gmx_mm_any_lt(rsq00,rcutoff2))
589	{
590
591	r00 = _mm_mul_ps(rsq00,rinv00);
592
593	/* Compute parameters for interactions between i and j atoms */
594	qq00 = _mm_mul_ps(iq0,jq0);
595
596	/* EWALD ELECTROSTATICS */
597
598	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
599	ewrt = _mm_mul_ps(r00,ewtabscale);
600	ewitab = _mm_cvttps_epi32(ewrt);
601	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
602	ewitab = _mm_slli_epi32(ewitab,2);
603	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
604	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
605	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
606	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
607	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
608	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
609	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
610	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
611	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
612
613	d = _mm_sub_ps(r00,rswitch);
614	d = _mm_max_ps(d,_mm_setzero_ps());
615	d2 = _mm_mul_ps(d,d);
616	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
617
618	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
619
620	/* Evaluate switch function */
621	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
622	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
623	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
624
625	fscal = felec;
626
627	fscal = _mm_and_ps(fscal,cutoff_mask);
628
629	/* Calculate temporary vectorial force */
630	tx = _mm_mul_ps(fscal,dx00);
631	ty = _mm_mul_ps(fscal,dy00);
632	tz = _mm_mul_ps(fscal,dz00);
633
634	/* Update vectorial force */
635	fix0 = _mm_add_ps(fix0,tx);
636	fiy0 = _mm_add_ps(fiy0,ty);
637	fiz0 = _mm_add_ps(fiz0,tz);
638
639	fjptrA = f+j_coord_offsetA;
640	fjptrB = f+j_coord_offsetB;
641	fjptrC = f+j_coord_offsetC;
642	fjptrD = f+j_coord_offsetD;
643	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,tx,ty,tz);
644
645	}
646
647	/* Inner loop uses 62 flops */
648	}
649
650	if(jidx<j_index_end)
651	{
652
653	/* Get j neighbor index, and coordinate index */
654	jnrlistA = jjnr[jidx];
655	jnrlistB = jjnr[jidx+1];
656	jnrlistC = jjnr[jidx+2];
657	jnrlistD = jjnr[jidx+3];
658	/* Sign of each element will be negative for non-real atoms.
659	* This mask will be 0xFFFFFFFF for dummy entries and 0x0 for real ones,
660	* so use it as val = _mm_andnot_ps(mask,val) to clear dummy entries.
661	*/
662	dummy_mask = gmx_mm_castsi128_ps_mm_castsi128_ps(_mm_cmplt_epi32(_mm_loadu_si128((const __m128i *)(jjnr+jidx)),_mm_setzero_si128()));
663	jnrA = (jnrlistA>=0) ? jnrlistA : 0;
664	jnrB = (jnrlistB>=0) ? jnrlistB : 0;
665	jnrC = (jnrlistC>=0) ? jnrlistC : 0;
666	jnrD = (jnrlistD>=0) ? jnrlistD : 0;
667	j_coord_offsetA = DIM3*jnrA;
668	j_coord_offsetB = DIM3*jnrB;
669	j_coord_offsetC = DIM3*jnrC;
670	j_coord_offsetD = DIM3*jnrD;
671
672	/* load j atom coordinates */
673	gmx_mm_load_1rvec_4ptr_swizzle_ps(x+j_coord_offsetA,x+j_coord_offsetB,
674	x+j_coord_offsetC,x+j_coord_offsetD,
675	&jx0,&jy0,&jz0);
676
677	/* Calculate displacement vector */
678	dx00 = _mm_sub_ps(ix0,jx0);
679	dy00 = _mm_sub_ps(iy0,jy0);
680	dz00 = _mm_sub_ps(iz0,jz0);
681
682	/* Calculate squared distance and things based on it */
683	rsq00 = gmx_mm_calc_rsq_ps(dx00,dy00,dz00);
684
685	rinv00 = gmx_mm_invsqrt_psgmx_simd_invsqrt_f(rsq00);
686
687	rinvsq00 = _mm_mul_ps(rinv00,rinv00);
688
689	/* Load parameters for j particles */
690	jq0 = gmx_mm_load_4real_swizzle_ps(charge+jnrA+0,charge+jnrB+0,
691	charge+jnrC+0,charge+jnrD+0);
692
693	/**************************
694	* CALCULATE INTERACTIONS *
695	**************************/
696
697	if (gmx_mm_any_lt(rsq00,rcutoff2))
698	{
699
700	r00 = _mm_mul_ps(rsq00,rinv00);
701	r00 = _mm_andnot_ps(dummy_mask,r00);
702
703	/* Compute parameters for interactions between i and j atoms */
704	qq00 = _mm_mul_ps(iq0,jq0);
705
706	/* EWALD ELECTROSTATICS */
707
708	/* Calculate Ewald table index by multiplying r with scale and truncate to integer */
709	ewrt = _mm_mul_ps(r00,ewtabscale);
710	ewitab = _mm_cvttps_epi32(ewrt);
711	eweps = _mm_sub_ps(ewrt,_mm_round_ps(ewrt, _MM_FROUND_FLOOR)__extension__ ({ __m128 __X = (ewrt); (__m128) __builtin_ia32_roundps ((__v4sf)__X, ((0x00 \| 0x01))); }));
712	ewitab = _mm_slli_epi32(ewitab,2);
713	ewtabF = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,0)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(0) & 3];})) );
714	ewtabD = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,1)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(1) & 3];})) );
715	ewtabV = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,2)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(2) & 3];})) );
716	ewtabFn = _mm_load_ps( ewtab + gmx_mm_extract_epi32(ewitab,3)(__extension__ ({ __v4si __a = (__v4si)(ewitab); __a[(3) & 3];})) );
717	_MM_TRANSPOSE4_PS(ewtabF,ewtabD,ewtabV,ewtabFn)do { __m128 tmp3, tmp2, tmp1, tmp0; tmp0 = _mm_unpacklo_ps((ewtabF ), (ewtabD)); tmp2 = _mm_unpacklo_ps((ewtabV), (ewtabFn)); tmp1 = _mm_unpackhi_ps((ewtabF), (ewtabD)); tmp3 = _mm_unpackhi_ps ((ewtabV), (ewtabFn)); (ewtabF) = _mm_movelh_ps(tmp0, tmp2); ( ewtabD) = _mm_movehl_ps(tmp2, tmp0); (ewtabV) = _mm_movelh_ps (tmp1, tmp3); (ewtabFn) = _mm_movehl_ps(tmp3, tmp1); } while ( 0);
718	felec = _mm_add_ps(ewtabF,_mm_mul_ps(eweps,ewtabD));
719	velec = _mm_sub_ps(ewtabV,_mm_mul_ps(_mm_mul_ps(ewtabhalfspace,eweps),_mm_add_ps(ewtabF,felec)));
720	velec = _mm_mul_ps(qq00,_mm_sub_ps(rinv00,velec));
721	felec = _mm_mul_ps(_mm_mul_ps(qq00,rinv00),_mm_sub_ps(rinvsq00,felec));
722
723	d = _mm_sub_ps(r00,rswitch);
724	d = _mm_max_ps(d,_mm_setzero_ps());
725	d2 = _mm_mul_ps(d,d);
726	sw = _mm_add_ps(one,_mm_mul_ps(d2,_mm_mul_ps(d,_mm_add_ps(swV3,_mm_mul_ps(d,_mm_add_ps(swV4,_mm_mul_ps(d,swV5)))))));
727
728	dsw = _mm_mul_ps(d2,_mm_add_ps(swF2,_mm_mul_ps(d,_mm_add_ps(swF3,_mm_mul_ps(d,swF4)))));
729
730	/* Evaluate switch function */
731	/* fscal'=f'/r=-(vsw)'/r=-(v'sw+vdsw)/r=-v'sw/r-vdsw/r=fscalsw-vdsw/r /
732	felec = _mm_sub_ps( _mm_mul_ps(felec,sw) , _mm_mul_ps(rinv00,_mm_mul_ps(velec,dsw)) );
733	cutoff_mask = _mm_cmplt_ps(rsq00,rcutoff2);
734
735	fscal = felec;
736
737	fscal = _mm_and_ps(fscal,cutoff_mask);
738
739	fscal = _mm_andnot_ps(dummy_mask,fscal);
740
741	/* Calculate temporary vectorial force */
742	tx = _mm_mul_ps(fscal,dx00);
743	ty = _mm_mul_ps(fscal,dy00);
744	tz = _mm_mul_ps(fscal,dz00);
745
746	/* Update vectorial force */
747	fix0 = _mm_add_ps(fix0,tx);
748	fiy0 = _mm_add_ps(fiy0,ty);
749	fiz0 = _mm_add_ps(fiz0,tz);
750
751	fjptrA = (jnrlistA>=0) ? f+j_coord_offsetA : scratch;
752	fjptrB = (jnrlistB>=0) ? f+j_coord_offsetB : scratch;
753	fjptrC = (jnrlistC>=0) ? f+j_coord_offsetC : scratch;
754	fjptrD = (jnrlistD>=0) ? f+j_coord_offsetD : scratch;
755	gmx_mm_decrement_1rvec_4ptr_swizzle_ps(fjptrA,fjptrB,fjptrC,fjptrD,tx,ty,tz);
756
757	}
758
759	/* Inner loop uses 63 flops */
760	}
761
762	/* End of innermost loop */
763
764	gmx_mm_update_iforce_1atom_swizzle_ps(fix0,fiy0,fiz0,
765	f+i_coord_offset,fshift+i_shift_offset);
766
767	/* Increment number of inner iterations */
768	inneriter += j_index_end - j_index_start;
769
770	/* Outer loop uses 7 flops */
771	}
772
773	/* Increment number of outer iterations */
774	outeriter += nri;
775
776	/* Update outer/inner flops */
777
778	inc_nrnb(nrnb,eNR_NBKERNEL_ELEC_F,outeriter7 + inneriter63)(nrnb)->n[eNR_NBKERNEL_ELEC_F] += outeriter7 + inneriter 63;
779	}