libavcodec.hg: i386/dsputil

comparison i386/dsputil_mmx.c @ 3574:f549d1e685f7 libavcodec

vorbis simd tweaks

author	lorenm
date	Fri, 11 Aug 2006 18:19:37 +0000
parents	c42c03f3b402
children	f7125bf10892

comparison

equal deleted inserted replaced

-:7c0a476d0fde
+:f549d1e685f7
 );
 }
 }
 static void vector_fmul_3dnow(float *dst, const float *src, int len){
-long i;
+long i = (len-4)*4;
-len >>= 1;
+asm volatile(
-for(i=0; i<len; i++) {
+"1: \n\t"
-asm volatile(
+"movq    (%1,%0), %%mm0 \n\t"
-"movq  %0, %%mm0 \n\t"
+"movq   8(%1,%0), %%mm1 \n\t"
-"pfmul %1, %%mm0 \n\t"
+"pfmul   (%2,%0), %%mm0 \n\t"
-"movq  %%mm0, %0 \n\t"
+"pfmul  8(%2,%0), %%mm1 \n\t"
-:"+m"(dst[i*2])
+"movq   %%mm0,  (%1,%0) \n\t"
-:"m"(src[i*2])
+"movq   %%mm1, 8(%1,%0) \n\t"
-:"memory"
+"sub  $16, %0 \n\t"
-);
+"jge 1b \n\t"
-}
+"femms  \n\t"
-asm volatile("femms");
+:"+r"(i)
+:"r"(dst), "r"(src)
+:"memory"
+);
 }
 static void vector_fmul_sse(float *dst, const float *src, int len){
-long i;
+long i = (len-8)*4;
-len >>= 2;
+asm volatile(
-for(i=0; i<len; i++) {
+"1: \n\t"
-asm volatile(
+"movaps    (%1,%0), %%xmm0 \n\t"
-"movaps %0, %%xmm0 \n\t"
+"movaps  16(%1,%0), %%xmm1 \n\t"
-"mulps  %1, %%xmm0 \n\t"
+"mulps     (%2,%0), %%xmm0 \n\t"
-"movaps %%xmm0, %0 \n\t"
+"mulps   16(%2,%0), %%xmm1 \n\t"
-:"+m"(dst[i*4])
+"movaps  %%xmm0,   (%1,%0) \n\t"
-:"m"(src[i*4])
+"movaps  %%xmm1, 16(%1,%0) \n\t"
-:"memory"
+"sub  $32, %0 \n\t"
-);
+"jge 1b \n\t"
-}
+:"+r"(i)
+:"r"(dst), "r"(src)
+:"memory"
+);
 }
 static void vector_fmul_reverse_3dnow2(float *dst, const float *src0, const float *src1, int len){
 long i = len*4-16;
 asm volatile(
 );
 }
 static void vector_fmul_add_add_3dnow(float *dst, const float *src0, const float *src1,
 const float *src2, int src3, int len, int step){
-long i;
+long i = (len-4)*4;
 if(step == 2 && src3 == 0){
-i = (len-4)*4;
 dst += (len-4)*2;
 asm volatile(
 "1: \n\t"
 "movq   (%2,%0),  %%mm0 \n\t"
 "movq  8(%2,%0),  %%mm1 \n\t"
 :"r"(src0), "r"(src1), "r"(src2)
 :"memory"
 );
 }
 else if(step == 1 && src3 == 0){
-for(i=0; i<len; i+=2){
+asm volatile(
-asm volatile(
+"1: \n\t"
-"movq      %1, %%mm0 \n\t"
+"movq    (%2,%0), %%mm0 \n\t"
-"pfmul     %2, %%mm0 \n\t"
+"movq   8(%2,%0), %%mm1 \n\t"
-"pfadd     %3, %%mm0 \n\t"
+"pfmul   (%3,%0), %%mm0 \n\t"
-"movq   %%mm0, %0    \n\t"
+"pfmul  8(%3,%0), %%mm1 \n\t"
-:"=m"(dst[i])
+"pfadd   (%4,%0), %%mm0 \n\t"
-:"m"(src0[i]), "m"(src1[i]), "m"(src2[i])
+"pfadd  8(%4,%0), %%mm1 \n\t"
-);
+"movq  %%mm0,   (%1,%0) \n\t"
-}
+"movq  %%mm1,  8(%1,%0) \n\t"
+"sub  $16, %0 \n\t"
+"jge  1b \n\t"
+:"+r"(i)
+:"r"(dst), "r"(src0), "r"(src1), "r"(src2)
+:"memory"
+);
 }
 else
 ff_vector_fmul_add_add_c(dst, src0, src1, src2, src3, len, step);
 asm volatile("femms");
 }
 static void vector_fmul_add_add_sse(float *dst, const float *src0, const float *src1,
-const float *src2, float src3, int len, int step){
+const float *src2, int src3, int len, int step){
-long i;
+long i = (len-8)*4;
 if(step == 2 && src3 == 0){
-i = (len-8)*4;
 dst += (len-8)*2;
 asm volatile(
 "1: \n\t"
 "movaps   (%2,%0), %%xmm0 \n\t"
 "movaps 16(%2,%0), %%xmm1 \n\t"
 :"r"(src0), "r"(src1), "r"(src2)
 :"memory"
 );
 }
 else if(step == 1 && src3 == 0){
-for(i=0; i<len; i+=4){
+asm volatile(
-asm volatile(
+"1: \n\t"
-"movaps     %1, %%xmm0 \n\t"
+"movaps   (%2,%0), %%xmm0 \n\t"
-"mulps      %2, %%xmm0 \n\t"
+"movaps 16(%2,%0), %%xmm1 \n\t"
-"addps      %3, %%xmm0 \n\t"
+"mulps    (%3,%0), %%xmm0 \n\t"
-"movaps %%xmm0, %0     \n\t"
+"mulps  16(%3,%0), %%xmm1 \n\t"
-:"=m"(dst[i])
+"addps    (%4,%0), %%xmm0 \n\t"
-:"m"(src0[i]), "m"(src1[i]), "m"(src2[i])
+"addps  16(%4,%0), %%xmm1 \n\t"
-);
+"movaps %%xmm0,   (%1,%0) \n\t"
-}
+"movaps %%xmm1, 16(%1,%0) \n\t"
+"sub  $32, %0 \n\t"
+"jge  1b \n\t"
+:"+r"(i)
+:"r"(dst), "r"(src0), "r"(src1), "r"(src2)
+:"memory"
+);
 }
 else
 ff_vector_fmul_add_add_c(dst, src0, src1, src2, src3, len, step);
 }
 c->float_to_int16 = float_to_int16_sse;
 c->vector_fmul_reverse = vector_fmul_reverse_sse;
 c->vector_fmul_add_add = vector_fmul_add_add_sse;
 }
 if(mm_flags & MM_3DNOW)
-c->vector_fmul_add_add = vector_fmul_add_add_3dnow; // faster than sse2
+c->vector_fmul_add_add = vector_fmul_add_add_3dnow; // faster than sse
 }
 #ifdef CONFIG_ENCODERS
 dsputil_init_pix_mmx(c, avctx);
 #endif //CONFIG_ENCODERS

Mercurial > libavcodec.hg

comparison i386/dsputil_mmx.c @ 3574:f549d1e685f7 libavcodec