libavcodec.hg: i386/dsputil

annotate i386/dsputil_mmx.c @ 2918:13dcd22f0816 libavcodec

Add DTS_INC to the CFLAGS for DTS. This is only set by external configure programs (such as the MPlayer one) and thus somewhat hackish. We already do this for things like MLIB_INC and IPP_INC so it should be acceptable.

author	diego
date	Sun, 23 Oct 2005 18:16:53 +0000
parents	3c79bc9f3aa9
children	d772011258ec

rev	line source
0 986e461dc072 Initial revision glantau parents: diff changeset	1 /*
986e461dc072 Initial revision glantau parents: diff changeset	2 * MMX optimized DSP utils
429 718a22dc121f license/copyright change glantau parents: 422 diff changeset	3 * Copyright (c) 2000, 2001 Fabrice Bellard.
1739 07a484280a82 copyright year update of the files i touched and remembered, things look annoyingly unmaintained otherwise michael parents: 1729 diff changeset	4 * Copyright (c) 2002-2004 Michael Niedermayer <michaelni@gmx.at>
0 986e461dc072 Initial revision glantau parents: diff changeset	5 *
429 718a22dc121f license/copyright change glantau parents: 422 diff changeset	6 * This library is free software; you can redistribute it and/or
718a22dc121f license/copyright change glantau parents: 422 diff changeset	7 * modify it under the terms of the GNU Lesser General Public
718a22dc121f license/copyright change glantau parents: 422 diff changeset	8 * License as published by the Free Software Foundation; either
718a22dc121f license/copyright change glantau parents: 422 diff changeset	9 * version 2 of the License, or (at your option) any later version.
0 986e461dc072 Initial revision glantau parents: diff changeset	10 *
429 718a22dc121f license/copyright change glantau parents: 422 diff changeset	11 * This library is distributed in the hope that it will be useful,
0 986e461dc072 Initial revision glantau parents: diff changeset	12 * but WITHOUT ANY WARRANTY; without even the implied warranty of
429 718a22dc121f license/copyright change glantau parents: 422 diff changeset	13 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
718a22dc121f license/copyright change glantau parents: 422 diff changeset	14 * Lesser General Public License for more details.
0 986e461dc072 Initial revision glantau parents: diff changeset	15 *
429 718a22dc121f license/copyright change glantau parents: 422 diff changeset	16 * You should have received a copy of the GNU Lesser General Public
718a22dc121f license/copyright change glantau parents: 422 diff changeset	17 * License along with this library; if not, write to the Free Software
718a22dc121f license/copyright change glantau parents: 422 diff changeset	18 * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
0 986e461dc072 Initial revision glantau parents: diff changeset	19 *
986e461dc072 Initial revision glantau parents: diff changeset	20 * MMX optimization by Nick Kurshev <nickols_k@mail.ru>
986e461dc072 Initial revision glantau parents: diff changeset	21 */
986e461dc072 Initial revision glantau parents: diff changeset	22
986e461dc072 Initial revision glantau parents: diff changeset	23 #include "../dsputil.h"
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	24 #include "../simple_idct.h"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	25 #include "../mpegvideo.h"
1984 ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	26 #include "mmx.h"
0 986e461dc072 Initial revision glantau parents: diff changeset	27
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	28 //#undef NDEBUG
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	29 //#include <assert.h>
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	30
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	31 extern const uint8_t ff_h263_loop_filter_strength[32];
2868 666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	32 extern void ff_idct_xvid_mmx(short *block);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	33 extern void ff_idct_xvid_mmx2(short *block);
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	34
5 4479bcab253e suppressed no longer needed emms() glantau parents: 0 diff changeset	35 int mm_flags; /* multimedia extension flags */
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	36
0 986e461dc072 Initial revision glantau parents: diff changeset	37 /* pixel operations */
1845 3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	38 static const uint64_t mm_bone attribute_used __attribute__ ((aligned(8))) = 0x0101010101010101ULL;
3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	39 static const uint64_t mm_wone attribute_used __attribute__ ((aligned(8))) = 0x0001000100010001ULL;
3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	40 static const uint64_t mm_wtwo attribute_used __attribute__ ((aligned(8))) = 0x0002000200020002ULL;
0 986e461dc072 Initial revision glantau parents: diff changeset	41
1845 3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	42 static const uint64_t ff_pw_20 attribute_used __attribute__ ((aligned(8))) = 0x0014001400140014ULL;
3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	43 static const uint64_t ff_pw_3 attribute_used __attribute__ ((aligned(8))) = 0x0003000300030003ULL;
2633 72e6ffa1f3a5 MMX for H.264 deblocking filter lorenm parents: 2505 diff changeset	44 static const uint64_t ff_pw_4 attribute_used __attribute__ ((aligned(8))) = 0x0004000400040004ULL;
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	45 static const uint64_t ff_pw_5 attribute_used __attribute__ ((aligned(8))) = 0x0005000500050005ULL;
1845 3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	46 static const uint64_t ff_pw_16 attribute_used __attribute__ ((aligned(8))) = 0x0010001000100010ULL;
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	47 static const uint64_t ff_pw_32 attribute_used __attribute__ ((aligned(8))) = 0x0020002000200020ULL;
2754 a49f140179e9 sort H.264 mmx dsp functions into their own file lorenm parents: 2753 diff changeset	48 static const uint64_t ff_pw_64 attribute_used __attribute__ ((aligned(8))) = 0x0040004000400040ULL;
1845 3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	49 static const uint64_t ff_pw_15 attribute_used __attribute__ ((aligned(8))) = 0x000F000F000F000FULL;
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	50
2707 360024d31dab H.264 deblocking optimizations (mmx for chroma_bS4 case, convert existing cases to 8-bit math) lorenm parents: 2696 diff changeset	51 static const uint64_t ff_pb_3F attribute_used __attribute__ ((aligned(8))) = 0x3F3F3F3F3F3F3F3FULL;
1845 3054613980a8 attribute used patch by (mitya at school dot ioffe dot ru (Dmitry Baryshkov)) michael parents: 1784 diff changeset	52 static const uint64_t ff_pb_FC attribute_used __attribute__ ((aligned(8))) = 0xFCFCFCFCFCFCFCFCULL;
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	53
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	54 #define JUMPALIGN() __asm __volatile (".balign 8"::)
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	55 #define MOVQ_ZERO(regd) __asm __volatile ("pxor %%" #regd ", %%" #regd ::)
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	56
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	57 #define MOVQ_WONE(regd) \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	58 __asm __volatile ( \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	59 "pcmpeqd %%" #regd ", %%" #regd " \n\t" \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	60 "psrlw $15, %%" #regd ::)
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	61
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	62 #define MOVQ_BFE(regd) \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	63 __asm __volatile ( \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	64 "pcmpeqd %%" #regd ", %%" #regd " \n\t"\
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	65 "paddb %%" #regd ", %%" #regd " \n\t" ::)
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	66
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	67 #ifndef PIC
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	68 #define MOVQ_BONE(regd) __asm __volatile ("movq %0, %%" #regd " \n\t" ::"m"(mm_bone))
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	69 #define MOVQ_WTWO(regd) __asm __volatile ("movq %0, %%" #regd " \n\t" ::"m"(mm_wtwo))
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	70 #else
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	71 // for shared library it's better to use this way for accessing constants
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	72 // pcmpeqd -> -1
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	73 #define MOVQ_BONE(regd) \
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	74 __asm __volatile ( \
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	75 "pcmpeqd %%" #regd ", %%" #regd " \n\t" \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	76 "psrlw $15, %%" #regd " \n\t" \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	77 "packuswb %%" #regd ", %%" #regd " \n\t" ::)
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	78
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	79 #define MOVQ_WTWO(regd) \
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	80 __asm __volatile ( \
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	81 "pcmpeqd %%" #regd ", %%" #regd " \n\t" \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	82 "psrlw $15, %%" #regd " \n\t" \
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	83 "psllw $1, %%" #regd " \n\t"::)
387 b8f3affeb8e1 shared lib support (req by kabi) ... michaelni parents: 386 diff changeset	84
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	85 #endif
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	86
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	87 // using regr as temporary and for the output result
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	88 // first argument is unmodifed and second is trashed
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	89 // regfe is supposed to contain 0xfefefefefefefefe
d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	90 #define PAVGB_MMX_NO_RND(rega, regb, regr, regfe) \
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	91 "movq " #rega ", " #regr " \n\t"\
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	92 "pand " #regb ", " #regr " \n\t"\
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	93 "pxor " #rega ", " #regb " \n\t"\
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	94 "pand " #regfe "," #regb " \n\t"\
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	95 "psrlq $1, " #regb " \n\t"\
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	96 "paddb " #regb ", " #regr " \n\t"
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	97
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	98 #define PAVGB_MMX(rega, regb, regr, regfe) \
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	99 "movq " #rega ", " #regr " \n\t"\
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	100 "por " #regb ", " #regr " \n\t"\
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	101 "pxor " #rega ", " #regb " \n\t"\
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	102 "pand " #regfe "," #regb " \n\t"\
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	103 "psrlq $1, " #regb " \n\t"\
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	104 "psubb " #regb ", " #regr " \n\t"
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	105
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	106 // mm6 is supposed to contain 0xfefefefefefefefe
446 efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	107 #define PAVGBP_MMX_NO_RND(rega, regb, regr, regc, regd, regp) \
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	108 "movq " #rega ", " #regr " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	109 "movq " #regc ", " #regp " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	110 "pand " #regb ", " #regr " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	111 "pand " #regd ", " #regp " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	112 "pxor " #rega ", " #regb " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	113 "pxor " #regc ", " #regd " \n\t"\
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	114 "pand %%mm6, " #regb " \n\t"\
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	115 "pand %%mm6, " #regd " \n\t"\
446 efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	116 "psrlq $1, " #regb " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	117 "psrlq $1, " #regd " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	118 "paddb " #regb ", " #regr " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	119 "paddb " #regd ", " #regp " \n\t"
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	120
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	121 #define PAVGBP_MMX(rega, regb, regr, regc, regd, regp) \
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	122 "movq " #rega ", " #regr " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	123 "movq " #regc ", " #regp " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	124 "por " #regb ", " #regr " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	125 "por " #regd ", " #regp " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	126 "pxor " #rega ", " #regb " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	127 "pxor " #regc ", " #regd " \n\t"\
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	128 "pand %%mm6, " #regb " \n\t"\
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	129 "pand %%mm6, " #regd " \n\t"\
446 efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	130 "psrlq $1, " #regd " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	131 "psrlq $1, " #regb " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	132 "psubb " #regb ", " #regr " \n\t"\
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	133 "psubb " #regd ", " #regp " \n\t"
efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	134
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	135 /***********************************/
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	136 /* MMX no rounding */
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	137 #define DEF(x, y) x ## _no_rnd_ ## y ##_mmx
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	138 #define SET_RND MOVQ_WONE
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	139 #define PAVGBP(a, b, c, d, e, f) PAVGBP_MMX_NO_RND(a, b, c, d, e, f)
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	140 #define PAVGB(a, b, c, e) PAVGB_MMX_NO_RND(a, b, c, e)
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	141
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	142 #include "dsputil_mmx_rnd.h"
444 a5edef76dac6 * new mmx code - based upon http://aggregate.org/MAGIC kabi parents: 438 diff changeset	143
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	144 #undef DEF
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	145 #undef SET_RND
446 efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	146 #undef PAVGBP
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	147 #undef PAVGB
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	148 /***********************************/
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	149 /* MMX rounding */
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	150
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	151 #define DEF(x, y) x ## _ ## y ##_mmx
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	152 #define SET_RND MOVQ_WTWO
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	153 #define PAVGBP(a, b, c, d, e, f) PAVGBP_MMX(a, b, c, d, e, f)
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	154 #define PAVGB(a, b, c, e) PAVGB_MMX(a, b, c, e)
445 62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	155
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	156 #include "dsputil_mmx_rnd.h"
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	157
62c01dbdc1e0 * code with new PAVGB for MMX only CPU splited into separate file kabi parents: 444 diff changeset	158 #undef DEF
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 446 diff changeset	159 #undef SET_RND
446 efe0c0d40577 * reenabled original xy2 put routine - rounding error is really bad with kabi parents: 445 diff changeset	160 #undef PAVGBP
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	161 #undef PAVGB
387 b8f3affeb8e1 shared lib support (req by kabi) ... michaelni parents: 386 diff changeset	162
0 986e461dc072 Initial revision glantau parents: diff changeset	163 /***********************************/
986e461dc072 Initial revision glantau parents: diff changeset	164 /* 3Dnow specific */
986e461dc072 Initial revision glantau parents: diff changeset	165
986e461dc072 Initial revision glantau parents: diff changeset	166 #define DEF(x) x ## _3dnow
986e461dc072 Initial revision glantau parents: diff changeset	167 /* for Athlons PAVGUSB is prefered */
986e461dc072 Initial revision glantau parents: diff changeset	168 #define PAVGB "pavgusb"
986e461dc072 Initial revision glantau parents: diff changeset	169
986e461dc072 Initial revision glantau parents: diff changeset	170 #include "dsputil_mmx_avg.h"
986e461dc072 Initial revision glantau parents: diff changeset	171
986e461dc072 Initial revision glantau parents: diff changeset	172 #undef DEF
986e461dc072 Initial revision glantau parents: diff changeset	173 #undef PAVGB
986e461dc072 Initial revision glantau parents: diff changeset	174
986e461dc072 Initial revision glantau parents: diff changeset	175 /***********************************/
986e461dc072 Initial revision glantau parents: diff changeset	176 /* MMX2 specific */
986e461dc072 Initial revision glantau parents: diff changeset	177
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	178 #define DEF(x) x ## _mmx2
0 986e461dc072 Initial revision glantau parents: diff changeset	179
986e461dc072 Initial revision glantau parents: diff changeset	180 /* Introduced only in MMX2 set */
986e461dc072 Initial revision glantau parents: diff changeset	181 #define PAVGB "pavgb"
986e461dc072 Initial revision glantau parents: diff changeset	182
986e461dc072 Initial revision glantau parents: diff changeset	183 #include "dsputil_mmx_avg.h"
986e461dc072 Initial revision glantau parents: diff changeset	184
986e461dc072 Initial revision glantau parents: diff changeset	185 #undef DEF
986e461dc072 Initial revision glantau parents: diff changeset	186 #undef PAVGB
986e461dc072 Initial revision glantau parents: diff changeset	187
986e461dc072 Initial revision glantau parents: diff changeset	188 /***********************************/
986e461dc072 Initial revision glantau parents: diff changeset	189 /* standard MMX */
986e461dc072 Initial revision glantau parents: diff changeset	190
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	191 #ifdef CONFIG_ENCODERS
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	192 static void get_pixels_mmx(DCTELEM block, const uint8_t pixels, int line_size)
0 986e461dc072 Initial revision glantau parents: diff changeset	193 {
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	194 asm volatile(
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	195 "mov $-128, %%"REG_a" \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	196 "pxor %%mm7, %%mm7 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	197 ".balign 16 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	198 "1: \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	199 "movq (%0), %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	200 "movq (%0, %2), %%mm2 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	201 "movq %%mm0, %%mm1 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	202 "movq %%mm2, %%mm3 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	203 "punpcklbw %%mm7, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	204 "punpckhbw %%mm7, %%mm1 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	205 "punpcklbw %%mm7, %%mm2 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	206 "punpckhbw %%mm7, %%mm3 \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	207 "movq %%mm0, (%1, %%"REG_a")\n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	208 "movq %%mm1, 8(%1, %%"REG_a")\n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	209 "movq %%mm2, 16(%1, %%"REG_a")\n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	210 "movq %%mm3, 24(%1, %%"REG_a")\n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	211 "add %3, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	212 "add $32, %%"REG_a" \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	213 "js 1b \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	214 : "+r" (pixels)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	215 : "r" (block+64), "r" ((long)line_size), "r" ((long)line_size*2)
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	216 : "%"REG_a
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	217 );
0 986e461dc072 Initial revision glantau parents: diff changeset	218 }
986e461dc072 Initial revision glantau parents: diff changeset	219
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	220 static inline void diff_pixels_mmx(DCTELEM block, const uint8_t s1, const uint8_t *s2, int stride)
324 9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	221 {
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	222 asm volatile(
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 342 diff changeset	223 "pxor %%mm7, %%mm7 \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	224 "mov $-128, %%"REG_a" \n\t"
324 9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	225 ".balign 16 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	226 "1: \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	227 "movq (%0), %%mm0 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	228 "movq (%1), %%mm2 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	229 "movq %%mm0, %%mm1 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	230 "movq %%mm2, %%mm3 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	231 "punpcklbw %%mm7, %%mm0 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	232 "punpckhbw %%mm7, %%mm1 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	233 "punpcklbw %%mm7, %%mm2 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	234 "punpckhbw %%mm7, %%mm3 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	235 "psubw %%mm2, %%mm0 \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	236 "psubw %%mm3, %%mm1 \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	237 "movq %%mm0, (%2, %%"REG_a")\n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	238 "movq %%mm1, 8(%2, %%"REG_a")\n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	239 "add %3, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	240 "add %3, %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	241 "add $16, %%"REG_a" \n\t"
324 9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	242 "jnz 1b \n\t"
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	243 : "+r" (s1), "+r" (s2)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	244 : "r" (block+64), "r" ((long)stride)
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	245 : "%"REG_a
324 9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	246 );
9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	247 }
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	248 #endif //CONFIG_ENCODERS
324 9c6f056f0e41 fixed mpeg4 time stuff on encoding michaelni parents: 296 diff changeset	249
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	250 void put_pixels_clamped_mmx(const DCTELEM block, uint8_t pixels, int line_size)
0 986e461dc072 Initial revision glantau parents: diff changeset	251 {
986e461dc072 Initial revision glantau parents: diff changeset	252 const DCTELEM *p;
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	253 uint8_t *pix;
0 986e461dc072 Initial revision glantau parents: diff changeset	254
986e461dc072 Initial revision glantau parents: diff changeset	255 /* read the pixels */
986e461dc072 Initial revision glantau parents: diff changeset	256 p = block;
986e461dc072 Initial revision glantau parents: diff changeset	257 pix = pixels;
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	258 /* unrolled loop */
0 986e461dc072 Initial revision glantau parents: diff changeset	259 __asm __volatile(
151 ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	260 "movq %3, %%mm0\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	261 "movq 8%3, %%mm1\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	262 "movq 16%3, %%mm2\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	263 "movq 24%3, %%mm3\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	264 "movq 32%3, %%mm4\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	265 "movq 40%3, %%mm5\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	266 "movq 48%3, %%mm6\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	267 "movq 56%3, %%mm7\n\t"
0 986e461dc072 Initial revision glantau parents: diff changeset	268 "packuswb %%mm1, %%mm0\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	269 "packuswb %%mm3, %%mm2\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	270 "packuswb %%mm5, %%mm4\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	271 "packuswb %%mm7, %%mm6\n\t"
151 ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	272 "movq %%mm0, (%0)\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	273 "movq %%mm2, (%0, %1)\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	274 "movq %%mm4, (%0, %1, 2)\n\t"
ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	275 "movq %%mm6, (%0, %2)\n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	276 ::"r" (pix), "r" ((long)line_size), "r" ((long)line_size3), "m"(p)
0 986e461dc072 Initial revision glantau parents: diff changeset	277 :"memory");
986e461dc072 Initial revision glantau parents: diff changeset	278 pix += line_size*4;
986e461dc072 Initial revision glantau parents: diff changeset	279 p += 32;
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	280
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	281 // if here would be an exact copy of the code above
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	282 // compiler would generate some very strange code
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	283 // thus using "r"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	284 __asm __volatile(
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	285 "movq (%3), %%mm0\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	286 "movq 8(%3), %%mm1\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	287 "movq 16(%3), %%mm2\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	288 "movq 24(%3), %%mm3\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	289 "movq 32(%3), %%mm4\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	290 "movq 40(%3), %%mm5\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	291 "movq 48(%3), %%mm6\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	292 "movq 56(%3), %%mm7\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	293 "packuswb %%mm1, %%mm0\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	294 "packuswb %%mm3, %%mm2\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	295 "packuswb %%mm5, %%mm4\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	296 "packuswb %%mm7, %%mm6\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	297 "movq %%mm0, (%0)\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	298 "movq %%mm2, (%0, %1)\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	299 "movq %%mm4, (%0, %1, 2)\n\t"
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	300 "movq %%mm6, (%0, %2)\n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	301 ::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "r"(p)
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	302 :"memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	303 }
986e461dc072 Initial revision glantau parents: diff changeset	304
2753 ba8ecddf5598 adding a few const michael parents: 2745 diff changeset	305 static const unsigned char __align8 vector128[8] =
1985 b2bc62fdecc0 move the 0x80 vector outside of the function, thus saving the compiler melanson parents: 1984 diff changeset	306 { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80 };
b2bc62fdecc0 move the 0x80 vector outside of the function, thus saving the compiler melanson parents: 1984 diff changeset	307
1984 ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	308 void put_signed_pixels_clamped_mmx(const DCTELEM block, uint8_t pixels, int line_size)
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	309 {
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	310 int i;
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	311
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	312 movq_m2r(*vector128, mm1);
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	313 for (i = 0; i < 8; i++) {
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	314 movq_m2r(*(block), mm0);
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	315 packsswb_m2r(*(block + 4), mm0);
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	316 block += 8;
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	317 paddb_r2r(mm1, mm0);
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	318 movq_r2m(mm0, *pixels);
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	319 pixels += line_size;
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	320 }
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	321 }
ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	322
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	323 void add_pixels_clamped_mmx(const DCTELEM block, uint8_t pixels, int line_size)
0 986e461dc072 Initial revision glantau parents: diff changeset	324 {
986e461dc072 Initial revision glantau parents: diff changeset	325 const DCTELEM *p;
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	326 uint8_t *pix;
0 986e461dc072 Initial revision glantau parents: diff changeset	327 int i;
986e461dc072 Initial revision glantau parents: diff changeset	328
986e461dc072 Initial revision glantau parents: diff changeset	329 /* read the pixels */
986e461dc072 Initial revision glantau parents: diff changeset	330 p = block;
986e461dc072 Initial revision glantau parents: diff changeset	331 pix = pixels;
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	332 MOVQ_ZERO(mm7);
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	333 i = 4;
342 8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	334 do {
0 986e461dc072 Initial revision glantau parents: diff changeset	335 __asm __volatile(
342 8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	336 "movq (%2), %%mm0\n\t"
8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	337 "movq 8(%2), %%mm1\n\t"
8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	338 "movq 16(%2), %%mm2\n\t"
8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	339 "movq 24(%2), %%mm3\n\t"
0 986e461dc072 Initial revision glantau parents: diff changeset	340 "movq %0, %%mm4\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	341 "movq %1, %%mm6\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	342 "movq %%mm4, %%mm5\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	343 "punpcklbw %%mm7, %%mm4\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	344 "punpckhbw %%mm7, %%mm5\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	345 "paddsw %%mm4, %%mm0\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	346 "paddsw %%mm5, %%mm1\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	347 "movq %%mm6, %%mm5\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	348 "punpcklbw %%mm7, %%mm6\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	349 "punpckhbw %%mm7, %%mm5\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	350 "paddsw %%mm6, %%mm2\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	351 "paddsw %%mm5, %%mm3\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	352 "packuswb %%mm1, %%mm0\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	353 "packuswb %%mm3, %%mm2\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	354 "movq %%mm0, %0\n\t"
986e461dc072 Initial revision glantau parents: diff changeset	355 "movq %%mm2, %1\n\t"
151 ae0516eadae2 fixed gcc-3.0.x compilation (by Michael Niedermayer) nickols_k parents: 42 diff changeset	356 :"+m"(pix), "+m"((pix+line_size))
342 8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	357 :"r"(p)
0 986e461dc072 Initial revision glantau parents: diff changeset	358 :"memory");
986e461dc072 Initial revision glantau parents: diff changeset	359 pix += line_size*2;
986e461dc072 Initial revision glantau parents: diff changeset	360 p += 16;
342 8635a7036395 * fixes problem with -funroll-loops and buggy gcc compiler kabi parents: 324 diff changeset	361 } while (--i);
0 986e461dc072 Initial revision glantau parents: diff changeset	362 }
986e461dc072 Initial revision glantau parents: diff changeset	363
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	364 static void put_pixels4_mmx(uint8_t block, const uint8_t pixels, int line_size, int h)
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	365 {
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	366 __asm __volatile(
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	367 "lea (%3, %3), %%"REG_a" \n\t"
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	368 ".balign 8 \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	369 "1: \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	370 "movd (%1), %%mm0 \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	371 "movd (%1, %3), %%mm1 \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	372 "movd %%mm0, (%2) \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	373 "movd %%mm1, (%2, %3) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	374 "add %%"REG_a", %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	375 "add %%"REG_a", %2 \n\t"
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	376 "movd (%1), %%mm0 \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	377 "movd (%1, %3), %%mm1 \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	378 "movd %%mm0, (%2) \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	379 "movd %%mm1, (%2, %3) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	380 "add %%"REG_a", %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	381 "add %%"REG_a", %2 \n\t"
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	382 "subl $4, %0 \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	383 "jnz 1b \n\t"
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	384 : "+g"(h), "+r" (pixels), "+r" (block)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	385 : "r"((long)line_size)
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	386 : "%"REG_a, "memory"
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	387 );
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	388 }
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	389
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	390 static void put_pixels8_mmx(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	391 {
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	392 __asm __volatile(
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	393 "lea (%3, %3), %%"REG_a" \n\t"
422 aa4a1c6209bd * baling 8 seems to have the same speed kabi parents: 421 diff changeset	394 ".balign 8 \n\t"
420 bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	395 "1: \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	396 "movq (%1), %%mm0 \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	397 "movq (%1, %3), %%mm1 \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	398 "movq %%mm0, (%2) \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	399 "movq %%mm1, (%2, %3) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	400 "add %%"REG_a", %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	401 "add %%"REG_a", %2 \n\t"
420 bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	402 "movq (%1), %%mm0 \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	403 "movq (%1, %3), %%mm1 \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	404 "movq %%mm0, (%2) \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	405 "movq %%mm1, (%2, %3) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	406 "add %%"REG_a", %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	407 "add %%"REG_a", %2 \n\t"
420 bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	408 "subl $4, %0 \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	409 "jnz 1b \n\t"
bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	410 : "+g"(h), "+r" (pixels), "+r" (block)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	411 : "r"((long)line_size)
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	412 : "%"REG_a, "memory"
420 bbaf743f353f * cleanup for put_pixels_mmx kabi parents: 418 diff changeset	413 );
0 986e461dc072 Initial revision glantau parents: diff changeset	414 }
986e461dc072 Initial revision glantau parents: diff changeset	415
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	416 static void put_pixels16_mmx(uint8_t block, const uint8_t pixels, int line_size, int h)
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	417 {
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	418 __asm __volatile(
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	419 "lea (%3, %3), %%"REG_a" \n\t"
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	420 ".balign 8 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	421 "1: \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	422 "movq (%1), %%mm0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	423 "movq 8(%1), %%mm4 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	424 "movq (%1, %3), %%mm1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	425 "movq 8(%1, %3), %%mm5 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	426 "movq %%mm0, (%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	427 "movq %%mm4, 8(%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	428 "movq %%mm1, (%2, %3) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	429 "movq %%mm5, 8(%2, %3) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	430 "add %%"REG_a", %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	431 "add %%"REG_a", %2 \n\t"
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	432 "movq (%1), %%mm0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	433 "movq 8(%1), %%mm4 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	434 "movq (%1, %3), %%mm1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	435 "movq 8(%1, %3), %%mm5 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	436 "movq %%mm0, (%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	437 "movq %%mm4, 8(%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	438 "movq %%mm1, (%2, %3) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	439 "movq %%mm5, 8(%2, %3) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	440 "add %%"REG_a", %1 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	441 "add %%"REG_a", %2 \n\t"
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	442 "subl $4, %0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	443 "jnz 1b \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	444 : "+g"(h), "+r" (pixels), "+r" (block)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	445 : "r"((long)line_size)
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	446 : "%"REG_a, "memory"
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	447 );
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	448 }
45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	449
296 c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	450 static void clear_blocks_mmx(DCTELEM *blocks)
c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	451 {
471 d7f65ea52aaa * reimplemented remaing avg_ pixel functions kabi parents: 448 diff changeset	452 __asm __volatile(
296 c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	453 "pxor %%mm7, %%mm7 \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	454 "mov $-128*6, %%"REG_a" \n\t"
296 c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	455 "1: \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	456 "movq %%mm7, (%0, %%"REG_a") \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	457 "movq %%mm7, 8(%0, %%"REG_a") \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	458 "movq %%mm7, 16(%0, %%"REG_a") \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	459 "movq %%mm7, 24(%0, %%"REG_a") \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	460 "add $32, %%"REG_a" \n\t"
296 c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	461 " js 1b \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	462 : : "r" (((uint8_t )blocks)+1286)
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	463 : "%"REG_a
296 c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	464 );
c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	465 }
c1a8a1b4a24b sizeof(s->block) isnt 6462 anymore bugfix michaelni parents: 294 diff changeset	466
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	467 #ifdef CONFIG_ENCODERS
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	468 static int pix_sum16_mmx(uint8_t * pix, int line_size){
688 894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	469 const int h=16;
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	470 int sum;
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	471 long index= -line_size*h;
688 894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	472
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	473 __asm __volatile(
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	474 "pxor %%mm7, %%mm7 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	475 "pxor %%mm6, %%mm6 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	476 "1: \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	477 "movq (%2, %1), %%mm0 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	478 "movq (%2, %1), %%mm1 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	479 "movq 8(%2, %1), %%mm2 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	480 "movq 8(%2, %1), %%mm3 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	481 "punpcklbw %%mm7, %%mm0 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	482 "punpckhbw %%mm7, %%mm1 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	483 "punpcklbw %%mm7, %%mm2 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	484 "punpckhbw %%mm7, %%mm3 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	485 "paddw %%mm0, %%mm1 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	486 "paddw %%mm2, %%mm3 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	487 "paddw %%mm1, %%mm3 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	488 "paddw %%mm3, %%mm6 \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	489 "add %3, %1 \n\t"
688 894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	490 " js 1b \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	491 "movq %%mm6, %%mm5 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	492 "psrlq $32, %%mm6 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	493 "paddw %%mm5, %%mm6 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	494 "movq %%mm6, %%mm5 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	495 "psrlq $16, %%mm6 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	496 "paddw %%mm5, %%mm6 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	497 "movd %%mm6, %0 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	498 "andl $0xFFFF, %0 \n\t"
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	499 : "=&r" (sum), "+r" (index)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	500 : "r" (pix - index), "r" ((long)line_size)
688 894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	501 );
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	502
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	503 return sum;
894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	504 }
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	505 #endif //CONFIG_ENCODERS
688 894b61908734 pix_sum16_mmx() michaelni parents: 651 diff changeset	506
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	507 static void add_bytes_mmx(uint8_t dst, uint8_t src, int w){
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	508 long i=0;
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	509 asm volatile(
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	510 "1: \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	511 "movq (%1, %0), %%mm0 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	512 "movq (%2, %0), %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	513 "paddb %%mm0, %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	514 "movq %%mm1, (%2, %0) \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	515 "movq 8(%1, %0), %%mm0 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	516 "movq 8(%2, %0), %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	517 "paddb %%mm0, %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	518 "movq %%mm1, 8(%2, %0) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	519 "add $16, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	520 "cmp %3, %0 \n\t"
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	521 " jb 1b \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	522 : "+r" (i)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	523 : "r"(src), "r"(dst), "r"((long)w-15)
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	524 );
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	525 for(; i<w; i++)
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	526 dst[i+0] += src[i+0];
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	527 }
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	528
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	529 #define H263_LOOP_FILTER \
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	530 "pxor %%mm7, %%mm7 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	531 "movq %0, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	532 "movq %0, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	533 "movq %3, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	534 "movq %3, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	535 "punpcklbw %%mm7, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	536 "punpckhbw %%mm7, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	537 "punpcklbw %%mm7, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	538 "punpckhbw %%mm7, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	539 "psubw %%mm2, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	540 "psubw %%mm3, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	541 "movq %1, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	542 "movq %1, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	543 "movq %2, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	544 "movq %2, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	545 "punpcklbw %%mm7, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	546 "punpckhbw %%mm7, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	547 "punpcklbw %%mm7, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	548 "punpckhbw %%mm7, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	549 "psubw %%mm2, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	550 "psubw %%mm3, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	551 "psllw $2, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	552 "psllw $2, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	553 "paddw %%mm0, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	554 "paddw %%mm1, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	555 "pxor %%mm6, %%mm6 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	556 "pcmpgtw %%mm4, %%mm6 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	557 "pcmpgtw %%mm5, %%mm7 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	558 "pxor %%mm6, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	559 "pxor %%mm7, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	560 "psubw %%mm6, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	561 "psubw %%mm7, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	562 "psrlw $3, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	563 "psrlw $3, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	564 "packuswb %%mm5, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	565 "packsswb %%mm7, %%mm6 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	566 "pxor %%mm7, %%mm7 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	567 "movd %4, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	568 "punpcklbw %%mm2, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	569 "punpcklbw %%mm2, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	570 "punpcklbw %%mm2, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	571 "psubusb %%mm4, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	572 "movq %%mm2, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	573 "psubusb %%mm4, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	574 "psubb %%mm3, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	575 "movq %1, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	576 "movq %2, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	577 "pxor %%mm6, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	578 "pxor %%mm6, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	579 "paddusb %%mm2, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	580 "psubusb %%mm2, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	581 "pxor %%mm6, %%mm3 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	582 "pxor %%mm6, %%mm4 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	583 "paddusb %%mm2, %%mm2 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	584 "packsswb %%mm1, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	585 "pcmpgtb %%mm0, %%mm7 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	586 "pxor %%mm7, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	587 "psubb %%mm7, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	588 "movq %%mm0, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	589 "psubusb %%mm2, %%mm0 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	590 "psubb %%mm0, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	591 "pand %5, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	592 "psrlw $2, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	593 "pxor %%mm7, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	594 "psubb %%mm7, %%mm1 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	595 "movq %0, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	596 "movq %3, %%mm6 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	597 "psubb %%mm1, %%mm5 \n\t"\
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	598 "paddb %%mm1, %%mm6 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	599
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	600 static void h263_v_loop_filter_mmx(uint8_t *src, int stride, int qscale){
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	601 const int strength= ff_h263_loop_filter_strength[qscale];
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	602
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	603 asm volatile(
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	604
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	605 H263_LOOP_FILTER
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	606
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	607 "movq %%mm3, %1 \n\t"
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	608 "movq %%mm4, %2 \n\t"
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	609 "movq %%mm5, %0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	610 "movq %%mm6, %3 \n\t"
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	611 : "+m" ((uint64_t)(src - 2*stride)),
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	612 "+m" ((uint64_t)(src - 1*stride)),
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	613 "+m" ((uint64_t)(src + 0*stride)),
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	614 "+m" ((uint64_t)(src + 1*stride))
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	615 : "g" (2*strength), "m"(ff_pb_FC)
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	616 );
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	617 }
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	618
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	619 static inline void transpose4x4(uint8_t dst, uint8_t src, int dst_stride, int src_stride){
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	620 asm volatile( //FIXME could save 1 instruction if done as 8x4 ...
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	621 "movd %4, %%mm0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	622 "movd %5, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	623 "movd %6, %%mm2 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	624 "movd %7, %%mm3 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	625 "punpcklbw %%mm1, %%mm0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	626 "punpcklbw %%mm3, %%mm2 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	627 "movq %%mm0, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	628 "punpcklwd %%mm2, %%mm0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	629 "punpckhwd %%mm2, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	630 "movd %%mm0, %0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	631 "punpckhdq %%mm0, %%mm0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	632 "movd %%mm0, %1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	633 "movd %%mm1, %2 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	634 "punpckhdq %%mm1, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	635 "movd %%mm1, %3 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	636
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	637 : "=m" ((uint32_t)(dst + 0*dst_stride)),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	638 "=m" ((uint32_t)(dst + 1*dst_stride)),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	639 "=m" ((uint32_t)(dst + 2*dst_stride)),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	640 "=m" ((uint32_t)(dst + 3*dst_stride))
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	641 : "m" ((uint32_t)(src + 0*src_stride)),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	642 "m" ((uint32_t)(src + 1*src_stride)),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	643 "m" ((uint32_t)(src + 2*src_stride)),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	644 "m" ((uint32_t)(src + 3*src_stride))
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	645 );
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	646 }
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	647
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	648 static void h263_h_loop_filter_mmx(uint8_t *src, int stride, int qscale){
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	649 const int strength= ff_h263_loop_filter_strength[qscale];
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	650 uint64_t temp[4] __attribute__ ((aligned(8)));
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	651 uint8_t btemp= (uint8_t)temp;
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	652
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	653 src -= 2;
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	654
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	655 transpose4x4(btemp , src , 8, stride);
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	656 transpose4x4(btemp+4, src + 4*stride, 8, stride);
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	657 asm volatile(
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	658 H263_LOOP_FILTER // 5 3 4 6
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	659
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	660 : "+m" (temp[0]),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	661 "+m" (temp[1]),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	662 "+m" (temp[2]),
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	663 "+m" (temp[3])
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	664 : "g" (2*strength), "m"(ff_pb_FC)
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	665 );
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	666
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	667 asm volatile(
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	668 "movq %%mm5, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	669 "movq %%mm4, %%mm0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	670 "punpcklbw %%mm3, %%mm5 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	671 "punpcklbw %%mm6, %%mm4 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	672 "punpckhbw %%mm3, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	673 "punpckhbw %%mm6, %%mm0 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	674 "movq %%mm5, %%mm3 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	675 "movq %%mm1, %%mm6 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	676 "punpcklwd %%mm4, %%mm5 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	677 "punpcklwd %%mm0, %%mm1 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	678 "punpckhwd %%mm4, %%mm3 \n\t"
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	679 "punpckhwd %%mm0, %%mm6 \n\t"
2505 86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	680 "movd %%mm5, (%0) \n\t"
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	681 "punpckhdq %%mm5, %%mm5 \n\t"
2505 86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	682 "movd %%mm5, (%0,%2) \n\t"
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	683 "movd %%mm3, (%0,%2,2) \n\t"
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	684 "punpckhdq %%mm3, %%mm3 \n\t"
2505 86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	685 "movd %%mm3, (%0,%3) \n\t"
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	686 "movd %%mm1, (%1) \n\t"
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	687 "punpckhdq %%mm1, %%mm1 \n\t"
2505 86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	688 "movd %%mm1, (%1,%2) \n\t"
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	689 "movd %%mm6, (%1,%2,2) \n\t"
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	690 "punpckhdq %%mm6, %%mm6 \n\t"
2505 86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	691 "movd %%mm6, (%1,%3) \n\t"
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	692 :: "r" (src),
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	693 "r" (src + 4*stride),
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	694 "r" ((long) stride ),
86e2b1424801 optimization and gcc 4.0 bug workaround patch by (Martin Drab >drab kepler.fjfi.cvut cz<) michael parents: 2293 diff changeset	695 "r" ((long)(3*stride))
1648 de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	696 );
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	697 }
de28264c3dc3 h263_h_loop_filter_mmx michael parents: 1647 diff changeset	698
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	699 #ifdef CONFIG_ENCODERS
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	700 static int pix_norm1_mmx(uint8_t *pix, int line_size) {
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	701 int tmp;
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	702 asm volatile (
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	703 "movl $16,%%ecx\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	704 "pxor %%mm0,%%mm0\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	705 "pxor %%mm7,%%mm7\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	706 "1:\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	707 "movq (%0),%%mm2\n" /* mm2 = pix[0-7] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	708 "movq 8(%0),%%mm3\n" /* mm3 = pix[8-15] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	709
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	710 "movq %%mm2,%%mm1\n" /* mm1 = mm2 = pix[0-7] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	711
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	712 "punpckhbw %%mm0,%%mm1\n" /* mm1 = [pix4-7] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	713 "punpcklbw %%mm0,%%mm2\n" /* mm2 = [pix0-3] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	714
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	715 "movq %%mm3,%%mm4\n" /* mm4 = mm3 = pix[8-15] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	716 "punpckhbw %%mm0,%%mm3\n" /* mm3 = [pix12-15] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	717 "punpcklbw %%mm0,%%mm4\n" /* mm4 = [pix8-11] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	718
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	719 "pmaddwd %%mm1,%%mm1\n" /* mm1 = (pix0^2+pix1^2,pix2^2+pix3^2) */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	720 "pmaddwd %%mm2,%%mm2\n" /* mm2 = (pix4^2+pix5^2,pix6^2+pix7^2) */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	721
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	722 "pmaddwd %%mm3,%%mm3\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	723 "pmaddwd %%mm4,%%mm4\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	724
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	725 "paddd %%mm1,%%mm2\n" /* mm2 = (pix0^2+pix1^2+pix4^2+pix5^2,
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	726 pix2^2+pix3^2+pix6^2+pix7^2) */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	727 "paddd %%mm3,%%mm4\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	728 "paddd %%mm2,%%mm7\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	729
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	730 "add %2, %0\n"
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	731 "paddd %%mm4,%%mm7\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	732 "dec %%ecx\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	733 "jnz 1b\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	734
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	735 "movq %%mm7,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	736 "psrlq $32, %%mm7\n" /* shift hi dword to lo */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	737 "paddd %%mm7,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	738 "movd %%mm1,%1\n"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	739 : "+r" (pix), "=r"(tmp) : "r" ((long)line_size) : "%ecx" );
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	740 return tmp;
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	741 }
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	742
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	743 static int sse8_mmx(void v, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	744 int tmp;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	745 asm volatile (
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	746 "movl %4,%%ecx\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	747 "shr $1,%%ecx\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	748 "pxor %%mm0,%%mm0\n" /* mm0 = 0 */
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	749 "pxor %%mm7,%%mm7\n" /* mm7 holds the sum */
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	750 "1:\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	751 "movq (%0),%%mm1\n" /* mm1 = pix1[0][0-7] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	752 "movq (%1),%%mm2\n" /* mm2 = pix2[0][0-7] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	753 "movq (%0,%3),%%mm3\n" /* mm3 = pix1[1][0-7] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	754 "movq (%1,%3),%%mm4\n" /* mm4 = pix2[1][0-7] */
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	755
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	756 /* todo: mm1-mm2, mm3-mm4 */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	757 /* algo: substract mm1 from mm2 with saturation and vice versa */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	758 /* OR the results to get absolute difference */
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	759 "movq %%mm1,%%mm5\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	760 "movq %%mm3,%%mm6\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	761 "psubusb %%mm2,%%mm1\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	762 "psubusb %%mm4,%%mm3\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	763 "psubusb %%mm5,%%mm2\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	764 "psubusb %%mm6,%%mm4\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	765
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	766 "por %%mm1,%%mm2\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	767 "por %%mm3,%%mm4\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	768
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	769 /* now convert to 16-bit vectors so we can square them */
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	770 "movq %%mm2,%%mm1\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	771 "movq %%mm4,%%mm3\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	772
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	773 "punpckhbw %%mm0,%%mm2\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	774 "punpckhbw %%mm0,%%mm4\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	775 "punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	776 "punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	777
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	778 "pmaddwd %%mm2,%%mm2\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	779 "pmaddwd %%mm4,%%mm4\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	780 "pmaddwd %%mm1,%%mm1\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	781 "pmaddwd %%mm3,%%mm3\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	782
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	783 "lea (%0,%3,2), %0\n" /* pix1 += 2line_size /
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	784 "lea (%1,%3,2), %1\n" /* pix2 += 2line_size /
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	785
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	786 "paddd %%mm2,%%mm1\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	787 "paddd %%mm4,%%mm3\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	788 "paddd %%mm1,%%mm7\n"
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	789 "paddd %%mm3,%%mm7\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	790
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	791 "decl %%ecx\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	792 "jnz 1b\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	793
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	794 "movq %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	795 "psrlq $32, %%mm7\n" /* shift hi dword to lo */
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	796 "paddd %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	797 "movd %%mm1,%2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	798 : "+r" (pix1), "+r" (pix2), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	799 : "r" ((long)line_size) , "m" (h)
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	800 : "%ecx");
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	801 return tmp;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	802 }
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	803
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	804 static int sse16_mmx(void v, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	805 int tmp;
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	806 asm volatile (
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	807 "movl %4,%%ecx\n"
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	808 "pxor %%mm0,%%mm0\n" /* mm0 = 0 */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	809 "pxor %%mm7,%%mm7\n" /* mm7 holds the sum */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	810 "1:\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	811 "movq (%0),%%mm1\n" /* mm1 = pix1[0-7] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	812 "movq (%1),%%mm2\n" /* mm2 = pix2[0-7] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	813 "movq 8(%0),%%mm3\n" /* mm3 = pix1[8-15] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	814 "movq 8(%1),%%mm4\n" /* mm4 = pix2[8-15] */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	815
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	816 /* todo: mm1-mm2, mm3-mm4 */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	817 /* algo: substract mm1 from mm2 with saturation and vice versa */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	818 /* OR the results to get absolute difference */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	819 "movq %%mm1,%%mm5\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	820 "movq %%mm3,%%mm6\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	821 "psubusb %%mm2,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	822 "psubusb %%mm4,%%mm3\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	823 "psubusb %%mm5,%%mm2\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	824 "psubusb %%mm6,%%mm4\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	825
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	826 "por %%mm1,%%mm2\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	827 "por %%mm3,%%mm4\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	828
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	829 /* now convert to 16-bit vectors so we can square them */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	830 "movq %%mm2,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	831 "movq %%mm4,%%mm3\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	832
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	833 "punpckhbw %%mm0,%%mm2\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	834 "punpckhbw %%mm0,%%mm4\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	835 "punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	836 "punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	837
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	838 "pmaddwd %%mm2,%%mm2\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	839 "pmaddwd %%mm4,%%mm4\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	840 "pmaddwd %%mm1,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	841 "pmaddwd %%mm3,%%mm3\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	842
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	843 "add %3,%0\n"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	844 "add %3,%1\n"
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	845
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	846 "paddd %%mm2,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	847 "paddd %%mm4,%%mm3\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	848 "paddd %%mm1,%%mm7\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	849 "paddd %%mm3,%%mm7\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	850
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	851 "decl %%ecx\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	852 "jnz 1b\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	853
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	854 "movq %%mm7,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	855 "psrlq $32, %%mm7\n" /* shift hi dword to lo */
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	856 "paddd %%mm7,%%mm1\n"
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	857 "movd %%mm1,%2\n"
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	858 : "+r" (pix1), "+r" (pix2), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	859 : "r" ((long)line_size) , "m" (h)
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	860 : "%ecx");
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	861 return tmp;
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	862 }
4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	863
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	864 static int sse16_sse2(void v, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	865 int tmp;
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	866 asm volatile (
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	867 "shr $1,%2\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	868 "pxor %%xmm0,%%xmm0\n" /* mm0 = 0 */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	869 "pxor %%xmm7,%%xmm7\n" /* mm7 holds the sum */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	870 "1:\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	871 "movdqu (%0),%%xmm1\n" /* mm1 = pix1[0][0-15] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	872 "movdqu (%1),%%xmm2\n" /* mm2 = pix2[0][0-15] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	873 "movdqu (%0,%4),%%xmm3\n" /* mm3 = pix1[1][0-15] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	874 "movdqu (%1,%4),%%xmm4\n" /* mm4 = pix2[1][0-15] */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	875
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	876 /* todo: mm1-mm2, mm3-mm4 */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	877 /* algo: substract mm1 from mm2 with saturation and vice versa */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	878 /* OR the results to get absolute difference */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	879 "movdqa %%xmm1,%%xmm5\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	880 "movdqa %%xmm3,%%xmm6\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	881 "psubusb %%xmm2,%%xmm1\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	882 "psubusb %%xmm4,%%xmm3\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	883 "psubusb %%xmm5,%%xmm2\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	884 "psubusb %%xmm6,%%xmm4\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	885
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	886 "por %%xmm1,%%xmm2\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	887 "por %%xmm3,%%xmm4\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	888
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	889 /* now convert to 16-bit vectors so we can square them */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	890 "movdqa %%xmm2,%%xmm1\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	891 "movdqa %%xmm4,%%xmm3\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	892
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	893 "punpckhbw %%xmm0,%%xmm2\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	894 "punpckhbw %%xmm0,%%xmm4\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	895 "punpcklbw %%xmm0,%%xmm1\n" /* mm1 now spread over (mm1,mm2) */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	896 "punpcklbw %%xmm0,%%xmm3\n" /* mm4 now spread over (mm3,mm4) */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	897
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	898 "pmaddwd %%xmm2,%%xmm2\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	899 "pmaddwd %%xmm4,%%xmm4\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	900 "pmaddwd %%xmm1,%%xmm1\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	901 "pmaddwd %%xmm3,%%xmm3\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	902
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	903 "lea (%0,%4,2), %0\n" /* pix1 += 2line_size /
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	904 "lea (%1,%4,2), %1\n" /* pix2 += 2line_size /
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	905
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	906 "paddd %%xmm2,%%xmm1\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	907 "paddd %%xmm4,%%xmm3\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	908 "paddd %%xmm1,%%xmm7\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	909 "paddd %%xmm3,%%xmm7\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	910
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	911 "decl %2\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	912 "jnz 1b\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	913
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	914 "movdqa %%xmm7,%%xmm1\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	915 "psrldq $8, %%xmm7\n" /* shift hi qword to lo */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	916 "paddd %%xmm1,%%xmm7\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	917 "movdqa %%xmm7,%%xmm1\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	918 "psrldq $4, %%xmm7\n" /* shift hi dword to lo */
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	919 "paddd %%xmm1,%%xmm7\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	920 "movd %%xmm7,%3\n"
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	921 : "+r" (pix1), "+r" (pix2), "+r"(h), "=r"(tmp)
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	922 : "r" ((long)line_size));
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	923 return tmp;
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	924 }
d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	925
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	926 static int hf_noise8_mmx(uint8_t * pix1, int line_size, int h) {
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	927 int tmp;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	928 asm volatile (
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	929 "movl %3,%%ecx\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	930 "pxor %%mm7,%%mm7\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	931 "pxor %%mm6,%%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	932
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	933 "movq (%0),%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	934 "movq %%mm0, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	935 "psllq $8, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	936 "psrlq $8, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	937 "psrlq $8, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	938 "movq %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	939 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	940 "punpcklbw %%mm7,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	941 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	942 "punpckhbw %%mm7,%%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	943 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	944 "psubw %%mm1, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	945 "psubw %%mm3, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	946
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	947 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	948
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	949 "movq (%0),%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	950 "movq %%mm4, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	951 "psllq $8, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	952 "psrlq $8, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	953 "psrlq $8, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	954 "movq %%mm4, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	955 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	956 "punpcklbw %%mm7,%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	957 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	958 "punpckhbw %%mm7,%%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	959 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	960 "psubw %%mm1, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	961 "psubw %%mm3, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	962 "psubw %%mm4, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	963 "psubw %%mm5, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	964 "pxor %%mm3, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	965 "pxor %%mm1, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	966 "pcmpgtw %%mm0, %%mm3\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	967 "pcmpgtw %%mm2, %%mm1\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	968 "pxor %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	969 "pxor %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	970 "psubw %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	971 "psubw %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	972 "paddw %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	973 "paddw %%mm2, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	974
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	975 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	976 "1:\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	977
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	978 "movq (%0),%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	979 "movq %%mm0, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	980 "psllq $8, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	981 "psrlq $8, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	982 "psrlq $8, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	983 "movq %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	984 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	985 "punpcklbw %%mm7,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	986 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	987 "punpckhbw %%mm7,%%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	988 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	989 "psubw %%mm1, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	990 "psubw %%mm3, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	991 "psubw %%mm0, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	992 "psubw %%mm2, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	993 "pxor %%mm3, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	994 "pxor %%mm1, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	995 "pcmpgtw %%mm4, %%mm3\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	996 "pcmpgtw %%mm5, %%mm1\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	997 "pxor %%mm3, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	998 "pxor %%mm1, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	999 "psubw %%mm3, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1000 "psubw %%mm1, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1001 "paddw %%mm4, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1002 "paddw %%mm5, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1003
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1004 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1005
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1006 "movq (%0),%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1007 "movq %%mm4, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1008 "psllq $8, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1009 "psrlq $8, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1010 "psrlq $8, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1011 "movq %%mm4, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1012 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1013 "punpcklbw %%mm7,%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1014 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1015 "punpckhbw %%mm7,%%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1016 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1017 "psubw %%mm1, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1018 "psubw %%mm3, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1019 "psubw %%mm4, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1020 "psubw %%mm5, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1021 "pxor %%mm3, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1022 "pxor %%mm1, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1023 "pcmpgtw %%mm0, %%mm3\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1024 "pcmpgtw %%mm2, %%mm1\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1025 "pxor %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1026 "pxor %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1027 "psubw %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1028 "psubw %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1029 "paddw %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1030 "paddw %%mm2, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1031
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1032 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1033 "subl $2, %%ecx\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1034 " jnz 1b\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1035
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1036 "movq %%mm6, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1037 "punpcklwd %%mm7,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1038 "punpckhwd %%mm7,%%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1039 "paddd %%mm0, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1040
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1041 "movq %%mm6,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1042 "psrlq $32, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1043 "paddd %%mm6,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1044 "movd %%mm0,%1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1045 : "+r" (pix1), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1046 : "r" ((long)line_size) , "g" (h-2)
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1047 : "%ecx");
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1048 return tmp;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1049 }
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1050
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1051 static int hf_noise16_mmx(uint8_t * pix1, int line_size, int h) {
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1052 int tmp;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1053 uint8_t * pix= pix1;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1054 asm volatile (
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1055 "movl %3,%%ecx\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1056 "pxor %%mm7,%%mm7\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1057 "pxor %%mm6,%%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1058
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1059 "movq (%0),%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1060 "movq 1(%0),%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1061 "movq %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1062 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1063 "punpcklbw %%mm7,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1064 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1065 "punpckhbw %%mm7,%%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1066 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1067 "psubw %%mm1, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1068 "psubw %%mm3, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1069
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1070 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1071
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1072 "movq (%0),%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1073 "movq 1(%0),%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1074 "movq %%mm4, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1075 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1076 "punpcklbw %%mm7,%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1077 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1078 "punpckhbw %%mm7,%%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1079 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1080 "psubw %%mm1, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1081 "psubw %%mm3, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1082 "psubw %%mm4, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1083 "psubw %%mm5, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1084 "pxor %%mm3, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1085 "pxor %%mm1, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1086 "pcmpgtw %%mm0, %%mm3\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1087 "pcmpgtw %%mm2, %%mm1\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1088 "pxor %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1089 "pxor %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1090 "psubw %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1091 "psubw %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1092 "paddw %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1093 "paddw %%mm2, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1094
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1095 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1096 "1:\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1097
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1098 "movq (%0),%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1099 "movq 1(%0),%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1100 "movq %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1101 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1102 "punpcklbw %%mm7,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1103 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1104 "punpckhbw %%mm7,%%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1105 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1106 "psubw %%mm1, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1107 "psubw %%mm3, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1108 "psubw %%mm0, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1109 "psubw %%mm2, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1110 "pxor %%mm3, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1111 "pxor %%mm1, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1112 "pcmpgtw %%mm4, %%mm3\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1113 "pcmpgtw %%mm5, %%mm1\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1114 "pxor %%mm3, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1115 "pxor %%mm1, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1116 "psubw %%mm3, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1117 "psubw %%mm1, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1118 "paddw %%mm4, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1119 "paddw %%mm5, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1120
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1121 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1122
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1123 "movq (%0),%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1124 "movq 1(%0),%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1125 "movq %%mm4, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1126 "movq %%mm1, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1127 "punpcklbw %%mm7,%%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1128 "punpcklbw %%mm7,%%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1129 "punpckhbw %%mm7,%%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1130 "punpckhbw %%mm7,%%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1131 "psubw %%mm1, %%mm4\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1132 "psubw %%mm3, %%mm5\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1133 "psubw %%mm4, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1134 "psubw %%mm5, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1135 "pxor %%mm3, %%mm3\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1136 "pxor %%mm1, %%mm1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1137 "pcmpgtw %%mm0, %%mm3\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1138 "pcmpgtw %%mm2, %%mm1\n\t"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1139 "pxor %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1140 "pxor %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1141 "psubw %%mm3, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1142 "psubw %%mm1, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1143 "paddw %%mm0, %%mm2\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1144 "paddw %%mm2, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1145
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1146 "add %2,%0\n"
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1147 "subl $2, %%ecx\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1148 " jnz 1b\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1149
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1150 "movq %%mm6, %%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1151 "punpcklwd %%mm7,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1152 "punpckhwd %%mm7,%%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1153 "paddd %%mm0, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1154
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1155 "movq %%mm6,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1156 "psrlq $32, %%mm6\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1157 "paddd %%mm6,%%mm0\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1158 "movd %%mm0,%1\n"
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1159 : "+r" (pix1), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1160 : "r" ((long)line_size) , "g" (h-2)
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1161 : "%ecx");
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1162 return tmp + hf_noise8_mmx(pix+8, line_size, h);
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1163 }
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1164
2864 95bac7109ff0 Kill some compiler warnings. Compiled code verified identical after changes. mru parents: 2754 diff changeset	1165 static int nsse16_mmx(void p, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
95bac7109ff0 Kill some compiler warnings. Compiled code verified identical after changes. mru parents: 2754 diff changeset	1166 MpegEncContext *c = p;
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1167 int score1= sse16_mmx(c, pix1, pix2, line_size, h);
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1168 int score2= hf_noise16_mmx(pix1, line_size, h) - hf_noise16_mmx(pix2, line_size, h);
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1169
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1170 if(c) return score1 + ABS(score2)*c->avctx->nsse_weight;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1171 else return score1 + ABS(score2)*8;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1172 }
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1173
2864 95bac7109ff0 Kill some compiler warnings. Compiled code verified identical after changes. mru parents: 2754 diff changeset	1174 static int nsse8_mmx(void p, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
95bac7109ff0 Kill some compiler warnings. Compiled code verified identical after changes. mru parents: 2754 diff changeset	1175 MpegEncContext *c = p;
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1176 int score1= sse8_mmx(c, pix1, pix2, line_size, h);
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1177 int score2= hf_noise8_mmx(pix1, line_size, h) - hf_noise8_mmx(pix2, line_size, h);
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1178
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1179 if(c) return score1 + ABS(score2)*c->avctx->nsse_weight;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1180 else return score1 + ABS(score2)*8;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1181 }
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	1182
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1183 static int vsad_intra16_mmx(void v, uint8_t pix, uint8_t * dummy, int line_size, int h) {
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1184 int tmp;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1185
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1186 assert( (((int)pix) & 7) == 0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1187 assert((line_size &7) ==0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1188
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1189 #define SUM(in0, in1, out0, out1) \
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1190 "movq (%0), %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1191 "movq 8(%0), %%mm3\n"\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1192 "add %2,%0\n"\
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1193 "movq %%mm2, " #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1194 "movq %%mm3, " #out1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1195 "psubusb " #in0 ", %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1196 "psubusb " #in1 ", %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1197 "psubusb " #out0 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1198 "psubusb " #out1 ", " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1199 "por %%mm2, " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1200 "por %%mm3, " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1201 "movq " #in0 ", %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1202 "movq " #in1 ", %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1203 "punpcklbw %%mm7, " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1204 "punpcklbw %%mm7, " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1205 "punpckhbw %%mm7, %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1206 "punpckhbw %%mm7, %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1207 "paddw " #in1 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1208 "paddw %%mm3, %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1209 "paddw %%mm2, " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1210 "paddw " #in0 ", %%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1211
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1212
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1213 asm volatile (
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1214 "movl %3,%%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1215 "pxor %%mm6,%%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1216 "pxor %%mm7,%%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1217 "movq (%0),%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1218 "movq 8(%0),%%mm1\n"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1219 "add %2,%0\n"
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1220 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1221 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1222 "1:\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1223
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1224 SUM(%%mm4, %%mm5, %%mm0, %%mm1)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1225
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1226 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1227
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1228 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1229 "jnz 1b\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1230
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1231 "movq %%mm6,%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1232 "psrlq $32, %%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1233 "paddw %%mm6,%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1234 "movq %%mm0,%%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1235 "psrlq $16, %%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1236 "paddw %%mm6,%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1237 "movd %%mm0,%1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1238 : "+r" (pix), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1239 : "r" ((long)line_size) , "m" (h)
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1240 : "%ecx");
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1241 return tmp & 0xFFFF;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1242 }
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1243 #undef SUM
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1244
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1245 static int vsad_intra16_mmx2(void v, uint8_t pix, uint8_t * dummy, int line_size, int h) {
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1246 int tmp;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1247
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1248 assert( (((int)pix) & 7) == 0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1249 assert((line_size &7) ==0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1250
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1251 #define SUM(in0, in1, out0, out1) \
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1252 "movq (%0), " #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1253 "movq 8(%0), " #out1 "\n"\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1254 "add %2,%0\n"\
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1255 "psadbw " #out0 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1256 "psadbw " #out1 ", " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1257 "paddw " #in1 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1258 "paddw " #in0 ", %%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1259
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1260 asm volatile (
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1261 "movl %3,%%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1262 "pxor %%mm6,%%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1263 "pxor %%mm7,%%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1264 "movq (%0),%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1265 "movq 8(%0),%%mm1\n"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1266 "add %2,%0\n"
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1267 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1268 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1269 "1:\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1270
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1271 SUM(%%mm4, %%mm5, %%mm0, %%mm1)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1272
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1273 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1274
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1275 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1276 "jnz 1b\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1277
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1278 "movd %%mm6,%1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1279 : "+r" (pix), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1280 : "r" ((long)line_size) , "m" (h)
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1281 : "%ecx");
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1282 return tmp;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1283 }
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1284 #undef SUM
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1285
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1286 static int vsad16_mmx(void v, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1287 int tmp;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1288
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1289 assert( (((int)pix1) & 7) == 0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1290 assert( (((int)pix2) & 7) == 0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1291 assert((line_size &7) ==0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1292
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1293 #define SUM(in0, in1, out0, out1) \
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1294 "movq (%0),%%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1295 "movq (%1)," #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1296 "movq 8(%0),%%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1297 "movq 8(%1)," #out1 "\n"\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1298 "add %3,%0\n"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1299 "add %3,%1\n"\
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1300 "psubb " #out0 ", %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1301 "psubb " #out1 ", %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1302 "pxor %%mm7, %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1303 "pxor %%mm7, %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1304 "movq %%mm2, " #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1305 "movq %%mm3, " #out1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1306 "psubusb " #in0 ", %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1307 "psubusb " #in1 ", %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1308 "psubusb " #out0 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1309 "psubusb " #out1 ", " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1310 "por %%mm2, " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1311 "por %%mm3, " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1312 "movq " #in0 ", %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1313 "movq " #in1 ", %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1314 "punpcklbw %%mm7, " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1315 "punpcklbw %%mm7, " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1316 "punpckhbw %%mm7, %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1317 "punpckhbw %%mm7, %%mm3\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1318 "paddw " #in1 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1319 "paddw %%mm3, %%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1320 "paddw %%mm2, " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1321 "paddw " #in0 ", %%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1322
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1323
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1324 asm volatile (
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1325 "movl %4,%%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1326 "pxor %%mm6,%%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1327 "pcmpeqw %%mm7,%%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1328 "psllw $15, %%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1329 "packsswb %%mm7, %%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1330 "movq (%0),%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1331 "movq (%1),%%mm2\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1332 "movq 8(%0),%%mm1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1333 "movq 8(%1),%%mm3\n"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1334 "add %3,%0\n"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1335 "add %3,%1\n"
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1336 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1337 "psubb %%mm2, %%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1338 "psubb %%mm3, %%mm1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1339 "pxor %%mm7, %%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1340 "pxor %%mm7, %%mm1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1341 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1342 "1:\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1343
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1344 SUM(%%mm4, %%mm5, %%mm0, %%mm1)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1345
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1346 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1347
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1348 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1349 "jnz 1b\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1350
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1351 "movq %%mm6,%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1352 "psrlq $32, %%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1353 "paddw %%mm6,%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1354 "movq %%mm0,%%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1355 "psrlq $16, %%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1356 "paddw %%mm6,%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1357 "movd %%mm0,%2\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1358 : "+r" (pix1), "+r" (pix2), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1359 : "r" ((long)line_size) , "m" (h)
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1360 : "%ecx");
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1361 return tmp & 0x7FFF;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1362 }
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1363 #undef SUM
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1364
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1365 static int vsad16_mmx2(void v, uint8_t pix1, uint8_t * pix2, int line_size, int h) {
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1366 int tmp;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1367
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1368 assert( (((int)pix1) & 7) == 0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1369 assert( (((int)pix2) & 7) == 0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1370 assert((line_size &7) ==0);
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1371
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1372 #define SUM(in0, in1, out0, out1) \
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1373 "movq (%0)," #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1374 "movq (%1),%%mm2\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1375 "movq 8(%0)," #out1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1376 "movq 8(%1),%%mm3\n"\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1377 "add %3,%0\n"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1378 "add %3,%1\n"\
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1379 "psubb %%mm2, " #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1380 "psubb %%mm3, " #out1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1381 "pxor %%mm7, " #out0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1382 "pxor %%mm7, " #out1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1383 "psadbw " #out0 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1384 "psadbw " #out1 ", " #in1 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1385 "paddw " #in1 ", " #in0 "\n"\
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1386 "paddw " #in0 ", %%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1387
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1388 asm volatile (
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1389 "movl %4,%%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1390 "pxor %%mm6,%%mm6\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1391 "pcmpeqw %%mm7,%%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1392 "psllw $15, %%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1393 "packsswb %%mm7, %%mm7\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1394 "movq (%0),%%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1395 "movq (%1),%%mm2\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1396 "movq 8(%0),%%mm1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1397 "movq 8(%1),%%mm3\n"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1398 "add %3,%0\n"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1399 "add %3,%1\n"
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1400 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1401 "psubb %%mm2, %%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1402 "psubb %%mm3, %%mm1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1403 "pxor %%mm7, %%mm0\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1404 "pxor %%mm7, %%mm1\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1405 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1406 "1:\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1407
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1408 SUM(%%mm4, %%mm5, %%mm0, %%mm1)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1409
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1410 SUM(%%mm0, %%mm1, %%mm4, %%mm5)
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1411
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1412 "subl $2, %%ecx\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1413 "jnz 1b\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1414
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1415 "movd %%mm6,%2\n"
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1416 : "+r" (pix1), "+r" (pix2), "=r"(tmp)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1417 : "r" ((long)line_size) , "m" (h)
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1418 : "%ecx");
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1419 return tmp;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1420 }
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1421 #undef SUM
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	1422
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1423 static void diff_bytes_mmx(uint8_t dst, uint8_t src1, uint8_t *src2, int w){
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1424 long i=0;
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1425 asm volatile(
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1426 "1: \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1427 "movq (%2, %0), %%mm0 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1428 "movq (%1, %0), %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1429 "psubb %%mm0, %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1430 "movq %%mm1, (%3, %0) \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1431 "movq 8(%2, %0), %%mm0 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1432 "movq 8(%1, %0), %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1433 "psubb %%mm0, %%mm1 \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1434 "movq %%mm1, 8(%3, %0) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1435 "add $16, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1436 "cmp %4, %0 \n\t"
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1437 " jb 1b \n\t"
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1438 : "+r" (i)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1439 : "r"(src1), "r"(src2), "r"(dst), "r"((long)w-15)
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1440 );
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1441 for(; i<w; i++)
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1442 dst[i+0] = src1[i+0]-src2[i+0];
725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1443 }
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1444
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1445 static void sub_hfyu_median_prediction_mmx2(uint8_t dst, uint8_t src1, uint8_t src2, int w, int left, int *left_top){
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1446 long i=0;
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1447 uint8_t l, lt;
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	1448
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1449 asm volatile(
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1450 "1: \n\t"
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1451 "movq -1(%1, %0), %%mm0 \n\t" // LT
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1452 "movq (%1, %0), %%mm1 \n\t" // T
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1453 "movq -1(%2, %0), %%mm2 \n\t" // L
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1454 "movq (%2, %0), %%mm3 \n\t" // X
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1455 "movq %%mm2, %%mm4 \n\t" // L
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1456 "psubb %%mm0, %%mm2 \n\t"
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1457 "paddb %%mm1, %%mm2 \n\t" // L + T - LT
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1458 "movq %%mm4, %%mm5 \n\t" // L
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1459 "pmaxub %%mm1, %%mm4 \n\t" // max(T, L)
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1460 "pminub %%mm5, %%mm1 \n\t" // min(T, L)
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1461 "pminub %%mm2, %%mm4 \n\t"
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1462 "pmaxub %%mm1, %%mm4 \n\t"
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1463 "psubb %%mm4, %%mm3 \n\t" // dst - pred
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1464 "movq %%mm3, (%3, %0) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1465 "add $8, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1466 "cmp %4, %0 \n\t"
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1467 " jb 1b \n\t"
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1468 : "+r" (i)
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1469 : "r"(src1), "r"(src2), "r"(dst), "r"((long)w)
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1470 );
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1471
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1472 l= *left;
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1473 lt= *left_top;
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1474
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1475 dst[0]= src2[0] - mid_pred(l, src1[0], (l + src1[0] - lt)&0xFF);
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1476
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1477 *left_top= src1[w-1];
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1478 *left = src2[w-1];
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1479 }
8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	1480
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1481 #define LBUTTERFLY2(a1,b1,a2,b2)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1482 "paddw " #b1 ", " #a1 " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1483 "paddw " #b2 ", " #a2 " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1484 "paddw " #b1 ", " #b1 " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1485 "paddw " #b2 ", " #b2 " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1486 "psubw " #a1 ", " #b1 " \n\t"\
1186 4f0072371bb9 10l (hadamard fix) michaelni parents: 1153 diff changeset	1487 "psubw " #a2 ", " #b2 " \n\t"
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1488
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1489 #define HADAMARD48\
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1490 LBUTTERFLY2(%%mm0, %%mm1, %%mm2, %%mm3)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1491 LBUTTERFLY2(%%mm4, %%mm5, %%mm6, %%mm7)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1492 LBUTTERFLY2(%%mm0, %%mm2, %%mm1, %%mm3)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1493 LBUTTERFLY2(%%mm4, %%mm6, %%mm5, %%mm7)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1494 LBUTTERFLY2(%%mm0, %%mm4, %%mm1, %%mm5)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1495 LBUTTERFLY2(%%mm2, %%mm6, %%mm3, %%mm7)\
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1496
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1497 #define MMABS(a,z)\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1498 "pxor " #z ", " #z " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1499 "pcmpgtw " #a ", " #z " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1500 "pxor " #z ", " #a " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1501 "psubw " #z ", " #a " \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1502
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1503 #define MMABS_SUM(a,z, sum)\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1504 "pxor " #z ", " #z " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1505 "pcmpgtw " #a ", " #z " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1506 "pxor " #z ", " #a " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1507 "psubw " #z ", " #a " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1508 "paddusw " #a ", " #sum " \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1509
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1510 #define MMABS_MMX2(a,z)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1511 "pxor " #z ", " #z " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1512 "psubw " #a ", " #z " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1513 "pmaxsw " #z ", " #a " \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1514
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1515 #define MMABS_SUM_MMX2(a,z, sum)\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1516 "pxor " #z ", " #z " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1517 "psubw " #a ", " #z " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1518 "pmaxsw " #z ", " #a " \n\t"\
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1519 "paddusw " #a ", " #sum " \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1520
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1521 #define SBUTTERFLY(a,b,t,n)\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1522 "movq " #a ", " #t " \n\t" /* abcd */\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1523 "punpckl" #n " " #b ", " #a " \n\t" /* aebf */\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1524 "punpckh" #n " " #b ", " #t " \n\t" /* cgdh */\
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1525
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1526 #define TRANSPOSE4(a,b,c,d,t)\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1527 SBUTTERFLY(a,b,t,wd) /* a=aebf t=cgdh */\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1528 SBUTTERFLY(c,d,b,wd) /* c=imjn b=kolp */\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1529 SBUTTERFLY(a,c,d,dq) /* a=aeim d=bfjn */\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1530 SBUTTERFLY(t,b,c,dq) /* t=cgko c=dhlp */
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1531
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1532 #define LOAD4(o, a, b, c, d)\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1533 "movq "#o"(%1), " #a " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1534 "movq "#o"+16(%1), " #b " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1535 "movq "#o"+32(%1), " #c " \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1536 "movq "#o"+48(%1), " #d " \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1537
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1538 #define STORE4(o, a, b, c, d)\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1539 "movq "#a", "#o"(%1) \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1540 "movq "#b", "#o"+16(%1) \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1541 "movq "#c", "#o"+32(%1) \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1542 "movq "#d", "#o"+48(%1) \n\t"\
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1543
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1544 static int hadamard8_diff_mmx(void s, uint8_t src1, uint8_t *src2, int stride, int h){
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1545 uint64_t temp[16] __align8;
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1546 int sum=0;
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1547
dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1548 assert(h==8);
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1549
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1550 diff_pixels_mmx((DCTELEM*)temp, src1, src2, stride);
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1551
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1552 asm volatile(
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1553 LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1554 LOAD4(64, %%mm4, %%mm5, %%mm6, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1555
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1556 HADAMARD48
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1557
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1558 "movq %%mm7, 112(%1) \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1559
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1560 TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1561 STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1562
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1563 "movq 112(%1), %%mm7 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1564 TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1565 STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1566
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1567 LOAD4(8 , %%mm0, %%mm1, %%mm2, %%mm3)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1568 LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1569
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1570 HADAMARD48
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1571
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1572 "movq %%mm7, 120(%1) \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1573
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1574 TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1575 STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1576
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1577 "movq 120(%1), %%mm7 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1578 TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1579 "movq %%mm7, %%mm5 \n\t"//FIXME remove
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1580 "movq %%mm6, %%mm7 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1581 "movq %%mm0, %%mm6 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1582 // STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1583
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1584 LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1585 // LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1586
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1587 HADAMARD48
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1588 "movq %%mm7, 64(%1) \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1589 MMABS(%%mm0, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1590 MMABS_SUM(%%mm1, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1591 MMABS_SUM(%%mm2, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1592 MMABS_SUM(%%mm3, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1593 MMABS_SUM(%%mm4, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1594 MMABS_SUM(%%mm5, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1595 MMABS_SUM(%%mm6, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1596 "movq 64(%1), %%mm1 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1597 MMABS_SUM(%%mm1, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1598 "movq %%mm0, 64(%1) \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1599
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1600 LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1601 LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1602
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1603 HADAMARD48
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1604 "movq %%mm7, (%1) \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1605 MMABS(%%mm0, %%mm7)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1606 MMABS_SUM(%%mm1, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1607 MMABS_SUM(%%mm2, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1608 MMABS_SUM(%%mm3, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1609 MMABS_SUM(%%mm4, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1610 MMABS_SUM(%%mm5, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1611 MMABS_SUM(%%mm6, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1612 "movq (%1), %%mm1 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1613 MMABS_SUM(%%mm1, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1614 "movq 64(%1), %%mm1 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1615 MMABS_SUM(%%mm1, %%mm7, %%mm0)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1616
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1617 "movq %%mm0, %%mm1 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1618 "psrlq $32, %%mm0 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1619 "paddusw %%mm1, %%mm0 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1620 "movq %%mm0, %%mm1 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1621 "psrlq $16, %%mm0 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1622 "paddusw %%mm1, %%mm0 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1623 "movd %%mm0, %0 \n\t"
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1624
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1625 : "=r" (sum)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1626 : "r"(temp)
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1627 );
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1628 return sum&0xFFFF;
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1629 }
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	1630
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1631 static int hadamard8_diff_mmx2(void s, uint8_t src1, uint8_t *src2, int stride, int h){
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1632 uint64_t temp[16] __align8;
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1633 int sum=0;
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1634
dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1635 assert(h==8);
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1636
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1637 diff_pixels_mmx((DCTELEM*)temp, src1, src2, stride);
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1638
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1639 asm volatile(
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1640 LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1641 LOAD4(64, %%mm4, %%mm5, %%mm6, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1642
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1643 HADAMARD48
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1644
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1645 "movq %%mm7, 112(%1) \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1646
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1647 TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1648 STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1649
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1650 "movq 112(%1), %%mm7 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1651 TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1652 STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1653
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1654 LOAD4(8 , %%mm0, %%mm1, %%mm2, %%mm3)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1655 LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1656
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1657 HADAMARD48
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1658
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1659 "movq %%mm7, 120(%1) \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1660
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1661 TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1662 STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1663
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1664 "movq 120(%1), %%mm7 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1665 TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1666 "movq %%mm7, %%mm5 \n\t"//FIXME remove
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1667 "movq %%mm6, %%mm7 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1668 "movq %%mm0, %%mm6 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1669 // STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1670
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1671 LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1672 // LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1673
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1674 HADAMARD48
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1675 "movq %%mm7, 64(%1) \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1676 MMABS_MMX2(%%mm0, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1677 MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1678 MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1679 MMABS_SUM_MMX2(%%mm3, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1680 MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1681 MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1682 MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1683 "movq 64(%1), %%mm1 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1684 MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1685 "movq %%mm0, 64(%1) \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1686
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1687 LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1688 LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1689
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1690 HADAMARD48
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1691 "movq %%mm7, (%1) \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1692 MMABS_MMX2(%%mm0, %%mm7)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1693 MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1694 MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1695 MMABS_SUM_MMX2(%%mm3, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1696 MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1697 MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1698 MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1699 "movq (%1), %%mm1 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1700 MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1701 "movq 64(%1), %%mm1 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1702 MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1703
2892 41315d0120b3 replace a few mov + psrlq with pshufw, there are more cases which could benefit from this but they would require us to duplicate some functions ... michael parents: 2871 diff changeset	1704 "pshufw $0x0E, %%mm0, %%mm1 \n\t"
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1705 "paddusw %%mm1, %%mm0 \n\t"
2892 41315d0120b3 replace a few mov + psrlq with pshufw, there are more cases which could benefit from this but they would require us to duplicate some functions ... michael parents: 2871 diff changeset	1706 "pshufw $0x01, %%mm0, %%mm1 \n\t"
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1707 "paddusw %%mm1, %%mm0 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1708 "movd %%mm0, %0 \n\t"
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1709
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1710 : "=r" (sum)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1711 : "r"(temp)
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1712 );
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1713 return sum&0xFFFF;
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1714 }
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1715
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	1716
1708 dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1717 WARPER8_16_SQ(hadamard8_diff_mmx, hadamard8_diff16_mmx)
dea5b2946999 interlaced motion estimation michael parents: 1686 diff changeset	1718 WARPER8_16_SQ(hadamard8_diff_mmx2, hadamard8_diff16_mmx2)
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	1719 #endif //CONFIG_ENCODERS
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	1720
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1721 #define put_no_rnd_pixels8_mmx(a,b,c,d) put_pixels8_mmx(a,b,c,d)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1722 #define put_no_rnd_pixels16_mmx(a,b,c,d) put_pixels16_mmx(a,b,c,d)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1723
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1724 #define QPEL_V_LOW(m3,m4,m5,m6, pw_20, pw_3, rnd, in0, in1, in2, in7, out, OP)\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1725 "paddw " #m4 ", " #m3 " \n\t" /* x1 */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1726 "movq "MANGLE(ff_pw_20)", %%mm4 \n\t" /* 20 */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1727 "pmullw " #m3 ", %%mm4 \n\t" /* 20x1 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1728 "movq "#in7", " #m3 " \n\t" /* d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1729 "movq "#in0", %%mm5 \n\t" /* D */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1730 "paddw " #m3 ", %%mm5 \n\t" /* x4 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1731 "psubw %%mm5, %%mm4 \n\t" /* 20x1 - x4 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1732 "movq "#in1", %%mm5 \n\t" /* C */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1733 "movq "#in2", %%mm6 \n\t" /* B */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1734 "paddw " #m6 ", %%mm5 \n\t" /* x3 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1735 "paddw " #m5 ", %%mm6 \n\t" /* x2 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1736 "paddw %%mm6, %%mm6 \n\t" /* 2x2 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1737 "psubw %%mm6, %%mm5 \n\t" /* -2x2 + x3 */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1738 "pmullw "MANGLE(ff_pw_3)", %%mm5 \n\t" /* -6x2 + 3x3 */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1739 "paddw " #rnd ", %%mm4 \n\t" /* x2 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1740 "paddw %%mm4, %%mm5 \n\t" /* 20x1 - 6x2 + 3x3 - x4 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1741 "psraw $5, %%mm5 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1742 "packuswb %%mm5, %%mm5 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1743 OP(%%mm5, out, %%mm7, d)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1744
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1745 #define QPEL_BASE(OPNAME, ROUNDER, RND, OP_MMX2, OP_3DNOW)\
1057 bb5de8a59da8 * static,const,compiler warning cleanup kabi parents: 997 diff changeset	1746 static void OPNAME ## mpeg4_qpel16_h_lowpass_mmx2(uint8_t dst, uint8_t src, int dstStride, int srcStride, int h){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1747 uint64_t temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1748 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1749 asm volatile(\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1750 "pxor %%mm7, %%mm7 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1751 "1: \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1752 "movq (%0), %%mm0 \n\t" /* ABCDEFGH */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1753 "movq %%mm0, %%mm1 \n\t" /* ABCDEFGH */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1754 "movq %%mm0, %%mm2 \n\t" /* ABCDEFGH */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1755 "punpcklbw %%mm7, %%mm0 \n\t" /* 0A0B0C0D */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1756 "punpckhbw %%mm7, %%mm1 \n\t" /* 0E0F0G0H */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1757 "pshufw $0x90, %%mm0, %%mm5 \n\t" /* 0A0A0B0C */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1758 "pshufw $0x41, %%mm0, %%mm6 \n\t" /* 0B0A0A0B */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1759 "movq %%mm2, %%mm3 \n\t" /* ABCDEFGH */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1760 "movq %%mm2, %%mm4 \n\t" /* ABCDEFGH */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1761 "psllq $8, %%mm2 \n\t" /* 0ABCDEFG */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1762 "psllq $16, %%mm3 \n\t" /* 00ABCDEF */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1763 "psllq $24, %%mm4 \n\t" /* 000ABCDE */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1764 "punpckhbw %%mm7, %%mm2 \n\t" /* 0D0E0F0G */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1765 "punpckhbw %%mm7, %%mm3 \n\t" /* 0C0D0E0F */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1766 "punpckhbw %%mm7, %%mm4 \n\t" /* 0B0C0D0E */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1767 "paddw %%mm3, %%mm5 \n\t" /* b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1768 "paddw %%mm2, %%mm6 \n\t" /* c */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1769 "paddw %%mm5, %%mm5 \n\t" /* 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1770 "psubw %%mm5, %%mm6 \n\t" /* c - 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1771 "pshufw $0x06, %%mm0, %%mm5 \n\t" /* 0C0B0A0A */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1772 "pmullw "MANGLE(ff_pw_3)", %%mm6 \n\t" /* 3c - 6b */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1773 "paddw %%mm4, %%mm0 \n\t" /* a */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1774 "paddw %%mm1, %%mm5 \n\t" /* d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1775 "pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1776 "psubw %%mm5, %%mm0 \n\t" /* 20a - d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1777 "paddw %6, %%mm6 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1778 "paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1779 "psraw $5, %%mm0 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1780 "movq %%mm0, %5 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1781 /* mm1=EFGH, mm2=DEFG, mm3=CDEF, mm4=BCDE, mm7=0 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1782 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1783 "movq 5(%0), %%mm0 \n\t" /* FGHIJKLM */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1784 "movq %%mm0, %%mm5 \n\t" /* FGHIJKLM */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1785 "movq %%mm0, %%mm6 \n\t" /* FGHIJKLM */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1786 "psrlq $8, %%mm0 \n\t" /* GHIJKLM0 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1787 "psrlq $16, %%mm5 \n\t" /* HIJKLM00 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1788 "punpcklbw %%mm7, %%mm0 \n\t" /* 0G0H0I0J */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1789 "punpcklbw %%mm7, %%mm5 \n\t" /* 0H0I0J0K */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1790 "paddw %%mm0, %%mm2 \n\t" /* b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1791 "paddw %%mm5, %%mm3 \n\t" /* c */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1792 "paddw %%mm2, %%mm2 \n\t" /* 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1793 "psubw %%mm2, %%mm3 \n\t" /* c - 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1794 "movq %%mm6, %%mm2 \n\t" /* FGHIJKLM */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1795 "psrlq $24, %%mm6 \n\t" /* IJKLM000 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1796 "punpcklbw %%mm7, %%mm2 \n\t" /* 0F0G0H0I */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1797 "punpcklbw %%mm7, %%mm6 \n\t" /* 0I0J0K0L */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1798 "pmullw "MANGLE(ff_pw_3)", %%mm3 \n\t" /* 3c - 6b */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1799 "paddw %%mm2, %%mm1 \n\t" /* a */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1800 "paddw %%mm6, %%mm4 \n\t" /* d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1801 "pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1802 "psubw %%mm4, %%mm3 \n\t" /* - 6b +3c - d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1803 "paddw %6, %%mm1 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1804 "paddw %%mm1, %%mm3 \n\t" /* 20a - 6b +3c - d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1805 "psraw $5, %%mm3 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1806 "movq %5, %%mm1 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1807 "packuswb %%mm3, %%mm1 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1808 OP_MMX2(%%mm1, (%1),%%mm4, q)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1809 /* mm0= GHIJ, mm2=FGHI, mm5=HIJK, mm6=IJKL, mm7=0 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1810 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1811 "movq 9(%0), %%mm1 \n\t" /* JKLMNOPQ */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1812 "movq %%mm1, %%mm4 \n\t" /* JKLMNOPQ */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1813 "movq %%mm1, %%mm3 \n\t" /* JKLMNOPQ */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1814 "psrlq $8, %%mm1 \n\t" /* KLMNOPQ0 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1815 "psrlq $16, %%mm4 \n\t" /* LMNOPQ00 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1816 "punpcklbw %%mm7, %%mm1 \n\t" /* 0K0L0M0N */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1817 "punpcklbw %%mm7, %%mm4 \n\t" /* 0L0M0N0O */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1818 "paddw %%mm1, %%mm5 \n\t" /* b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1819 "paddw %%mm4, %%mm0 \n\t" /* c */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1820 "paddw %%mm5, %%mm5 \n\t" /* 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1821 "psubw %%mm5, %%mm0 \n\t" /* c - 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1822 "movq %%mm3, %%mm5 \n\t" /* JKLMNOPQ */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1823 "psrlq $24, %%mm3 \n\t" /* MNOPQ000 */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1824 "pmullw "MANGLE(ff_pw_3)", %%mm0 \n\t" /* 3c - 6b */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1825 "punpcklbw %%mm7, %%mm3 \n\t" /* 0M0N0O0P */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1826 "paddw %%mm3, %%mm2 \n\t" /* d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1827 "psubw %%mm2, %%mm0 \n\t" /* -6b + 3c - d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1828 "movq %%mm5, %%mm2 \n\t" /* JKLMNOPQ */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1829 "punpcklbw %%mm7, %%mm2 \n\t" /* 0J0K0L0M */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1830 "punpckhbw %%mm7, %%mm5 \n\t" /* 0N0O0P0Q */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1831 "paddw %%mm2, %%mm6 \n\t" /* a */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1832 "pmullw "MANGLE(ff_pw_20)", %%mm6 \n\t" /* 20a */\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1833 "paddw %6, %%mm0 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1834 "paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1835 "psraw $5, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1836 /* mm1=KLMN, mm2=JKLM, mm3=MNOP, mm4=LMNO, mm5=NOPQ mm7=0 */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1837 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1838 "paddw %%mm5, %%mm3 \n\t" /* a */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1839 "pshufw $0xF9, %%mm5, %%mm6 \n\t" /* 0O0P0Q0Q */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1840 "paddw %%mm4, %%mm6 \n\t" /* b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1841 "pshufw $0xBE, %%mm5, %%mm4 \n\t" /* 0P0Q0Q0P */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1842 "pshufw $0x6F, %%mm5, %%mm5 \n\t" /* 0Q0Q0P0O */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1843 "paddw %%mm1, %%mm4 \n\t" /* c */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1844 "paddw %%mm2, %%mm5 \n\t" /* d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1845 "paddw %%mm6, %%mm6 \n\t" /* 2b */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1846 "psubw %%mm6, %%mm4 \n\t" /* c - 2b */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1847 "pmullw "MANGLE(ff_pw_20)", %%mm3 \n\t" /* 20a */\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1848 "pmullw "MANGLE(ff_pw_3)", %%mm4 \n\t" /* 3c - 6b */\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1849 "psubw %%mm5, %%mm3 \n\t" /* -6b + 3c - d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1850 "paddw %6, %%mm4 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1851 "paddw %%mm3, %%mm4 \n\t" /* 20a - 6b + 3c - d */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1852 "psraw $5, %%mm4 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1853 "packuswb %%mm4, %%mm0 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1854 OP_MMX2(%%mm0, 8(%1), %%mm4, q)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1855 \
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1856 "add %3, %0 \n\t"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1857 "add %4, %1 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1858 "decl %2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1859 " jnz 1b \n\t"\
967 274b518c4ecb PIC / ebx fix michaelni parents: 966 diff changeset	1860 : "+a"(src), "+c"(dst), "+m"(h)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1861 : "d"((long)srcStride), "S"((long)dstStride), /"m"(ff_pw_20), "m"(ff_pw_3),/ "m"(temp), "m"(ROUNDER)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	1862 : "memory"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1863 );\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1864 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1865 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1866 static void OPNAME ## mpeg4_qpel16_h_lowpass_3dnow(uint8_t dst, uint8_t src, int dstStride, int srcStride, int h){\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1867 int i;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1868 int16_t temp[16];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1869 /* quick HACK, XXX FIXME MUST be optimized */\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1870 for(i=0; i<h; i++)\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1871 {\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1872 temp[ 0]= (src[ 0]+src[ 1])20 - (src[ 0]+src[ 2])6 + (src[ 1]+src[ 3])*3 - (src[ 2]+src[ 4]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1873 temp[ 1]= (src[ 1]+src[ 2])20 - (src[ 0]+src[ 3])6 + (src[ 0]+src[ 4])*3 - (src[ 1]+src[ 5]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1874 temp[ 2]= (src[ 2]+src[ 3])20 - (src[ 1]+src[ 4])6 + (src[ 0]+src[ 5])*3 - (src[ 0]+src[ 6]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1875 temp[ 3]= (src[ 3]+src[ 4])20 - (src[ 2]+src[ 5])6 + (src[ 1]+src[ 6])*3 - (src[ 0]+src[ 7]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1876 temp[ 4]= (src[ 4]+src[ 5])20 - (src[ 3]+src[ 6])6 + (src[ 2]+src[ 7])*3 - (src[ 1]+src[ 8]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1877 temp[ 5]= (src[ 5]+src[ 6])20 - (src[ 4]+src[ 7])6 + (src[ 3]+src[ 8])*3 - (src[ 2]+src[ 9]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1878 temp[ 6]= (src[ 6]+src[ 7])20 - (src[ 5]+src[ 8])6 + (src[ 4]+src[ 9])*3 - (src[ 3]+src[10]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1879 temp[ 7]= (src[ 7]+src[ 8])20 - (src[ 6]+src[ 9])6 + (src[ 5]+src[10])*3 - (src[ 4]+src[11]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1880 temp[ 8]= (src[ 8]+src[ 9])20 - (src[ 7]+src[10])6 + (src[ 6]+src[11])*3 - (src[ 5]+src[12]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1881 temp[ 9]= (src[ 9]+src[10])20 - (src[ 8]+src[11])6 + (src[ 7]+src[12])*3 - (src[ 6]+src[13]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1882 temp[10]= (src[10]+src[11])20 - (src[ 9]+src[12])6 + (src[ 8]+src[13])*3 - (src[ 7]+src[14]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1883 temp[11]= (src[11]+src[12])20 - (src[10]+src[13])6 + (src[ 9]+src[14])*3 - (src[ 8]+src[15]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1884 temp[12]= (src[12]+src[13])20 - (src[11]+src[14])6 + (src[10]+src[15])*3 - (src[ 9]+src[16]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1885 temp[13]= (src[13]+src[14])20 - (src[12]+src[15])6 + (src[11]+src[16])*3 - (src[10]+src[16]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1886 temp[14]= (src[14]+src[15])20 - (src[13]+src[16])6 + (src[12]+src[16])*3 - (src[11]+src[15]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1887 temp[15]= (src[15]+src[16])20 - (src[14]+src[16])6 + (src[13]+src[15])*3 - (src[12]+src[14]);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1888 asm volatile(\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1889 "movq (%0), %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1890 "movq 8(%0), %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1891 "paddw %2, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1892 "paddw %2, %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1893 "psraw $5, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1894 "psraw $5, %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1895 "packuswb %%mm1, %%mm0 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1896 OP_3DNOW(%%mm0, (%1), %%mm1, q)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1897 "movq 16(%0), %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1898 "movq 24(%0), %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1899 "paddw %2, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1900 "paddw %2, %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1901 "psraw $5, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1902 "psraw $5, %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1903 "packuswb %%mm1, %%mm0 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1904 OP_3DNOW(%%mm0, 8(%1), %%mm1, q)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1905 :: "r"(temp), "r"(dst), "m"(ROUNDER)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	1906 : "memory"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1907 );\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1908 dst+=dstStride;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1909 src+=srcStride;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1910 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1911 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	1912 \
1057 bb5de8a59da8 * static,const,compiler warning cleanup kabi parents: 997 diff changeset	1913 static void OPNAME ## mpeg4_qpel8_h_lowpass_mmx2(uint8_t dst, uint8_t src, int dstStride, int srcStride, int h){\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1914 uint64_t temp;\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1915 \
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1916 asm volatile(\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1917 "pxor %%mm7, %%mm7 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1918 "1: \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1919 "movq (%0), %%mm0 \n\t" /* ABCDEFGH */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1920 "movq %%mm0, %%mm1 \n\t" /* ABCDEFGH */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1921 "movq %%mm0, %%mm2 \n\t" /* ABCDEFGH */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1922 "punpcklbw %%mm7, %%mm0 \n\t" /* 0A0B0C0D */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1923 "punpckhbw %%mm7, %%mm1 \n\t" /* 0E0F0G0H */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1924 "pshufw $0x90, %%mm0, %%mm5 \n\t" /* 0A0A0B0C */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1925 "pshufw $0x41, %%mm0, %%mm6 \n\t" /* 0B0A0A0B */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1926 "movq %%mm2, %%mm3 \n\t" /* ABCDEFGH */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1927 "movq %%mm2, %%mm4 \n\t" /* ABCDEFGH */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1928 "psllq $8, %%mm2 \n\t" /* 0ABCDEFG */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1929 "psllq $16, %%mm3 \n\t" /* 00ABCDEF */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1930 "psllq $24, %%mm4 \n\t" /* 000ABCDE */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1931 "punpckhbw %%mm7, %%mm2 \n\t" /* 0D0E0F0G */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1932 "punpckhbw %%mm7, %%mm3 \n\t" /* 0C0D0E0F */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1933 "punpckhbw %%mm7, %%mm4 \n\t" /* 0B0C0D0E */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1934 "paddw %%mm3, %%mm5 \n\t" /* b */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1935 "paddw %%mm2, %%mm6 \n\t" /* c */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1936 "paddw %%mm5, %%mm5 \n\t" /* 2b */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1937 "psubw %%mm5, %%mm6 \n\t" /* c - 2b */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1938 "pshufw $0x06, %%mm0, %%mm5 \n\t" /* 0C0B0A0A */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1939 "pmullw "MANGLE(ff_pw_3)", %%mm6 \n\t" /* 3c - 6b */\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1940 "paddw %%mm4, %%mm0 \n\t" /* a */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1941 "paddw %%mm1, %%mm5 \n\t" /* d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1942 "pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1943 "psubw %%mm5, %%mm0 \n\t" /* 20a - d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1944 "paddw %6, %%mm6 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1945 "paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1946 "psraw $5, %%mm0 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1947 /* mm1=EFGH, mm2=DEFG, mm3=CDEF, mm4=BCDE, mm7=0 */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1948 \
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1949 "movd 5(%0), %%mm5 \n\t" /* FGHI */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1950 "punpcklbw %%mm7, %%mm5 \n\t" /* 0F0G0H0I */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1951 "pshufw $0xF9, %%mm5, %%mm6 \n\t" /* 0G0H0I0I */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1952 "paddw %%mm5, %%mm1 \n\t" /* a */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1953 "paddw %%mm6, %%mm2 \n\t" /* b */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1954 "pshufw $0xBE, %%mm5, %%mm6 \n\t" /* 0H0I0I0H */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1955 "pshufw $0x6F, %%mm5, %%mm5 \n\t" /* 0I0I0H0G */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1956 "paddw %%mm6, %%mm3 \n\t" /* c */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1957 "paddw %%mm5, %%mm4 \n\t" /* d */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1958 "paddw %%mm2, %%mm2 \n\t" /* 2b */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1959 "psubw %%mm2, %%mm3 \n\t" /* c - 2b */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1960 "pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1961 "pmullw "MANGLE(ff_pw_3)", %%mm3 \n\t" /* 3c - 6b */\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1962 "psubw %%mm4, %%mm3 \n\t" /* -6b + 3c - d */\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1963 "paddw %6, %%mm1 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1964 "paddw %%mm1, %%mm3 \n\t" /* 20a - 6b + 3c - d */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1965 "psraw $5, %%mm3 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1966 "packuswb %%mm3, %%mm0 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1967 OP_MMX2(%%mm0, (%1), %%mm4, q)\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1968 \
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1969 "add %3, %0 \n\t"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1970 "add %4, %1 \n\t"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1971 "decl %2 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	1972 " jnz 1b \n\t"\
967 274b518c4ecb PIC / ebx fix michaelni parents: 966 diff changeset	1973 : "+a"(src), "+c"(dst), "+m"(h)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	1974 : "S"((long)srcStride), "D"((long)dstStride), /"m"(ff_pw_20), "m"(ff_pw_3),/ "m"(temp), "m"(ROUNDER)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	1975 : "memory"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1976 );\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1977 }\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1978 \
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1979 static void OPNAME ## mpeg4_qpel8_h_lowpass_3dnow(uint8_t dst, uint8_t src, int dstStride, int srcStride, int h){\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1980 int i;\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1981 int16_t temp[8];\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1982 /* quick HACK, XXX FIXME MUST be optimized */\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1983 for(i=0; i<h; i++)\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1984 {\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1985 temp[ 0]= (src[ 0]+src[ 1])20 - (src[ 0]+src[ 2])6 + (src[ 1]+src[ 3])*3 - (src[ 2]+src[ 4]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1986 temp[ 1]= (src[ 1]+src[ 2])20 - (src[ 0]+src[ 3])6 + (src[ 0]+src[ 4])*3 - (src[ 1]+src[ 5]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1987 temp[ 2]= (src[ 2]+src[ 3])20 - (src[ 1]+src[ 4])6 + (src[ 0]+src[ 5])*3 - (src[ 0]+src[ 6]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1988 temp[ 3]= (src[ 3]+src[ 4])20 - (src[ 2]+src[ 5])6 + (src[ 1]+src[ 6])*3 - (src[ 0]+src[ 7]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1989 temp[ 4]= (src[ 4]+src[ 5])20 - (src[ 3]+src[ 6])6 + (src[ 2]+src[ 7])*3 - (src[ 1]+src[ 8]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1990 temp[ 5]= (src[ 5]+src[ 6])20 - (src[ 4]+src[ 7])6 + (src[ 3]+src[ 8])*3 - (src[ 2]+src[ 8]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1991 temp[ 6]= (src[ 6]+src[ 7])20 - (src[ 5]+src[ 8])6 + (src[ 4]+src[ 8])*3 - (src[ 3]+src[ 7]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1992 temp[ 7]= (src[ 7]+src[ 8])20 - (src[ 6]+src[ 8])6 + (src[ 5]+src[ 7])*3 - (src[ 4]+src[ 6]);\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1993 asm volatile(\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1994 "movq (%0), %%mm0 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1995 "movq 8(%0), %%mm1 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1996 "paddw %2, %%mm0 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1997 "paddw %2, %%mm1 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1998 "psraw $5, %%mm0 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	1999 "psraw $5, %%mm1 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2000 "packuswb %%mm1, %%mm0 \n\t"\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2001 OP_3DNOW(%%mm0, (%1), %%mm1, q)\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2002 :: "r"(temp), "r"(dst), "m"(ROUNDER)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	2003 :"memory"\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2004 );\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2005 dst+=dstStride;\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2006 src+=srcStride;\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2007 }\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2008 }
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2009
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2010 #define QPEL_OP(OPNAME, ROUNDER, RND, OP, MMX)\
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2011 \
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2012 static void OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(uint8_t dst, uint8_t src, int dstStride, int srcStride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2013 uint64_t temp[17*4];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2014 uint64_t *temp_ptr= temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2015 int count= 17;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2016 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2017 /FIXME unroll /\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2018 asm volatile(\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2019 "pxor %%mm7, %%mm7 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2020 "1: \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2021 "movq (%0), %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2022 "movq (%0), %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2023 "movq 8(%0), %%mm2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2024 "movq 8(%0), %%mm3 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2025 "punpcklbw %%mm7, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2026 "punpckhbw %%mm7, %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2027 "punpcklbw %%mm7, %%mm2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2028 "punpckhbw %%mm7, %%mm3 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2029 "movq %%mm0, (%1) \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2030 "movq %%mm1, 17*8(%1) \n\t"\
967 274b518c4ecb PIC / ebx fix michaelni parents: 966 diff changeset	2031 "movq %%mm2, 2178(%1) \n\t"\
274b518c4ecb PIC / ebx fix michaelni parents: 966 diff changeset	2032 "movq %%mm3, 3178(%1) \n\t"\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2033 "add $8, %1 \n\t"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2034 "add %3, %0 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2035 "decl %2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2036 " jnz 1b \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2037 : "+r" (src), "+r" (temp_ptr), "+r"(count)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2038 : "r" ((long)srcStride)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	2039 : "memory"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2040 );\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2041 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2042 temp_ptr= temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2043 count=4;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2044 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2045 /FIXME reorder for speed /\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2046 asm volatile(\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2047 /"pxor %%mm7, %%mm7 \n\t"/\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2048 "1: \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2049 "movq (%0), %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2050 "movq 8(%0), %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2051 "movq 16(%0), %%mm2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2052 "movq 24(%0), %%mm3 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2053 QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0), 8(%0), (%0), 32(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2054 QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 8(%0), (%0), (%0), 40(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2055 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2056 QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, (%0), (%0), 8(%0), 48(%0), (%1), OP)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2057 \
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2058 QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, (%0), 8(%0), 16(%0), 56(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2059 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2060 QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2061 QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 72(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2062 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2063 QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 80(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2064 QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 88(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2065 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2066 QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 40(%0), 48(%0), 56(%0), 96(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2067 QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 48(%0), 56(%0), 64(%0),104(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2068 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2069 QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 56(%0), 64(%0), 72(%0),112(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2070 QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 64(%0), 72(%0), 80(%0),120(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2071 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2072 QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 72(%0), 80(%0), 88(%0),128(%0), (%1), OP)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2073 \
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2074 QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 80(%0), 88(%0), 96(%0),128(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2075 "add %4, %1 \n\t" \
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2076 QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 88(%0), 96(%0),104(%0),120(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2077 QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 96(%0),104(%0),112(%0),112(%0), (%1, %3), OP)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2078 \
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2079 "add $136, %0 \n\t"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2080 "add %6, %1 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2081 "decl %2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2082 " jnz 1b \n\t"\
958 9bb668034ecf slowdown / gcc 2.95.* bug workaround (this should be reversed as soon as gcc 2.95.* support is droped) michaelni parents: 954 diff changeset	2083 \
967 274b518c4ecb PIC / ebx fix michaelni parents: 966 diff changeset	2084 : "+r"(temp_ptr), "+r"(dst), "+g"(count)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2085 : "r"((long)dstStride), "r"(2(long)dstStride), /"m"(ff_pw_20), "m"(ff_pw_3),/ "m"(ROUNDER), "g"(4-14(long)dstStride)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	2086 :"memory"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2087 );\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2088 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2089 \
1057 bb5de8a59da8 * static,const,compiler warning cleanup kabi parents: 997 diff changeset	2090 static void OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(uint8_t dst, uint8_t src, int dstStride, int srcStride){\
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2091 uint64_t temp[9*2];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2092 uint64_t *temp_ptr= temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2093 int count= 9;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2094 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2095 /FIXME unroll /\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2096 asm volatile(\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2097 "pxor %%mm7, %%mm7 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2098 "1: \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2099 "movq (%0), %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2100 "movq (%0), %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2101 "punpcklbw %%mm7, %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2102 "punpckhbw %%mm7, %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2103 "movq %%mm0, (%1) \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2104 "movq %%mm1, 9*8(%1) \n\t"\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2105 "add $8, %1 \n\t"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2106 "add %3, %0 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2107 "decl %2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2108 " jnz 1b \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2109 : "+r" (src), "+r" (temp_ptr), "+r"(count)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2110 : "r" ((long)srcStride)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	2111 : "memory"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2112 );\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2113 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2114 temp_ptr= temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2115 count=2;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2116 \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2117 /FIXME reorder for speed /\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2118 asm volatile(\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2119 /"pxor %%mm7, %%mm7 \n\t"/\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2120 "1: \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2121 "movq (%0), %%mm0 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2122 "movq 8(%0), %%mm1 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2123 "movq 16(%0), %%mm2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2124 "movq 24(%0), %%mm3 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2125 QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0), 8(%0), (%0), 32(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2126 QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 8(%0), (%0), (%0), 40(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2127 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2128 QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, (%0), (%0), 8(%0), 48(%0), (%1), OP)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2129 \
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2130 QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, (%0), 8(%0), 16(%0), 56(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2131 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2132 QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2133 \
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2134 QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 64(%0), (%1, %3), OP)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2135 "add %4, %1 \n\t"\
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2136 QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 56(%0), (%1), OP)\
f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2137 QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 48(%0), (%1, %3), OP)\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2138 \
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2139 "add $72, %0 \n\t"\
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2140 "add %6, %1 \n\t"\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2141 "decl %2 \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2142 " jnz 1b \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2143 \
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2144 : "+r"(temp_ptr), "+r"(dst), "+g"(count)\
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2145 : "r"((long)dstStride), "r"(2(long)dstStride), /"m"(ff_pw_20), "m"(ff_pw_3),/ "m"(ROUNDER), "g"(4-6(long)dstStride)\
966 7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	2146 : "memory"\
7ef9226f430e more gcc bug workarounds michaelni parents: 961 diff changeset	2147 );\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2148 }\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2149 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2150 static void OPNAME ## qpel8_mc00_ ## MMX (uint8_t dst, uint8_t src, int stride){\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2151 OPNAME ## pixels8_mmx(dst, src, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2152 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2153 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2154 static void OPNAME ## qpel8_mc10_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2155 uint64_t temp[8];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2156 uint8_t * const half= (uint8_t*)temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2157 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(half, src, 8, stride, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2158 OPNAME ## pixels8_l2_ ## MMX(dst, src, half, stride, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2159 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2160 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2161 static void OPNAME ## qpel8_mc20_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2162 OPNAME ## mpeg4_qpel8_h_lowpass_ ## MMX(dst, src, stride, stride, 8);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2163 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2164 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2165 static void OPNAME ## qpel8_mc30_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2166 uint64_t temp[8];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2167 uint8_t * const half= (uint8_t*)temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2168 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(half, src, 8, stride, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2169 OPNAME ## pixels8_l2_ ## MMX(dst, src+1, half, stride, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2170 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2171 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2172 static void OPNAME ## qpel8_mc01_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2173 uint64_t temp[8];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2174 uint8_t * const half= (uint8_t*)temp;\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2175 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(half, src, 8, stride);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2176 OPNAME ## pixels8_l2_ ## MMX(dst, src, half, stride, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2177 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2178 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2179 static void OPNAME ## qpel8_mc02_ ## MMX(uint8_t dst, uint8_t src, int stride){\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2180 OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, src, stride, stride);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2181 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2182 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2183 static void OPNAME ## qpel8_mc03_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2184 uint64_t temp[8];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2185 uint8_t * const half= (uint8_t*)temp;\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2186 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(half, src, 8, stride);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2187 OPNAME ## pixels8_l2_ ## MMX(dst, src+stride, half, stride, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2188 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2189 static void OPNAME ## qpel8_mc11_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2190 uint64_t half[8 + 9];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2191 uint8_t * const halfH= ((uint8_t*)half) + 64;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2192 uint8_t * const halfHV= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2193 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2194 put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2195 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2196 OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2197 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2198 static void OPNAME ## qpel8_mc31_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2199 uint64_t half[8 + 9];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2200 uint8_t * const halfH= ((uint8_t*)half) + 64;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2201 uint8_t * const halfHV= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2202 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2203 put ## RND ## pixels8_l2_ ## MMX(halfH, src+1, halfH, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2204 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2205 OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2206 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2207 static void OPNAME ## qpel8_mc13_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2208 uint64_t half[8 + 9];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2209 uint8_t * const halfH= ((uint8_t*)half) + 64;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2210 uint8_t * const halfHV= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2211 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2212 put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2213 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2214 OPNAME ## pixels8_l2_ ## MMX(dst, halfH+8, halfHV, stride, 8, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2215 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2216 static void OPNAME ## qpel8_mc33_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2217 uint64_t half[8 + 9];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2218 uint8_t * const halfH= ((uint8_t*)half) + 64;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2219 uint8_t * const halfHV= ((uint8_t*)half);\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2220 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2221 put ## RND ## pixels8_l2_ ## MMX(halfH, src+1, halfH, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2222 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2223 OPNAME ## pixels8_l2_ ## MMX(dst, halfH+8, halfHV, stride, 8, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2224 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2225 static void OPNAME ## qpel8_mc21_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2226 uint64_t half[8 + 9];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2227 uint8_t * const halfH= ((uint8_t*)half) + 64;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2228 uint8_t * const halfHV= ((uint8_t*)half);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2229 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2230 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2231 OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2232 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2233 static void OPNAME ## qpel8_mc23_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2234 uint64_t half[8 + 9];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2235 uint8_t * const halfH= ((uint8_t*)half) + 64;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2236 uint8_t * const halfHV= ((uint8_t*)half);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2237 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2238 put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2239 OPNAME ## pixels8_l2_ ## MMX(dst, halfH+8, halfHV, stride, 8, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2240 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2241 static void OPNAME ## qpel8_mc12_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2242 uint64_t half[8 + 9];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2243 uint8_t * const halfH= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2244 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2245 put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2246 OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2247 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2248 static void OPNAME ## qpel8_mc32_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2249 uint64_t half[8 + 9];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2250 uint8_t * const halfH= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2251 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2252 put ## RND ## pixels8_l2_ ## MMX(halfH, src+1, halfH, 8, stride, 9);\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2253 OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2254 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2255 static void OPNAME ## qpel8_mc22_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2256 uint64_t half[9];\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2257 uint8_t * const halfH= ((uint8_t*)half);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2258 put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2259 OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2260 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2261 static void OPNAME ## qpel16_mc00_ ## MMX (uint8_t dst, uint8_t src, int stride){\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2262 OPNAME ## pixels16_mmx(dst, src, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2263 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2264 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2265 static void OPNAME ## qpel16_mc10_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2266 uint64_t temp[32];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2267 uint8_t * const half= (uint8_t*)temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2268 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(half, src, 16, stride, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2269 OPNAME ## pixels16_l2_ ## MMX(dst, src, half, stride, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2270 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2271 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2272 static void OPNAME ## qpel16_mc20_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2273 OPNAME ## mpeg4_qpel16_h_lowpass_ ## MMX(dst, src, stride, stride, 16);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2274 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2275 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2276 static void OPNAME ## qpel16_mc30_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2277 uint64_t temp[32];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2278 uint8_t * const half= (uint8_t*)temp;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2279 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(half, src, 16, stride, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2280 OPNAME ## pixels16_l2_ ## MMX(dst, src+1, half, stride, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2281 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2282 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2283 static void OPNAME ## qpel16_mc01_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2284 uint64_t temp[32];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2285 uint8_t * const half= (uint8_t*)temp;\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2286 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(half, src, 16, stride);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2287 OPNAME ## pixels16_l2_ ## MMX(dst, src, half, stride, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2288 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2289 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2290 static void OPNAME ## qpel16_mc02_ ## MMX(uint8_t dst, uint8_t src, int stride){\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2291 OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, src, stride, stride);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2292 }\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2293 \
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2294 static void OPNAME ## qpel16_mc03_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2295 uint64_t temp[32];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2296 uint8_t * const half= (uint8_t*)temp;\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2297 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(half, src, 16, stride);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2298 OPNAME ## pixels16_l2_ ## MMX(dst, src+stride, half, stride, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2299 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2300 static void OPNAME ## qpel16_mc11_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2301 uint64_t half[162 + 172];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2302 uint8_t * const halfH= ((uint8_t*)half) + 256;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2303 uint8_t * const halfHV= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2304 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2305 put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2306 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2307 OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2308 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2309 static void OPNAME ## qpel16_mc31_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2310 uint64_t half[162 + 172];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2311 uint8_t * const halfH= ((uint8_t*)half) + 256;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2312 uint8_t * const halfHV= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2313 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2314 put ## RND ## pixels16_l2_ ## MMX(halfH, src+1, halfH, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2315 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2316 OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2317 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2318 static void OPNAME ## qpel16_mc13_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2319 uint64_t half[162 + 172];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2320 uint8_t * const halfH= ((uint8_t*)half) + 256;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2321 uint8_t * const halfHV= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2322 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2323 put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2324 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2325 OPNAME ## pixels16_l2_ ## MMX(dst, halfH+16, halfHV, stride, 16, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2326 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2327 static void OPNAME ## qpel16_mc33_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2328 uint64_t half[162 + 172];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2329 uint8_t * const halfH= ((uint8_t*)half) + 256;\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2330 uint8_t * const halfHV= ((uint8_t*)half);\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2331 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2332 put ## RND ## pixels16_l2_ ## MMX(halfH, src+1, halfH, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2333 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2334 OPNAME ## pixels16_l2_ ## MMX(dst, halfH+16, halfHV, stride, 16, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2335 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2336 static void OPNAME ## qpel16_mc21_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2337 uint64_t half[162 + 172];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2338 uint8_t * const halfH= ((uint8_t*)half) + 256;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2339 uint8_t * const halfHV= ((uint8_t*)half);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2340 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2341 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2342 OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2343 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2344 static void OPNAME ## qpel16_mc23_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2345 uint64_t half[162 + 172];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2346 uint8_t * const halfH= ((uint8_t*)half) + 256;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2347 uint8_t * const halfHV= ((uint8_t*)half);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2348 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2349 put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2350 OPNAME ## pixels16_l2_ ## MMX(dst, halfH+16, halfHV, stride, 16, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2351 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2352 static void OPNAME ## qpel16_mc12_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2353 uint64_t half[17*2];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2354 uint8_t * const halfH= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2355 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2356 put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16, stride, 17);\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2357 OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2358 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2359 static void OPNAME ## qpel16_mc32_ ## MMX(uint8_t dst, uint8_t src, int stride){\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2360 uint64_t half[17*2];\
e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2361 uint8_t * const halfH= ((uint8_t*)half);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2362 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
2207 22b768f1261a 10000l fix and use more mmx2/3dnow code for mpeg4 qpel which has been written and commited long time ago but appearently never used, qpel motion compensation is 5% faster michael parents: 2067 diff changeset	2363 put ## RND ## pixels16_l2_ ## MMX(halfH, src+1, halfH, 16, stride, 17);\
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2364 OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2365 }\
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 1057 diff changeset	2366 static void OPNAME ## qpel16_mc22_ ## MMX(uint8_t dst, uint8_t src, int stride){\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2367 uint64_t half[17*2];\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2368 uint8_t * const halfH= ((uint8_t*)half);\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2369 put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2370 OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2371 }
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2372
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2373 #define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b " \n\t"
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2374 #define AVG_3DNOW_OP(a,b,temp, size) \
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2375 "mov" #size " " #b ", " #temp " \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2376 "pavgusb " #temp ", " #a " \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2377 "mov" #size " " #a ", " #b " \n\t"
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2378 #define AVG_MMX2_OP(a,b,temp, size) \
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2379 "mov" #size " " #b ", " #temp " \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2380 "pavgb " #temp ", " #a " \n\t"\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2381 "mov" #size " " #a ", " #b " \n\t"
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2382
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2383 QPEL_BASE(put_ , ff_pw_16, _ , PUT_OP, PUT_OP)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2384 QPEL_BASE(avg_ , ff_pw_16, _ , AVG_MMX2_OP, AVG_3DNOW_OP)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2385 QPEL_BASE(put_no_rnd_, ff_pw_15, _no_rnd_, PUT_OP, PUT_OP)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2386 QPEL_OP(put_ , ff_pw_16, _ , PUT_OP, 3dnow)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2387 QPEL_OP(avg_ , ff_pw_16, _ , AVG_3DNOW_OP, 3dnow)
3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2388 QPEL_OP(put_no_rnd_, ff_pw_15, _no_rnd_, PUT_OP, 3dnow)
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2389 QPEL_OP(put_ , ff_pw_16, _ , PUT_OP, mmx2)
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2390 QPEL_OP(avg_ , ff_pw_16, _ , AVG_MMX2_OP, mmx2)
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2391 QPEL_OP(put_no_rnd_, ff_pw_15, _no_rnd_, PUT_OP, mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2392
393 bf164fce2c14 removed debug function glantau parents: 387 diff changeset	2393 #if 0
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2394 static void just_return() { return; }
393 bf164fce2c14 removed debug function glantau parents: 387 diff changeset	2395 #endif
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2396
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2397 #define SET_QPEL_FUNC(postfix1, postfix2) \
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2398 c->put_ ## postfix1 = put_ ## postfix2;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2399 c->put_no_rnd_ ## postfix1 = put_no_rnd_ ## postfix2;\
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2400 c->avg_ ## postfix1 = avg_ ## postfix2;
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2401
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2402 static int try_8x8basis_mmx(int16_t rem[64], int16_t weight[64], int16_t basis[64], int scale){
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2403 long i=0;
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2404
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2405 assert(ABS(scale) < 256);
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2406 scale<<= 16 + 1 - BASIS_SHIFT + RECON_SHIFT;
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2407
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2408 asm volatile(
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2409 "pcmpeqw %%mm6, %%mm6 \n\t" // -1w
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2410 "psrlw $15, %%mm6 \n\t" // 1w
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2411 "pxor %%mm7, %%mm7 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2412 "movd %4, %%mm5 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2413 "punpcklwd %%mm5, %%mm5 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2414 "punpcklwd %%mm5, %%mm5 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2415 "1: \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2416 "movq (%1, %0), %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2417 "movq 8(%1, %0), %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2418 "pmulhw %%mm5, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2419 "pmulhw %%mm5, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2420 "paddw %%mm6, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2421 "paddw %%mm6, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2422 "psraw $1, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2423 "psraw $1, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2424 "paddw (%2, %0), %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2425 "paddw 8(%2, %0), %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2426 "psraw $6, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2427 "psraw $6, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2428 "pmullw (%3, %0), %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2429 "pmullw 8(%3, %0), %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2430 "pmaddwd %%mm0, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2431 "pmaddwd %%mm1, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2432 "paddd %%mm1, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2433 "psrld $4, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2434 "paddd %%mm0, %%mm7 \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2435 "add $16, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2436 "cmp $128, %0 \n\t" //FIXME optimize & bench
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2437 " jb 1b \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2438 "movq %%mm7, %%mm6 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2439 "psrlq $32, %%mm7 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2440 "paddd %%mm6, %%mm7 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2441 "psrld $2, %%mm7 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2442 "movd %%mm7, %0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2443
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2444 : "+r" (i)
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2445 : "r"(basis), "r"(rem), "r"(weight), "g"(scale)
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2446 );
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2447 return i;
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2448 }
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2449
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2450 static void add_8x8basis_mmx(int16_t rem[64], int16_t basis[64], int scale){
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2451 long i=0;
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2452
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2453 if(ABS(scale) < 256){
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2454 scale<<= 16 + 1 - BASIS_SHIFT + RECON_SHIFT;
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2455 asm volatile(
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2456 "pcmpeqw %%mm6, %%mm6 \n\t" // -1w
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2457 "psrlw $15, %%mm6 \n\t" // 1w
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2458 "movd %3, %%mm5 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2459 "punpcklwd %%mm5, %%mm5 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2460 "punpcklwd %%mm5, %%mm5 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2461 "1: \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2462 "movq (%1, %0), %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2463 "movq 8(%1, %0), %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2464 "pmulhw %%mm5, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2465 "pmulhw %%mm5, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2466 "paddw %%mm6, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2467 "paddw %%mm6, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2468 "psraw $1, %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2469 "psraw $1, %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2470 "paddw (%2, %0), %%mm0 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2471 "paddw 8(%2, %0), %%mm1 \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2472 "movq %%mm0, (%2, %0) \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2473 "movq %%mm1, 8(%2, %0) \n\t"
2293 15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2474 "add $16, %0 \n\t"
15cfba1b97b5 adapting existing mmx/mmx2/sse/3dnow optimizations so they work on x86_64 patch by (Aurelien Jacobs <aurel at gnuage dot org>) michael parents: 2256 diff changeset	2475 "cmp $128, %0 \n\t" //FIXME optimize & bench
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2476 " jb 1b \n\t"
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2477
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2478 : "+r" (i)
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2479 : "r"(basis), "r"(rem), "g"(scale)
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2480 );
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2481 }else{
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2482 for(i=0; i<8*8; i++){
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2483 rem[i] += (basis[i]*scale + (1<<(BASIS_SHIFT - RECON_SHIFT-1)))>>(BASIS_SHIFT - RECON_SHIFT);
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2484 }
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2485 }
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2486 }
2754 a49f140179e9 sort H.264 mmx dsp functions into their own file lorenm parents: 2753 diff changeset	2487
a49f140179e9 sort H.264 mmx dsp functions into their own file lorenm parents: 2753 diff changeset	2488 #include "h264dsp_mmx.c"
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2489
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2490 /* external functions, from idct_mmx.c */
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2491 void ff_mmx_idct(DCTELEM *block);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2492 void ff_mmxext_idct(DCTELEM *block);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2493
2696 9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2494 void ff_vp3_idct_sse2(int16_t *input_data);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2495 void ff_vp3_idct_mmx(int16_t *data);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2496 void ff_vp3_dsp_init_mmx(void);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2497
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2498 /* XXX: those functions should be suppressed ASAP when all IDCTs are
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2499 converted */
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2500 static void ff_libmpeg2mmx_idct_put(uint8_t dest, int line_size, DCTELEM block)
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2501 {
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2502 ff_mmx_idct (block);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2503 put_pixels_clamped_mmx(block, dest, line_size);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2504 }
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2505 static void ff_libmpeg2mmx_idct_add(uint8_t dest, int line_size, DCTELEM block)
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2506 {
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2507 ff_mmx_idct (block);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2508 add_pixels_clamped_mmx(block, dest, line_size);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2509 }
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2510 static void ff_libmpeg2mmx2_idct_put(uint8_t dest, int line_size, DCTELEM block)
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2511 {
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2512 ff_mmxext_idct (block);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2513 put_pixels_clamped_mmx(block, dest, line_size);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2514 }
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2515 static void ff_libmpeg2mmx2_idct_add(uint8_t dest, int line_size, DCTELEM block)
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2516 {
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2517 ff_mmxext_idct (block);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2518 add_pixels_clamped_mmx(block, dest, line_size);
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2519 }
2696 9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2520 static void ff_vp3_idct_put_sse2(uint8_t dest, int line_size, DCTELEM block)
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2521 {
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2522 ff_vp3_idct_sse2(block);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2523 put_signed_pixels_clamped_mmx(block, dest, line_size);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2524 }
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2525 static void ff_vp3_idct_add_sse2(uint8_t dest, int line_size, DCTELEM block)
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2526 {
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2527 ff_vp3_idct_sse2(block);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2528 add_pixels_clamped_mmx(block, dest, line_size);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2529 }
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2530 static void ff_vp3_idct_put_mmx(uint8_t dest, int line_size, DCTELEM block)
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2531 {
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2532 ff_vp3_idct_mmx(block);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2533 put_signed_pixels_clamped_mmx(block, dest, line_size);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2534 }
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2535 static void ff_vp3_idct_add_mmx(uint8_t dest, int line_size, DCTELEM block)
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2536 {
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2537 ff_vp3_idct_mmx(block);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2538 add_pixels_clamped_mmx(block, dest, line_size);
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2539 }
2868 666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2540 #ifdef CONFIG_GPL
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2541 static void ff_idct_xvid_mmx_put(uint8_t dest, int line_size, DCTELEM block)
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2542 {
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2543 ff_idct_xvid_mmx (block);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2544 put_pixels_clamped_mmx(block, dest, line_size);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2545 }
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2546 static void ff_idct_xvid_mmx_add(uint8_t dest, int line_size, DCTELEM block)
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2547 {
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2548 ff_idct_xvid_mmx (block);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2549 add_pixels_clamped_mmx(block, dest, line_size);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2550 }
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2551 static void ff_idct_xvid_mmx2_put(uint8_t dest, int line_size, DCTELEM block)
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2552 {
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2553 ff_idct_xvid_mmx2 (block);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2554 put_pixels_clamped_mmx(block, dest, line_size);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2555 }
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2556 static void ff_idct_xvid_mmx2_add(uint8_t dest, int line_size, DCTELEM block)
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2557 {
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2558 ff_idct_xvid_mmx2 (block);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2559 add_pixels_clamped_mmx(block, dest, line_size);
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2560 }
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2561 #endif
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2562
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2563 void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
0 986e461dc072 Initial revision glantau parents: diff changeset	2564 {
986e461dc072 Initial revision glantau parents: diff changeset	2565 mm_flags = mm_support();
1115 74a46d77e061 * support FF_MM_FORCE kabi parents: 1092 diff changeset	2566
1122 ddc3b0140b8f * oooooops - sorry for this one - wrong logic kabi parents: 1115 diff changeset	2567 if (avctx->dsp_mask) {
ddc3b0140b8f * oooooops - sorry for this one - wrong logic kabi parents: 1115 diff changeset	2568 if (avctx->dsp_mask & FF_MM_FORCE)
ddc3b0140b8f * oooooops - sorry for this one - wrong logic kabi parents: 1115 diff changeset	2569 mm_flags \|= (avctx->dsp_mask & 0xffff);
ddc3b0140b8f * oooooops - sorry for this one - wrong logic kabi parents: 1115 diff changeset	2570 else
ddc3b0140b8f * oooooops - sorry for this one - wrong logic kabi parents: 1115 diff changeset	2571 mm_flags &= ~(avctx->dsp_mask & 0xffff);
ddc3b0140b8f * oooooops - sorry for this one - wrong logic kabi parents: 1115 diff changeset	2572 }
1115 74a46d77e061 * support FF_MM_FORCE kabi parents: 1092 diff changeset	2573
631 47a8964ba5cd be less verbose patch by (Lennert Buytenhek <buytenh at math dot leidenuniv dot nl>) michaelni parents: 629 diff changeset	2574 #if 0
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2575 av_log(avctx, AV_LOG_INFO, "libavcodec: CPU flags:");
0 986e461dc072 Initial revision glantau parents: diff changeset	2576 if (mm_flags & MM_MMX)
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2577 av_log(avctx, AV_LOG_INFO, " mmx");
0 986e461dc072 Initial revision glantau parents: diff changeset	2578 if (mm_flags & MM_MMXEXT)
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2579 av_log(avctx, AV_LOG_INFO, " mmxext");
0 986e461dc072 Initial revision glantau parents: diff changeset	2580 if (mm_flags & MM_3DNOW)
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2581 av_log(avctx, AV_LOG_INFO, " 3dnow");
0 986e461dc072 Initial revision glantau parents: diff changeset	2582 if (mm_flags & MM_SSE)
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2583 av_log(avctx, AV_LOG_INFO, " sse");
0 986e461dc072 Initial revision glantau parents: diff changeset	2584 if (mm_flags & MM_SSE2)
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2585 av_log(avctx, AV_LOG_INFO, " sse2");
771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2586 av_log(avctx, AV_LOG_INFO, "\n");
0 986e461dc072 Initial revision glantau parents: diff changeset	2587 #endif
986e461dc072 Initial revision glantau parents: diff changeset	2588
986e461dc072 Initial revision glantau parents: diff changeset	2589 if (mm_flags & MM_MMX) {
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2590 const int idct_algo= avctx->idct_algo;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2591
1232 e88d3b1fb2a1 more #ifdef CONFIG_ENCODERS by (Wolfgang Hesseler <qv at multimediaware dot com>) michaelni parents: 1186 diff changeset	2592 #ifdef CONFIG_ENCODERS
2024 f65d87bfdd5a some of the warning fixes by (Michael Roitzsch <mroi at users dot sourceforge dot net>) michael parents: 1985 diff changeset	2593 const int dct_algo = avctx->dct_algo;
1565 1a9a63f59849 minor mmx2 optimization if the dct michael parents: 1530 diff changeset	2594 if(dct_algo==FF_DCT_AUTO \|\| dct_algo==FF_DCT_MMX){
1765 e31754bc5b65 SSE2 fdct by (Balatoni Denes <pnis at coder dot hu>) michael parents: 1739 diff changeset	2595 if(mm_flags & MM_SSE2){
e31754bc5b65 SSE2 fdct by (Balatoni Denes <pnis at coder dot hu>) michael parents: 1739 diff changeset	2596 c->fdct = ff_fdct_sse2;
e31754bc5b65 SSE2 fdct by (Balatoni Denes <pnis at coder dot hu>) michael parents: 1739 diff changeset	2597 }else if(mm_flags & MM_MMXEXT){
1565 1a9a63f59849 minor mmx2 optimization if the dct michael parents: 1530 diff changeset	2598 c->fdct = ff_fdct_mmx2;
1a9a63f59849 minor mmx2 optimization if the dct michael parents: 1530 diff changeset	2599 }else{
1a9a63f59849 minor mmx2 optimization if the dct michael parents: 1530 diff changeset	2600 c->fdct = ff_fdct_mmx;
1a9a63f59849 minor mmx2 optimization if the dct michael parents: 1530 diff changeset	2601 }
1a9a63f59849 minor mmx2 optimization if the dct michael parents: 1530 diff changeset	2602 }
1232 e88d3b1fb2a1 more #ifdef CONFIG_ENCODERS by (Wolfgang Hesseler <qv at multimediaware dot com>) michaelni parents: 1186 diff changeset	2603 #endif //CONFIG_ENCODERS
2256 7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2604 if(avctx->lowres==0){
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2605 if(idct_algo==FF_IDCT_AUTO \|\| idct_algo==FF_IDCT_SIMPLEMMX){
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2606 c->idct_put= ff_simple_idct_put_mmx;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2607 c->idct_add= ff_simple_idct_add_mmx;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2608 c->idct = ff_simple_idct_mmx;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2609 c->idct_permutation_type= FF_SIMPLE_IDCT_PERM;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2610 }else if(idct_algo==FF_IDCT_LIBMPEG2MMX){
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2611 if(mm_flags & MM_MMXEXT){
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2612 c->idct_put= ff_libmpeg2mmx2_idct_put;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2613 c->idct_add= ff_libmpeg2mmx2_idct_add;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2614 c->idct = ff_mmxext_idct;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2615 }else{
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2616 c->idct_put= ff_libmpeg2mmx_idct_put;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2617 c->idct_add= ff_libmpeg2mmx_idct_add;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2618 c->idct = ff_mmx_idct;
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2619 }
7e0b2e86afa9 1/2 resolution decoding michael parents: 2217 diff changeset	2620 c->idct_permutation_type= FF_LIBMPEG2_IDCT_PERM;
2696 9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2621 }else if(idct_algo==FF_IDCT_VP3){
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2622 if(mm_flags & MM_SSE2){
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2623 c->idct_put= ff_vp3_idct_put_sse2;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2624 c->idct_add= ff_vp3_idct_add_sse2;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2625 c->idct = ff_vp3_idct_sse2;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2626 c->idct_permutation_type= FF_TRANSPOSE_IDCT_PERM;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2627 }else{
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2628 ff_vp3_dsp_init_mmx();
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2629 c->idct_put= ff_vp3_idct_put_mmx;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2630 c->idct_add= ff_vp3_idct_add_mmx;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2631 c->idct = ff_vp3_idct_mmx;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2632 c->idct_permutation_type= FF_PARTTRANS_IDCT_PERM;
9699d325049d porting the mmx&sse2 (sse2 untested) vp3 idcts to the lavc idct API michael parents: 2691 diff changeset	2633 }
2868 666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2634 #ifdef CONFIG_GPL
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2635 }else if(idct_algo==FF_IDCT_XVIDMMX){
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2636 if(mm_flags & MM_MMXEXT){
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2637 c->idct_put= ff_idct_xvid_mmx2_put;
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2638 c->idct_add= ff_idct_xvid_mmx2_add;
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2639 c->idct = ff_idct_xvid_mmx2;
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2640 }else{
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2641 c->idct_put= ff_idct_xvid_mmx_put;
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2642 c->idct_add= ff_idct_xvid_mmx_add;
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2643 c->idct = ff_idct_xvid_mmx;
666064f710d4 xvids mmx&mmx2 idcts michael parents: 2864 diff changeset	2644 }
2871 f4afa3812818 Fix compile without CONFIG_GPL, misplaced #endif caused a missing }. reimar parents: 2868 diff changeset	2645 #endif
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2646 }
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2647 }
1868 771dcc2d4a0c use optimized VP3 functions where appropriate melanson parents: 1845 diff changeset	2648
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2649 #ifdef CONFIG_ENCODERS
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2650 c->get_pixels = get_pixels_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2651 c->diff_pixels = diff_pixels_mmx;
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2652 #endif //CONFIG_ENCODERS
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2653 c->put_pixels_clamped = put_pixels_clamped_mmx;
1984 ef919e9ef73e separate out put_signed_pixels_clamped() into its own function and melanson parents: 1977 diff changeset	2654 c->put_signed_pixels_clamped = put_signed_pixels_clamped_mmx;
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2655 c->add_pixels_clamped = add_pixels_clamped_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2656 c->clear_blocks = clear_blocks_mmx;
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2657 #ifdef CONFIG_ENCODERS
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2658 c->pix_sum = pix_sum16_mmx;
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2659 #endif //CONFIG_ENCODERS
415 1c3f42442fba * added simple test main - see comments about how to kabi parents: 402 diff changeset	2660
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2661 c->put_pixels_tab[0][0] = put_pixels16_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2662 c->put_pixels_tab[0][1] = put_pixels16_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2663 c->put_pixels_tab[0][2] = put_pixels16_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2664 c->put_pixels_tab[0][3] = put_pixels16_xy2_mmx;
0 986e461dc072 Initial revision glantau parents: diff changeset	2665
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2666 c->put_no_rnd_pixels_tab[0][0] = put_pixels16_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2667 c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2668 c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2669 c->put_no_rnd_pixels_tab[0][3] = put_no_rnd_pixels16_xy2_mmx;
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	2670
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2671 c->avg_pixels_tab[0][0] = avg_pixels16_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2672 c->avg_pixels_tab[0][1] = avg_pixels16_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2673 c->avg_pixels_tab[0][2] = avg_pixels16_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2674 c->avg_pixels_tab[0][3] = avg_pixels16_xy2_mmx;
415 1c3f42442fba * added simple test main - see comments about how to kabi parents: 402 diff changeset	2675
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2676 c->avg_no_rnd_pixels_tab[0][0] = avg_no_rnd_pixels16_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2677 c->avg_no_rnd_pixels_tab[0][1] = avg_no_rnd_pixels16_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2678 c->avg_no_rnd_pixels_tab[0][2] = avg_no_rnd_pixels16_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2679 c->avg_no_rnd_pixels_tab[0][3] = avg_no_rnd_pixels16_xy2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2680
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2681 c->put_pixels_tab[1][0] = put_pixels8_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2682 c->put_pixels_tab[1][1] = put_pixels8_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2683 c->put_pixels_tab[1][2] = put_pixels8_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2684 c->put_pixels_tab[1][3] = put_pixels8_xy2_mmx;
0 986e461dc072 Initial revision glantau parents: diff changeset	2685
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2686 c->put_no_rnd_pixels_tab[1][0] = put_pixels8_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2687 c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2688 c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2689 c->put_no_rnd_pixels_tab[1][3] = put_no_rnd_pixels8_xy2_mmx;
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	2690
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2691 c->avg_pixels_tab[1][0] = avg_pixels8_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2692 c->avg_pixels_tab[1][1] = avg_pixels8_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2693 c->avg_pixels_tab[1][2] = avg_pixels8_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2694 c->avg_pixels_tab[1][3] = avg_pixels8_xy2_mmx;
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	2695
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2696 c->avg_no_rnd_pixels_tab[1][0] = avg_no_rnd_pixels8_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2697 c->avg_no_rnd_pixels_tab[1][1] = avg_no_rnd_pixels8_x2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2698 c->avg_no_rnd_pixels_tab[1][2] = avg_no_rnd_pixels8_y2_mmx;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2699 c->avg_no_rnd_pixels_tab[1][3] = avg_no_rnd_pixels8_xy2_mmx;
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2700
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	2701 c->add_bytes= add_bytes_mmx;
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2702 #ifdef CONFIG_ENCODERS
866 725ef4ea3ecc huffyuv michaelni parents: 853 diff changeset	2703 c->diff_bytes= diff_bytes_mmx;
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	2704
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	2705 c->hadamard8_diff[0]= hadamard8_diff16_mmx;
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	2706 c->hadamard8_diff[1]= hadamard8_diff_mmx;
caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	2707
997 4dfe15ae0078 sse16 & pix_norm1 optimization patch by (Felix von Leitner <felix-ffmpeg at fefe dot de>) (with some modifications) michaelni parents: 984 diff changeset	2708 c->pix_norm1 = pix_norm1_mmx;
2899 d3a726717baf sse2 16x16 sum squared diff (306=>268 cycles on a K8) lorenm parents: 2892 diff changeset	2709 c->sse[0] = (mm_flags & MM_SSE2) ? sse16_sse2 : sse16_mmx;
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	2710 c->sse[1] = sse8_mmx;
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2711 c->vsad[4]= vsad_intra16_mmx;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2712
2067 f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	2713 c->nsse[0] = nsse16_mmx;
f37b6ffc81ed sse8 and nsse in mmx michael parents: 2024 diff changeset	2714 c->nsse[1] = nsse8_mmx;
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2715 if(!(avctx->flags & CODEC_FLAG_BITEXACT)){
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2716 c->vsad[0] = vsad16_mmx;
a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2717 }
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2718
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2719 if(!(avctx->flags & CODEC_FLAG_BITEXACT)){
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2720 c->try_8x8basis= try_8x8basis_mmx;
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2721 }
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2722 c->add_8x8basis= add_8x8basis_mmx;
65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2723
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2724 #endif //CONFIG_ENCODERS
1647 c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	2725
c943c1d2d099 h263_v_loop_filter_mmx michael parents: 1566 diff changeset	2726 c->h263_v_loop_filter= h263_v_loop_filter_mmx;
1784 65f7bd09f37b quantizer noise shaping optimization michael parents: 1772 diff changeset	2727 c->h263_h_loop_filter= h263_h_loop_filter_mmx;
2732 473ee06ec3a1 MMX code for (put\|avg)_h264_chroma_mc8 hzoli parents: 2707 diff changeset	2728 c->put_h264_chroma_pixels_tab[0]= put_h264_chroma_mc8_mmx;
936 caa77cd960c0 qpel encoding michaelni parents: 866 diff changeset	2729
0 986e461dc072 Initial revision glantau parents: diff changeset	2730 if (mm_flags & MM_MMXEXT) {
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2731 c->put_pixels_tab[0][1] = put_pixels16_x2_mmx2;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2732 c->put_pixels_tab[0][2] = put_pixels16_y2_mmx2;
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	2733
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2734 c->avg_pixels_tab[0][0] = avg_pixels16_mmx2;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2735 c->avg_pixels_tab[0][1] = avg_pixels16_x2_mmx2;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2736 c->avg_pixels_tab[0][2] = avg_pixels16_y2_mmx2;
415 1c3f42442fba * added simple test main - see comments about how to kabi parents: 402 diff changeset	2737
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2738 c->put_pixels_tab[1][1] = put_pixels8_x2_mmx2;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2739 c->put_pixels_tab[1][2] = put_pixels8_y2_mmx2;
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	2740
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2741 c->avg_pixels_tab[1][0] = avg_pixels8_mmx2;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2742 c->avg_pixels_tab[1][1] = avg_pixels8_x2_mmx2;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2743 c->avg_pixels_tab[1][2] = avg_pixels8_y2_mmx2;
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2744
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2745 #ifdef CONFIG_ENCODERS
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	2746 c->hadamard8_diff[0]= hadamard8_diff16_mmx2;
2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	2747 c->hadamard8_diff[1]= hadamard8_diff_mmx2;
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2748 c->vsad[4]= vsad_intra16_mmx2;
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2749 #endif //CONFIG_ENCODERS
1153 2725c8eb3c81 faster hadamard transform michaelni parents: 1122 diff changeset	2750
2745 42d3e9068e32 MMX for H.264 iDCT (adapted from x264) lorenm parents: 2732 diff changeset	2751 c->h264_idct_add= ff_h264_idct_add_mmx2;
42d3e9068e32 MMX for H.264 iDCT (adapted from x264) lorenm parents: 2732 diff changeset	2752
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2753 if(!(avctx->flags & CODEC_FLAG_BITEXACT)){
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2754 c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_mmx2;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2755 c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_mmx2;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2756 c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_mmx2;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2757 c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_mmx2;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2758 c->avg_pixels_tab[0][3] = avg_pixels16_xy2_mmx2;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2759 c->avg_pixels_tab[1][3] = avg_pixels8_xy2_mmx2;
1772 8cd5257195c9 vsad16_mmx2 only applies if encoders are turned on melanson parents: 1765 diff changeset	2760 #ifdef CONFIG_ENCODERS
1729 a4a5e7521339 interlaced dct decision cleanup michael parents: 1708 diff changeset	2761 c->vsad[0] = vsad16_mmx2;
1772 8cd5257195c9 vsad16_mmx2 only applies if encoders are turned on melanson parents: 1765 diff changeset	2762 #endif //CONFIG_ENCODERS
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2763 }
959 3ec070eef24a qpel in b frames bugfixes michaelni parents: 958 diff changeset	2764
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2765 #if 1
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2766 SET_QPEL_FUNC(qpel_pixels_tab[0][ 0], qpel16_mc00_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2767 SET_QPEL_FUNC(qpel_pixels_tab[0][ 1], qpel16_mc10_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2768 SET_QPEL_FUNC(qpel_pixels_tab[0][ 2], qpel16_mc20_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2769 SET_QPEL_FUNC(qpel_pixels_tab[0][ 3], qpel16_mc30_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2770 SET_QPEL_FUNC(qpel_pixels_tab[0][ 4], qpel16_mc01_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2771 SET_QPEL_FUNC(qpel_pixels_tab[0][ 5], qpel16_mc11_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2772 SET_QPEL_FUNC(qpel_pixels_tab[0][ 6], qpel16_mc21_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2773 SET_QPEL_FUNC(qpel_pixels_tab[0][ 7], qpel16_mc31_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2774 SET_QPEL_FUNC(qpel_pixels_tab[0][ 8], qpel16_mc02_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2775 SET_QPEL_FUNC(qpel_pixels_tab[0][ 9], qpel16_mc12_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2776 SET_QPEL_FUNC(qpel_pixels_tab[0][10], qpel16_mc22_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2777 SET_QPEL_FUNC(qpel_pixels_tab[0][11], qpel16_mc32_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2778 SET_QPEL_FUNC(qpel_pixels_tab[0][12], qpel16_mc03_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2779 SET_QPEL_FUNC(qpel_pixels_tab[0][13], qpel16_mc13_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2780 SET_QPEL_FUNC(qpel_pixels_tab[0][14], qpel16_mc23_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2781 SET_QPEL_FUNC(qpel_pixels_tab[0][15], qpel16_mc33_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2782 SET_QPEL_FUNC(qpel_pixels_tab[1][ 0], qpel8_mc00_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2783 SET_QPEL_FUNC(qpel_pixels_tab[1][ 1], qpel8_mc10_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2784 SET_QPEL_FUNC(qpel_pixels_tab[1][ 2], qpel8_mc20_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2785 SET_QPEL_FUNC(qpel_pixels_tab[1][ 3], qpel8_mc30_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2786 SET_QPEL_FUNC(qpel_pixels_tab[1][ 4], qpel8_mc01_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2787 SET_QPEL_FUNC(qpel_pixels_tab[1][ 5], qpel8_mc11_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2788 SET_QPEL_FUNC(qpel_pixels_tab[1][ 6], qpel8_mc21_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2789 SET_QPEL_FUNC(qpel_pixels_tab[1][ 7], qpel8_mc31_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2790 SET_QPEL_FUNC(qpel_pixels_tab[1][ 8], qpel8_mc02_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2791 SET_QPEL_FUNC(qpel_pixels_tab[1][ 9], qpel8_mc12_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2792 SET_QPEL_FUNC(qpel_pixels_tab[1][10], qpel8_mc22_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2793 SET_QPEL_FUNC(qpel_pixels_tab[1][11], qpel8_mc32_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2794 SET_QPEL_FUNC(qpel_pixels_tab[1][12], qpel8_mc03_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2795 SET_QPEL_FUNC(qpel_pixels_tab[1][13], qpel8_mc13_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2796 SET_QPEL_FUNC(qpel_pixels_tab[1][14], qpel8_mc23_mmx2)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2797 SET_QPEL_FUNC(qpel_pixels_tab[1][15], qpel8_mc33_mmx2)
961 f8c5babc7b4e 1000l (push & esp) using mangle now ... michaelni parents: 959 diff changeset	2798 #endif
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	2799
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2800 //FIXME 3dnow too
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2801 #define dspfunc(PFX, IDX, NUM) \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2802 c->PFX ## _pixels_tab[IDX][ 0] = PFX ## NUM ## _mc00_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2803 c->PFX ## _pixels_tab[IDX][ 1] = PFX ## NUM ## _mc10_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2804 c->PFX ## _pixels_tab[IDX][ 2] = PFX ## NUM ## _mc20_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2805 c->PFX ## _pixels_tab[IDX][ 3] = PFX ## NUM ## _mc30_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2806 c->PFX ## _pixels_tab[IDX][ 4] = PFX ## NUM ## _mc01_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2807 c->PFX ## _pixels_tab[IDX][ 5] = PFX ## NUM ## _mc11_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2808 c->PFX ## _pixels_tab[IDX][ 6] = PFX ## NUM ## _mc21_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2809 c->PFX ## _pixels_tab[IDX][ 7] = PFX ## NUM ## _mc31_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2810 c->PFX ## _pixels_tab[IDX][ 8] = PFX ## NUM ## _mc02_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2811 c->PFX ## _pixels_tab[IDX][ 9] = PFX ## NUM ## _mc12_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2812 c->PFX ## _pixels_tab[IDX][10] = PFX ## NUM ## _mc22_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2813 c->PFX ## _pixels_tab[IDX][11] = PFX ## NUM ## _mc32_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2814 c->PFX ## _pixels_tab[IDX][12] = PFX ## NUM ## _mc03_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2815 c->PFX ## _pixels_tab[IDX][13] = PFX ## NUM ## _mc13_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2816 c->PFX ## _pixels_tab[IDX][14] = PFX ## NUM ## _mc23_mmx2; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2817 c->PFX ## _pixels_tab[IDX][15] = PFX ## NUM ## _mc33_mmx2
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2818
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2819 dspfunc(put_h264_qpel, 0, 16);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2820 dspfunc(put_h264_qpel, 1, 8);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2821 dspfunc(put_h264_qpel, 2, 4);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2822 dspfunc(avg_h264_qpel, 0, 16);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2823 dspfunc(avg_h264_qpel, 1, 8);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2824 dspfunc(avg_h264_qpel, 2, 4);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2825 #undef dspfunc
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2826
2732 473ee06ec3a1 MMX code for (put\|avg)_h264_chroma_mc8 hzoli parents: 2707 diff changeset	2827 c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_mmx2;
2633 72e6ffa1f3a5 MMX for H.264 deblocking filter lorenm parents: 2505 diff changeset	2828 c->h264_v_loop_filter_luma= h264_v_loop_filter_luma_mmx2;
72e6ffa1f3a5 MMX for H.264 deblocking filter lorenm parents: 2505 diff changeset	2829 c->h264_h_loop_filter_luma= h264_h_loop_filter_luma_mmx2;
72e6ffa1f3a5 MMX for H.264 deblocking filter lorenm parents: 2505 diff changeset	2830 c->h264_v_loop_filter_chroma= h264_v_loop_filter_chroma_mmx2;
72e6ffa1f3a5 MMX for H.264 deblocking filter lorenm parents: 2505 diff changeset	2831 c->h264_h_loop_filter_chroma= h264_h_loop_filter_chroma_mmx2;
2707 360024d31dab H.264 deblocking optimizations (mmx for chroma_bS4 case, convert existing cases to 8-bit math) lorenm parents: 2696 diff changeset	2832 c->h264_v_loop_filter_chroma_intra= h264_v_loop_filter_chroma_intra_mmx2;
360024d31dab H.264 deblocking optimizations (mmx for chroma_bS4 case, convert existing cases to 8-bit math) lorenm parents: 2696 diff changeset	2833 c->h264_h_loop_filter_chroma_intra= h264_h_loop_filter_chroma_intra_mmx2;
2633 72e6ffa1f3a5 MMX for H.264 deblocking filter lorenm parents: 2505 diff changeset	2834
2902 3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2835 c->weight_h264_pixels_tab[0]= ff_h264_weight_16x16_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2836 c->weight_h264_pixels_tab[1]= ff_h264_weight_16x8_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2837 c->weight_h264_pixels_tab[2]= ff_h264_weight_8x16_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2838 c->weight_h264_pixels_tab[3]= ff_h264_weight_8x8_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2839 c->weight_h264_pixels_tab[4]= ff_h264_weight_8x4_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2840 c->weight_h264_pixels_tab[5]= ff_h264_weight_4x8_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2841 c->weight_h264_pixels_tab[6]= ff_h264_weight_4x4_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2842 c->weight_h264_pixels_tab[7]= ff_h264_weight_4x2_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2843
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2844 c->biweight_h264_pixels_tab[0]= ff_h264_biweight_16x16_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2845 c->biweight_h264_pixels_tab[1]= ff_h264_biweight_16x8_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2846 c->biweight_h264_pixels_tab[2]= ff_h264_biweight_8x16_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2847 c->biweight_h264_pixels_tab[3]= ff_h264_biweight_8x8_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2848 c->biweight_h264_pixels_tab[4]= ff_h264_biweight_8x4_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2849 c->biweight_h264_pixels_tab[5]= ff_h264_biweight_4x8_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2850 c->biweight_h264_pixels_tab[6]= ff_h264_biweight_4x4_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2851 c->biweight_h264_pixels_tab[7]= ff_h264_biweight_4x2_mmx2;
3c79bc9f3aa9 h264 mmx weighted prediction. up to 3% overall speedup. lorenm parents: 2899 diff changeset	2852
1686 68abbec33289 Here are juste two added #ifdef CONFIG_ENCODERS to allow michael parents: 1648 diff changeset	2853 #ifdef CONFIG_ENCODERS
1527 8ffd0c00e6df mmx2 optimization of huffyuv median encoding michael parents: 1324 diff changeset	2854 c->sub_hfyu_median_prediction= sub_hfyu_median_prediction_mmx2;
1686 68abbec33289 Here are juste two added #ifdef CONFIG_ENCODERS to allow michael parents: 1648 diff changeset	2855 #endif //CONFIG_ENCODERS
0 986e461dc072 Initial revision glantau parents: diff changeset	2856 } else if (mm_flags & MM_3DNOW) {
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2857 c->put_pixels_tab[0][1] = put_pixels16_x2_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2858 c->put_pixels_tab[0][2] = put_pixels16_y2_3dnow;
393 bf164fce2c14 removed debug function glantau parents: 387 diff changeset	2859
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2860 c->avg_pixels_tab[0][0] = avg_pixels16_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2861 c->avg_pixels_tab[0][1] = avg_pixels16_x2_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2862 c->avg_pixels_tab[0][2] = avg_pixels16_y2_3dnow;
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 631 diff changeset	2863
853 eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2864 c->put_pixels_tab[1][1] = put_pixels8_x2_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2865 c->put_pixels_tab[1][2] = put_pixels8_y2_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2866
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2867 c->avg_pixels_tab[1][0] = avg_pixels8_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2868 c->avg_pixels_tab[1][1] = avg_pixels8_x2_3dnow;
eacc2dd8fd9d * using DSPContext - so each codec could use its local (sub)set of CPU extension kabi parents: 706 diff changeset	2869 c->avg_pixels_tab[1][2] = avg_pixels8_y2_3dnow;
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2870
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2871 if(!(avctx->flags & CODEC_FLAG_BITEXACT)){
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2872 c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_3dnow;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2873 c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_3dnow;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2874 c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_3dnow;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2875 c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_3dnow;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2876 c->avg_pixels_tab[0][3] = avg_pixels16_xy2_3dnow;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2877 c->avg_pixels_tab[1][3] = avg_pixels8_xy2_3dnow;
f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2878 }
984 e162c09efbe7 qpel fix michaelni parents: 967 diff changeset	2879
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2880 SET_QPEL_FUNC(qpel_pixels_tab[0][ 0], qpel16_mc00_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2881 SET_QPEL_FUNC(qpel_pixels_tab[0][ 1], qpel16_mc10_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2882 SET_QPEL_FUNC(qpel_pixels_tab[0][ 2], qpel16_mc20_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2883 SET_QPEL_FUNC(qpel_pixels_tab[0][ 3], qpel16_mc30_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2884 SET_QPEL_FUNC(qpel_pixels_tab[0][ 4], qpel16_mc01_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2885 SET_QPEL_FUNC(qpel_pixels_tab[0][ 5], qpel16_mc11_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2886 SET_QPEL_FUNC(qpel_pixels_tab[0][ 6], qpel16_mc21_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2887 SET_QPEL_FUNC(qpel_pixels_tab[0][ 7], qpel16_mc31_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2888 SET_QPEL_FUNC(qpel_pixels_tab[0][ 8], qpel16_mc02_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2889 SET_QPEL_FUNC(qpel_pixels_tab[0][ 9], qpel16_mc12_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2890 SET_QPEL_FUNC(qpel_pixels_tab[0][10], qpel16_mc22_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2891 SET_QPEL_FUNC(qpel_pixels_tab[0][11], qpel16_mc32_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2892 SET_QPEL_FUNC(qpel_pixels_tab[0][12], qpel16_mc03_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2893 SET_QPEL_FUNC(qpel_pixels_tab[0][13], qpel16_mc13_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2894 SET_QPEL_FUNC(qpel_pixels_tab[0][14], qpel16_mc23_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2895 SET_QPEL_FUNC(qpel_pixels_tab[0][15], qpel16_mc33_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2896 SET_QPEL_FUNC(qpel_pixels_tab[1][ 0], qpel8_mc00_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2897 SET_QPEL_FUNC(qpel_pixels_tab[1][ 1], qpel8_mc10_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2898 SET_QPEL_FUNC(qpel_pixels_tab[1][ 2], qpel8_mc20_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2899 SET_QPEL_FUNC(qpel_pixels_tab[1][ 3], qpel8_mc30_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2900 SET_QPEL_FUNC(qpel_pixels_tab[1][ 4], qpel8_mc01_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2901 SET_QPEL_FUNC(qpel_pixels_tab[1][ 5], qpel8_mc11_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2902 SET_QPEL_FUNC(qpel_pixels_tab[1][ 6], qpel8_mc21_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2903 SET_QPEL_FUNC(qpel_pixels_tab[1][ 7], qpel8_mc31_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2904 SET_QPEL_FUNC(qpel_pixels_tab[1][ 8], qpel8_mc02_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2905 SET_QPEL_FUNC(qpel_pixels_tab[1][ 9], qpel8_mc12_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2906 SET_QPEL_FUNC(qpel_pixels_tab[1][10], qpel8_mc22_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2907 SET_QPEL_FUNC(qpel_pixels_tab[1][11], qpel8_mc32_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2908 SET_QPEL_FUNC(qpel_pixels_tab[1][12], qpel8_mc03_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2909 SET_QPEL_FUNC(qpel_pixels_tab[1][13], qpel8_mc13_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2910 SET_QPEL_FUNC(qpel_pixels_tab[1][14], qpel8_mc23_3dnow)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 936 diff changeset	2911 SET_QPEL_FUNC(qpel_pixels_tab[1][15], qpel8_mc33_3dnow)
2209 c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2912
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2913 #define dspfunc(PFX, IDX, NUM) \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2914 c->PFX ## _pixels_tab[IDX][ 0] = PFX ## NUM ## _mc00_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2915 c->PFX ## _pixels_tab[IDX][ 1] = PFX ## NUM ## _mc10_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2916 c->PFX ## _pixels_tab[IDX][ 2] = PFX ## NUM ## _mc20_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2917 c->PFX ## _pixels_tab[IDX][ 3] = PFX ## NUM ## _mc30_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2918 c->PFX ## _pixels_tab[IDX][ 4] = PFX ## NUM ## _mc01_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2919 c->PFX ## _pixels_tab[IDX][ 5] = PFX ## NUM ## _mc11_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2920 c->PFX ## _pixels_tab[IDX][ 6] = PFX ## NUM ## _mc21_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2921 c->PFX ## _pixels_tab[IDX][ 7] = PFX ## NUM ## _mc31_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2922 c->PFX ## _pixels_tab[IDX][ 8] = PFX ## NUM ## _mc02_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2923 c->PFX ## _pixels_tab[IDX][ 9] = PFX ## NUM ## _mc12_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2924 c->PFX ## _pixels_tab[IDX][10] = PFX ## NUM ## _mc22_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2925 c->PFX ## _pixels_tab[IDX][11] = PFX ## NUM ## _mc32_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2926 c->PFX ## _pixels_tab[IDX][12] = PFX ## NUM ## _mc03_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2927 c->PFX ## _pixels_tab[IDX][13] = PFX ## NUM ## _mc13_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2928 c->PFX ## _pixels_tab[IDX][14] = PFX ## NUM ## _mc23_3dnow; \
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2929 c->PFX ## _pixels_tab[IDX][15] = PFX ## NUM ## _mc33_3dnow
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2930
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2931 dspfunc(put_h264_qpel, 0, 16);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2932 dspfunc(put_h264_qpel, 1, 8);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2933 dspfunc(put_h264_qpel, 2, 4);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2934 dspfunc(avg_h264_qpel, 0, 16);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2935 dspfunc(avg_h264_qpel, 1, 8);
c4a476971abc h264 luma motion compensation in mmx2/3dnow michael parents: 2207 diff changeset	2936 dspfunc(avg_h264_qpel, 2, 4);
2732 473ee06ec3a1 MMX code for (put\|avg)_h264_chroma_mc8 hzoli parents: 2707 diff changeset	2937
473ee06ec3a1 MMX code for (put\|avg)_h264_chroma_mc8 hzoli parents: 2707 diff changeset	2938 c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_3dnow;
0 986e461dc072 Initial revision glantau parents: diff changeset	2939 }
986e461dc072 Initial revision glantau parents: diff changeset	2940 }
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2941
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2942 #ifdef CONFIG_ENCODERS
1092 f59c3f66363b MpegEncContext.(i)dct_* -> DspContext.(i)dct_* michaelni parents: 1065 diff changeset	2943 dsputil_init_pix_mmx(c, avctx);
1530 3b31998fe22f disable encoders where appropriate (patch courtesy of BERO melanson parents: 1527 diff changeset	2944 #endif //CONFIG_ENCODERS
247 6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2945 #if 0
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2946 // for speed testing
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2947 get_pixels = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2948 put_pixels_clamped = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2949 add_pixels_clamped = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2950
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2951 pix_abs16x16 = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2952 pix_abs16x16_x2 = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2953 pix_abs16x16_y2 = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2954 pix_abs16x16_xy2 = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2955
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2956 put_pixels_tab[0] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2957 put_pixels_tab[1] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2958 put_pixels_tab[2] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2959 put_pixels_tab[3] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2960
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2961 put_no_rnd_pixels_tab[0] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2962 put_no_rnd_pixels_tab[1] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2963 put_no_rnd_pixels_tab[2] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2964 put_no_rnd_pixels_tab[3] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2965
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2966 avg_pixels_tab[0] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2967 avg_pixels_tab[1] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2968 avg_pixels_tab[2] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2969 avg_pixels_tab[3] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2970
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2971 avg_no_rnd_pixels_tab[0] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2972 avg_no_rnd_pixels_tab[1] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2973 avg_no_rnd_pixels_tab[2] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2974 avg_no_rnd_pixels_tab[3] = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2975
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2976 //av_fdct = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2977 //ff_idct = just_return;
6f48cacd9ed9 * some modifications to allow gcc to compile same code for -fPIC kabi parents: 188 diff changeset	2978 #endif
0 986e461dc072 Initial revision glantau parents: diff changeset	2979 }

Mercurial > libavcodec.hg

annotate i386/dsputil_mmx.c @ 2918:13dcd22f0816 libavcodec