libavcodec.hg: i386/dsputil_mmx

annotate i386/dsputil_mmx_avg.h @ 1929:d4525c3065d0 libavcodec

aac decoding patch by ("Thomas Raivio" <tjraivio at cc dot hut dot fi>)

author	michael
date	Fri, 09 Apr 2004 14:53:41 +0000
parents	07a484280a82
children	f65d87bfdd5a

rev	line source
0 986e461dc072 Initial revision glantau parents: diff changeset	1 /*
986e461dc072 Initial revision glantau parents: diff changeset	2 * DSP utils : average functions are compiled twice for 3dnow/mmx2
429 718a22dc121f license/copyright change glantau parents: 416 diff changeset	3 * Copyright (c) 2000, 2001 Fabrice Bellard.
1739 07a484280a82 copyright year update of the files i touched and remembered, things look annoyingly unmaintained otherwise michael parents: 1064 diff changeset	4 * Copyright (c) 2002-2004 Michael Niedermayer
0 986e461dc072 Initial revision glantau parents: diff changeset	5 *
429 718a22dc121f license/copyright change glantau parents: 416 diff changeset	6 * This library is free software; you can redistribute it and/or
718a22dc121f license/copyright change glantau parents: 416 diff changeset	7 * modify it under the terms of the GNU Lesser General Public
718a22dc121f license/copyright change glantau parents: 416 diff changeset	8 * License as published by the Free Software Foundation; either
718a22dc121f license/copyright change glantau parents: 416 diff changeset	9 * version 2 of the License, or (at your option) any later version.
0 986e461dc072 Initial revision glantau parents: diff changeset	10 *
429 718a22dc121f license/copyright change glantau parents: 416 diff changeset	11 * This library is distributed in the hope that it will be useful,
0 986e461dc072 Initial revision glantau parents: diff changeset	12 * but WITHOUT ANY WARRANTY; without even the implied warranty of
429 718a22dc121f license/copyright change glantau parents: 416 diff changeset	13 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
718a22dc121f license/copyright change glantau parents: 416 diff changeset	14 * Lesser General Public License for more details.
0 986e461dc072 Initial revision glantau parents: diff changeset	15 *
429 718a22dc121f license/copyright change glantau parents: 416 diff changeset	16 * You should have received a copy of the GNU Lesser General Public
718a22dc121f license/copyright change glantau parents: 416 diff changeset	17 * License along with this library; if not, write to the Free Software
718a22dc121f license/copyright change glantau parents: 416 diff changeset	18 * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
0 986e461dc072 Initial revision glantau parents: diff changeset	19 *
986e461dc072 Initial revision glantau parents: diff changeset	20 * MMX optimization by Nick Kurshev <nickols_k@mail.ru>
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	21 * mostly rewritten by Michael Niedermayer <michaelni@gmx.at>
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	22 * and improved by Zdenek Kabelac <kabi@users.sf.net>
0 986e461dc072 Initial revision glantau parents: diff changeset	23 */
387 b8f3affeb8e1 shared lib support (req by kabi) ... michaelni parents: 386 diff changeset	24
389 f874493a1970 tried to avoid gcc 2.95.2 bug by puting explicit register constraints - added comment about rounding bug in some functions (need to correct or suppress them for regression tests) glantau parents: 387 diff changeset	25 /* XXX: we use explicit registers to avoid a gcc 2.95.2 register asm
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	26 clobber bug - now it will work with 2.95.2 and also with -fPIC
1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	27 */
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	28 static void DEF(put_pixels8_x2)(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	29 {
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	30 __asm __volatile(
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	31 "lea (%3, %3), %%eax \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	32 "1: \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	33 "movq (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	34 "movq (%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	35 PAVGB" 1(%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	36 PAVGB" 1(%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	37 "movq %%mm0, (%2) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	38 "movq %%mm1, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	39 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	40 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	41 "movq (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	42 "movq (%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	43 PAVGB" 1(%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	44 PAVGB" 1(%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	45 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	46 "movq %%mm0, (%2) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	47 "movq %%mm1, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	48 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	49 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	50 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	51 :"+g"(h), "+S"(pixels), "+D"(block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	52 :"r" (line_size)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	53 :"%eax", "memory");
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	54 }
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	55
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	56 static void DEF(put_pixels8_l2)(uint8_t dst, uint8_t src1, uint8_t *src2, int dstStride, int src1Stride, int h)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	57 {
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	58 __asm __volatile(
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	59 "1: \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	60 "movq (%1), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	61 "addl %4, %1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	62 "movq (%1), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	63 "addl %4, %1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	64 PAVGB" (%2), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	65 PAVGB" 8(%2), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	66 "movq %%mm0, (%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	67 "addl %5, %3 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	68 "movq %%mm1, (%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	69 "addl %5, %3 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	70 "movq (%1), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	71 "addl %4, %1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	72 "movq (%1), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	73 "addl %4, %1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	74 PAVGB" 16(%2), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	75 PAVGB" 24(%2), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	76 "movq %%mm0, (%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	77 "addl %5, %3 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	78 "movq %%mm1, (%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	79 "addl %5, %3 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	80 "addl $32, %2 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	81 "subl $4, %0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	82 "jnz 1b \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	83 :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	84 :"r"(src1Stride), "r"(dstStride)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	85 :"memory");
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	86 }
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	87
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	88 static void DEF(put_pixels16_x2)(uint8_t block, const uint8_t pixels, int line_size, int h)
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	89 {
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	90 __asm __volatile(
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	91 "lea (%3, %3), %%eax \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	92 "1: \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	93 "movq (%1), %%mm0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	94 "movq (%1, %3), %%mm1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	95 "movq 8(%1), %%mm2 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	96 "movq 8(%1, %3), %%mm3 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	97 PAVGB" 1(%1), %%mm0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	98 PAVGB" 1(%1, %3), %%mm1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	99 PAVGB" 9(%1), %%mm2 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	100 PAVGB" 9(%1, %3), %%mm3 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	101 "movq %%mm0, (%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	102 "movq %%mm1, (%2, %3) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	103 "movq %%mm2, 8(%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	104 "movq %%mm3, 8(%2, %3) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	105 "addl %%eax, %1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	106 "addl %%eax, %2 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	107 "movq (%1), %%mm0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	108 "movq (%1, %3), %%mm1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	109 "movq 8(%1), %%mm2 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	110 "movq 8(%1, %3), %%mm3 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	111 PAVGB" 1(%1), %%mm0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	112 PAVGB" 1(%1, %3), %%mm1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	113 PAVGB" 9(%1), %%mm2 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	114 PAVGB" 9(%1, %3), %%mm3 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	115 "addl %%eax, %1 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	116 "movq %%mm0, (%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	117 "movq %%mm1, (%2, %3) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	118 "movq %%mm2, 8(%2) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	119 "movq %%mm3, 8(%2, %3) \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	120 "addl %%eax, %2 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	121 "subl $4, %0 \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	122 "jnz 1b \n\t"
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	123 :"+g"(h), "+S"(pixels), "+D"(block)
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	124 :"r" (line_size)
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	125 :"%eax", "memory");
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	126 }
954 13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	127
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	128 static void DEF(put_pixels16_l2)(uint8_t dst, uint8_t src1, uint8_t *src2, int dstStride, int src1Stride, int h)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	129 {
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	130 __asm __volatile(
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	131 "1: \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	132 "movq (%1), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	133 "movq 8(%1), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	134 "addl %4, %1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	135 PAVGB" (%2), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	136 PAVGB" 8(%2), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	137 "movq %%mm0, (%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	138 "movq %%mm1, 8(%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	139 "addl %5, %3 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	140 "movq (%1), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	141 "movq 8(%1), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	142 "addl %4, %1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	143 PAVGB" 16(%2), %%mm0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	144 PAVGB" 24(%2), %%mm1 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	145 "movq %%mm0, (%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	146 "movq %%mm1, 8(%3) \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	147 "addl %5, %3 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	148 "addl $32, %2 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	149 "subl $2, %0 \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	150 "jnz 1b \n\t"
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	151 :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	152 :"r"(src1Stride), "r"(dstStride)
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	153 :"memory");
13aec7e50c52 qpel in mmx2/3dnow michaelni parents: 651 diff changeset	154 }
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	155
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	156 /* GL: this function does incorrect rounding if overflow */
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	157 static void DEF(put_no_rnd_pixels8_x2)(uint8_t block, const uint8_t pixels, int line_size, int h)
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	158 {
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	159 MOVQ_BONE(mm6);
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	160 __asm __volatile(
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	161 "lea (%3, %3), %%eax \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	162 "1: \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	163 "movq (%1), %%mm0 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	164 "movq (%1, %3), %%mm2 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	165 "movq 1(%1), %%mm1 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	166 "movq 1(%1, %3), %%mm3 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	167 "addl %%eax, %1 \n\t"
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	168 "psubusb %%mm6, %%mm0 \n\t"
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	169 "psubusb %%mm6, %%mm2 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	170 PAVGB" %%mm1, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	171 PAVGB" %%mm3, %%mm2 \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	172 "movq %%mm0, (%2) \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	173 "movq %%mm2, (%2, %3) \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	174 "movq (%1), %%mm0 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	175 "movq 1(%1), %%mm1 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	176 "movq (%1, %3), %%mm2 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	177 "movq 1(%1, %3), %%mm3 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	178 "addl %%eax, %2 \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	179 "addl %%eax, %1 \n\t"
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	180 "psubusb %%mm6, %%mm0 \n\t"
e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	181 "psubusb %%mm6, %%mm2 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	182 PAVGB" %%mm1, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	183 PAVGB" %%mm3, %%mm2 \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	184 "movq %%mm0, (%2) \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	185 "movq %%mm2, (%2, %3) \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	186 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	187 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	188 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	189 :"+g"(h), "+S"(pixels), "+D"(block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	190 :"r" (line_size)
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	191 :"%eax", "memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	192 }
986e461dc072 Initial revision glantau parents: diff changeset	193
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	194 static void DEF(put_pixels8_y2)(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	195 {
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	196 __asm __volatile(
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	197 "lea (%3, %3), %%eax \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	198 "movq (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	199 "subl %3, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	200 "1: \n\t"
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	201 "movq (%1, %3), %%mm1 \n\t"
416 ca1f2c0e44ef * fixed contrains and avoid usage of scale index access kabi parents: 414 diff changeset	202 "movq (%1, %%eax), %%mm2 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	203 "addl %%eax, %1 \n\t"
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	204 PAVGB" %%mm1, %%mm0 \n\t"
1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	205 PAVGB" %%mm2, %%mm1 \n\t"
1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	206 "movq %%mm0, (%2, %3) \n\t"
416 ca1f2c0e44ef * fixed contrains and avoid usage of scale index access kabi parents: 414 diff changeset	207 "movq %%mm1, (%2, %%eax) \n\t"
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	208 "movq (%1, %3), %%mm1 \n\t"
416 ca1f2c0e44ef * fixed contrains and avoid usage of scale index access kabi parents: 414 diff changeset	209 "movq (%1, %%eax), %%mm0 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	210 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	211 "addl %%eax, %1 \n\t"
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	212 PAVGB" %%mm1, %%mm2 \n\t"
1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	213 PAVGB" %%mm0, %%mm1 \n\t"
1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	214 "movq %%mm2, (%2, %3) \n\t"
416 ca1f2c0e44ef * fixed contrains and avoid usage of scale index access kabi parents: 414 diff changeset	215 "movq %%mm1, (%2, %%eax) \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	216 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	217 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	218 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	219 :"+g"(h), "+S"(pixels), "+D" (block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	220 :"r" (line_size)
413 1548abb7bbed * fix for -fPIC compilation - compiles with 2.95.2 as well - any kabi parents: 402 diff changeset	221 :"%eax", "memory");
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	222 }
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	223
389 f874493a1970 tried to avoid gcc 2.95.2 bug by puting explicit register constraints - added comment about rounding bug in some functions (need to correct or suppress them for regression tests) glantau parents: 387 diff changeset	224 /* GL: this function does incorrect rounding if overflow */
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	225 static void DEF(put_no_rnd_pixels8_y2)(uint8_t block, const uint8_t pixels, int line_size, int h)
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	226 {
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	227 MOVQ_BONE(mm6);
0 986e461dc072 Initial revision glantau parents: diff changeset	228 __asm __volatile(
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	229 "lea (%3, %3), %%eax \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	230 "movq (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	231 "subl %3, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	232 "1: \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	233 "movq (%1, %3), %%mm1 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	234 "movq (%1, %%eax), %%mm2 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	235 "addl %%eax, %1 \n\t"
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	236 "psubusb %%mm6, %%mm1 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	237 PAVGB" %%mm1, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	238 PAVGB" %%mm2, %%mm1 \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	239 "movq %%mm0, (%2, %3) \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	240 "movq %%mm1, (%2, %%eax) \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	241 "movq (%1, %3), %%mm1 \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	242 "movq (%1, %%eax), %%mm0 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	243 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	244 "addl %%eax, %1 \n\t"
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	245 "psubusb %%mm6, %%mm1 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	246 PAVGB" %%mm1, %%mm2 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	247 PAVGB" %%mm0, %%mm1 \n\t"
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	248 "movq %%mm2, (%2, %3) \n\t"
6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	249 "movq %%mm1, (%2, %%eax) \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	250 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	251 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	252 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	253 :"+g"(h), "+S"(pixels), "+D" (block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	254 :"r" (line_size)
439 6ae275655a23 * more PIC friendly and faster code kabi parents: 429 diff changeset	255 :"%eax", "memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	256 }
986e461dc072 Initial revision glantau parents: diff changeset	257
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	258 static void DEF(avg_pixels8)(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	259 {
986e461dc072 Initial revision glantau parents: diff changeset	260 __asm __volatile(
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	261 "lea (%3, %3), %%eax \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	262 "1: \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	263 "movq (%2), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	264 "movq (%2, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	265 PAVGB" (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	266 PAVGB" (%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	267 "movq %%mm0, (%2) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	268 "movq %%mm1, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	269 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	270 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	271 "movq (%2), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	272 "movq (%2, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	273 PAVGB" (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	274 PAVGB" (%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	275 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	276 "movq %%mm0, (%2) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	277 "movq %%mm1, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	278 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	279 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	280 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	281 :"+g"(h), "+S"(pixels), "+D"(block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	282 :"r" (line_size)
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	283 :"%eax", "memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	284 }
986e461dc072 Initial revision glantau parents: diff changeset	285
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	286 static void DEF(avg_pixels8_x2)(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	287 {
986e461dc072 Initial revision glantau parents: diff changeset	288 __asm __volatile(
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	289 "lea (%3, %3), %%eax \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	290 "1: \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	291 "movq (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	292 "movq (%1, %3), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	293 PAVGB" 1(%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	294 PAVGB" 1(%1, %3), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	295 PAVGB" (%2), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	296 PAVGB" (%2, %3), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	297 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	298 "movq %%mm0, (%2) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	299 "movq %%mm2, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	300 "movq (%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	301 "movq (%1, %3), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	302 PAVGB" 1(%1), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	303 PAVGB" 1(%1, %3), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	304 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	305 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	306 PAVGB" (%2), %%mm0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	307 PAVGB" (%2, %3), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	308 "movq %%mm0, (%2) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	309 "movq %%mm2, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	310 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	311 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	312 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	313 :"+g"(h), "+S"(pixels), "+D"(block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	314 :"r" (line_size)
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	315 :"%eax", "memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	316 }
986e461dc072 Initial revision glantau parents: diff changeset	317
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	318 static void DEF(avg_pixels8_y2)(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	319 {
986e461dc072 Initial revision glantau parents: diff changeset	320 __asm __volatile(
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	321 "lea (%3, %3), %%eax \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	322 "movq (%1), %%mm0 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	323 "subl %3, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	324 "1: \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	325 "movq (%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	326 "movq (%1, %%eax), %%mm2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	327 "addl %%eax, %1 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	328 PAVGB" %%mm1, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	329 PAVGB" %%mm2, %%mm1 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	330 "movq (%2, %3), %%mm3 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	331 "movq (%2, %%eax), %%mm4 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	332 PAVGB" %%mm3, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	333 PAVGB" %%mm4, %%mm1 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	334 "movq %%mm0, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	335 "movq %%mm1, (%2, %%eax) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	336 "movq (%1, %3), %%mm1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	337 "movq (%1, %%eax), %%mm0 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	338 PAVGB" %%mm1, %%mm2 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	339 PAVGB" %%mm0, %%mm1 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	340 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	341 "addl %%eax, %1 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	342 "movq (%2, %3), %%mm3 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	343 "movq (%2, %%eax), %%mm4 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	344 PAVGB" %%mm3, %%mm2 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	345 PAVGB" %%mm4, %%mm1 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	346 "movq %%mm2, (%2, %3) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	347 "movq %%mm1, (%2, %%eax) \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	348 "addl %%eax, %2 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	349 "subl $4, %0 \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	350 "jnz 1b \n\t"
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	351 :"+g"(h), "+S"(pixels), "+D"(block)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	352 :"r" (line_size)
c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	353 :"%eax", "memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	354 }
986e461dc072 Initial revision glantau parents: diff changeset	355
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	356 // Note this is not correctly rounded, but this function is only used for b frames so it doesnt matter
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	357 static void DEF(avg_pixels8_xy2)(uint8_t block, const uint8_t pixels, int line_size, int h)
0 986e461dc072 Initial revision glantau parents: diff changeset	358 {
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	359 MOVQ_BONE(mm6);
0 986e461dc072 Initial revision glantau parents: diff changeset	360 __asm __volatile(
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	361 "lea (%3, %3), %%eax \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	362 "movq (%1), %%mm0 \n\t"
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	363 PAVGB" 1(%1), %%mm0 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	364 ".balign 8 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	365 "1: \n\t"
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	366 "movq (%1, %%eax), %%mm2 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	367 "movq (%1, %3), %%mm1 \n\t"
448 e8c8ca9106aa * removed MANGLE from macros for setting constants kabi parents: 443 diff changeset	368 "psubusb %%mm6, %%mm2 \n\t"
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	369 PAVGB" 1(%1, %3), %%mm1 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	370 PAVGB" 1(%1, %%eax), %%mm2 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	371 "addl %%eax, %1 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	372 PAVGB" %%mm1, %%mm0 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	373 PAVGB" %%mm2, %%mm1 \n\t"
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	374 PAVGB" (%2), %%mm0 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	375 PAVGB" (%2, %3), %%mm1 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	376 "movq %%mm0, (%2) \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	377 "movq %%mm1, (%2, %3) \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	378 "movq (%1, %3), %%mm1 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	379 "movq (%1, %%eax), %%mm0 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	380 PAVGB" 1(%1, %3), %%mm1 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	381 PAVGB" 1(%1, %%eax), %%mm0 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	382 "addl %%eax, %2 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	383 "addl %%eax, %1 \n\t"
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	384 PAVGB" %%mm1, %%mm2 \n\t"
f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	385 PAVGB" %%mm0, %%mm1 \n\t"
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	386 PAVGB" (%2), %%mm2 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	387 PAVGB" (%2, %3), %%mm1 \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	388 "movq %%mm2, (%2) \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	389 "movq %%mm1, (%2, %3) \n\t"
006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	390 "addl %%eax, %2 \n\t"
441 c0de4d3c7d3c * optimized avg_* functions (except xy2) kabi parents: 439 diff changeset	391 "subl $4, %0 \n\t"
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	392 "jnz 1b \n\t"
443 63467327c06c * cosmetic minor change kabi parents: 442 diff changeset	393 :"+g"(h), "+S"(pixels), "+D"(block)
442 006965950f49 * optimized remaing avg_pixels_xy2 kabi parents: 441 diff changeset	394 :"r" (line_size)
386 f49629bab18d hopefully faster mmx2&3dnow MC michaelni parents: 151 diff changeset	395 :"%eax", "memory");
0 986e461dc072 Initial revision glantau parents: diff changeset	396 }
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	397
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	398 //FIXME the following could be optimized too ...
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	399 static void DEF(put_no_rnd_pixels16_x2)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	400 DEF(put_no_rnd_pixels8_x2)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	401 DEF(put_no_rnd_pixels8_x2)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	402 }
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	403 static void DEF(put_pixels16_y2)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	404 DEF(put_pixels8_y2)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	405 DEF(put_pixels8_y2)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	406 }
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	407 static void DEF(put_no_rnd_pixels16_y2)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	408 DEF(put_no_rnd_pixels8_y2)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	409 DEF(put_no_rnd_pixels8_y2)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	410 }
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	411 static void DEF(avg_pixels16)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	412 DEF(avg_pixels8)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	413 DEF(avg_pixels8)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	414 }
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	415 static void DEF(avg_pixels16_x2)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	416 DEF(avg_pixels8_x2)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	417 DEF(avg_pixels8_x2)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	418 }
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	419 static void DEF(avg_pixels16_y2)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	420 DEF(avg_pixels8_y2)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	421 DEF(avg_pixels8_y2)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	422 }
1064 b32afefe7d33 * UINTX -> uintx_t INTX -> intx_t kabi parents: 954 diff changeset	423 static void DEF(avg_pixels16_xy2)(uint8_t block, const uint8_t pixels, int line_size, int h){
651 45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	424 DEF(avg_pixels8_xy2)(block , pixels , line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	425 DEF(avg_pixels8_xy2)(block+8, pixels+8, line_size, h);
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	426 }
45e8f39fda50 put/avg_pixels16 michaelni parents: 448 diff changeset	427

Mercurial > libavcodec.hg

annotate i386/dsputil_mmx_avg.h @ 1929:d4525c3065d0 libavcodec