mplayer.hg: postproc/rgb2rgb_template.c annotate

annotate postproc/rgb2rgb_template.c @ 6526:561de0125a61

yvu9 and if09 support

author	alex
date	Sun, 23 Jun 2002 16:01:35 +0000
parents	e7635c03910f
children	f98313dcd428

rev	line source
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	1 /*
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	2 *
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	3 * rgb2rgb.c, Software RGB to RGB convertor
2732 ae79207a3055 Move yuv2rgb to postprocess nick parents: 2725 diff changeset	4 * pluralize by Software PAL8 to RGB convertor
ae79207a3055 Move yuv2rgb to postprocess nick parents: 2725 diff changeset	5 * Software YUV to YUV convertor
ae79207a3055 Move yuv2rgb to postprocess nick parents: 2725 diff changeset	6 * Software YUV to RGB convertor
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	7 * Written by Nick Kurshev.
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	8 * palette & yuv & runtime cpu stuff by Michael (michaelni@gmx.at) (under GPL)
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	9 */
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	10
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	11 #include <stddef.h>
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	12 #include <inttypes.h> /* for __WORDSIZE */
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	13
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	14 #ifndef __WORDSIZE
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	15 #warning You have misconfigured system and probably will lose performance!
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	16 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	17
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	18 #undef PREFETCH
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	19 #undef MOVNTQ
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	20 #undef EMMS
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	21 #undef SFENCE
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	22 #undef MMREG_SIZE
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	23 #undef PREFETCHW
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	24 #undef PAVGB
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	25
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	26 #ifdef HAVE_SSE2
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	27 #define MMREG_SIZE 16
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	28 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	29 #define MMREG_SIZE 8
2535 b44113f46c96 cant compile on non x86 bugfix michael parents: 2517 diff changeset	30 #endif
2513 d3c6b9ae24b1 sfence nick parents: 2512 diff changeset	31
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	32 #ifdef HAVE_3DNOW
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	33 #define PREFETCH "prefetch"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	34 #define PREFETCHW "prefetchw"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	35 #define PAVGB "pavgusb"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	36 #elif defined ( HAVE_MMX2 )
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	37 #define PREFETCH "prefetchnta"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	38 #define PREFETCHW "prefetcht0"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	39 #define PAVGB "pavgb"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	40 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	41 #define PREFETCH "/nop"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	42 #define PREFETCHW "/nop"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	43 #endif
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	44
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	45 #ifdef HAVE_3DNOW
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	46 /* On K6 femms is faster of emms. On K7 femms is directly mapped on emms. */
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	47 #define EMMS "femms"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	48 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	49 #define EMMS "emms"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	50 #endif
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	51
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	52 #ifdef HAVE_MMX2
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	53 #define MOVNTQ "movntq"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	54 #define SFENCE "sfence"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	55 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	56 #define MOVNTQ "movq"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	57 #define SFENCE "/nop"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	58 #endif
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	59
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	60 static inline void RENAME(rgb24to32)(const uint8_t src,uint8_t dst,unsigned src_size)
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	61 {
2508 94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	62 uint8_t *dest = dst;
2677 794dec2fae64 using const modifier nick parents: 2564 diff changeset	63 const uint8_t *s = src;
794dec2fae64 using const modifier nick parents: 2564 diff changeset	64 const uint8_t *end;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	65 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	66 uint8_t *mm_end;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	67 #endif
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	68 end = s + src_size;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	69 #ifdef HAVE_MMX
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	70 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	71 __asm __volatile("movq %0, %%mm7"::"m"(mask32):"memory");
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	72 mm_end = (uint8_t)((((unsigned long)end)/24)24);
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	73 while(s < mm_end)
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	74 {
2511 6db23dd30242 mmx, mmx2, 3dnow optimized 24to32 nick parents: 2510 diff changeset	75 __asm __volatile(
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	76 PREFETCH" 32%1\n\t"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	77 "movd %1, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	78 "punpckldq 3%1, %%mm0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	79 "movd 6%1, %%mm1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	80 "punpckldq 9%1, %%mm1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	81 "movd 12%1, %%mm2\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	82 "punpckldq 15%1, %%mm2\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	83 "movd 18%1, %%mm3\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	84 "punpckldq 21%1, %%mm3\n\t"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	85 "pand %%mm7, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	86 "pand %%mm7, %%mm1\n\t"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	87 "pand %%mm7, %%mm2\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	88 "pand %%mm7, %%mm3\n\t"
2511 6db23dd30242 mmx, mmx2, 3dnow optimized 24to32 nick parents: 2510 diff changeset	89 MOVNTQ" %%mm0, %0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	90 MOVNTQ" %%mm1, 8%0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	91 MOVNTQ" %%mm2, 16%0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	92 MOVNTQ" %%mm3, 24%0"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	93 :"=m"(*dest)
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	94 :"m"(*s)
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	95 :"memory");
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	96 dest += 32;
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	97 s += 24;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	98 }
2513 d3c6b9ae24b1 sfence nick parents: 2512 diff changeset	99 __asm __volatile(SFENCE:::"memory");
2511 6db23dd30242 mmx, mmx2, 3dnow optimized 24to32 nick parents: 2510 diff changeset	100 __asm __volatile(EMMS:::"memory");
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	101 #endif
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	102 while(s < end)
13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	103 {
2508 94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	104 dest++ = s++;
94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	105 dest++ = s++;
94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	106 dest++ = s++;
94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	107 *dest++ = 0;
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	108 }
13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	109 }
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	110
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	111 static inline void RENAME(rgb32to24)(const uint8_t src,uint8_t dst,unsigned src_size)
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	112 {
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	113 uint8_t *dest = dst;
2677 794dec2fae64 using const modifier nick parents: 2564 diff changeset	114 const uint8_t *s = src;
794dec2fae64 using const modifier nick parents: 2564 diff changeset	115 const uint8_t *end;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	116 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	117 uint8_t *mm_end;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	118 #endif
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	119 end = s + src_size;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	120 #ifdef HAVE_MMX
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	121 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	122 mm_end = (uint8_t)((((unsigned long)end)/32)32);
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	123 while(s < mm_end)
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	124 {
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	125 __asm __volatile(
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	126 PREFETCH" 32%1\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	127 "movq %1, %%mm0\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	128 "movq 8%1, %%mm1\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	129 "movq 16%1, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	130 "movq 24%1, %%mm5\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	131 "movq %%mm0, %%mm2\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	132 "movq %%mm1, %%mm3\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	133 "movq %%mm4, %%mm6\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	134 "movq %%mm5, %%mm7\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	135 "psrlq $8, %%mm2\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	136 "psrlq $8, %%mm3\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	137 "psrlq $8, %%mm6\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	138 "psrlq $8, %%mm7\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	139 "pand %2, %%mm0\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	140 "pand %2, %%mm1\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	141 "pand %2, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	142 "pand %2, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	143 "pand %3, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	144 "pand %3, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	145 "pand %3, %%mm6\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	146 "pand %3, %%mm7\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	147 "por %%mm2, %%mm0\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	148 "por %%mm3, %%mm1\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	149 "por %%mm6, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	150 "por %%mm7, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	151
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	152 "movq %%mm1, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	153 "movq %%mm4, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	154 "psllq $48, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	155 "psllq $32, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	156 "pand %4, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	157 "pand %5, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	158 "por %%mm2, %%mm0\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	159 "psrlq $16, %%mm1\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	160 "psrlq $32, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	161 "psllq $16, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	162 "por %%mm3, %%mm1\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	163 "pand %6, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	164 "por %%mm5, %%mm4\n\t"
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	165
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	166 MOVNTQ" %%mm0, %0\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	167 MOVNTQ" %%mm1, 8%0\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	168 MOVNTQ" %%mm4, 16%0"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	169 :"=m"(*dest)
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	170 :"m"(*s),"m"(mask24l),
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	171 "m"(mask24h),"m"(mask24hh),"m"(mask24hhh),"m"(mask24hhhh)
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	172 :"memory");
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	173 dest += 24;
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	174 s += 32;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	175 }
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	176 __asm __volatile(SFENCE:::"memory");
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	177 __asm __volatile(EMMS:::"memory");
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	178 #endif
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	179 while(s < end)
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	180 {
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	181 dest++ = s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	182 dest++ = s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	183 dest++ = s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	184 s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	185 }
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	186 }
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	187
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	188 /*
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	189 Original by Strepto/Astral
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	190 ported to gcc & bugfixed : A'rpi
2564 3d04a0991dce cosmetic nick parents: 2538 diff changeset	191 MMX2, 3DNOW optimization by Nick Kurshev
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	192 32bit c version, and and&add trick by Michael Niedermayer
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	193 */
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	194 static inline void RENAME(rgb15to16)(const uint8_t src,uint8_t dst,unsigned src_size)
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	195 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	196 register const uint8_t* s=src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	197 register uint8_t* d=dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	198 register const uint8_t *end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	199 uint8_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	200 end = s + src_size;
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	201 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	202 __asm __volatile(PREFETCH" %0"::"m"(*s));
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	203 __asm __volatile("movq %0, %%mm4"::"m"(mask15s));
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	204 mm_end = (uint8_t)((((unsigned long)end)/16)16);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	205 while(s<mm_end)
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	206 {
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	207 __asm __volatile(
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	208 PREFETCH" 32%1\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	209 "movq %1, %%mm0\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	210 "movq 8%1, %%mm2\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	211 "movq %%mm0, %%mm1\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	212 "movq %%mm2, %%mm3\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	213 "pand %%mm4, %%mm0\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	214 "pand %%mm4, %%mm2\n\t"
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	215 "paddw %%mm1, %%mm0\n\t"
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	216 "paddw %%mm3, %%mm2\n\t"
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	217 MOVNTQ" %%mm0, %0\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	218 MOVNTQ" %%mm2, 8%0"
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	219 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	220 :"m"(*s)
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	221 );
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	222 d+=16;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	223 s+=16;
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	224 }
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	225 __asm __volatile(SFENCE:::"memory");
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	226 __asm __volatile(EMMS:::"memory");
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	227 #endif
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	228 mm_end = (uint8_t)((((unsigned long)end)/4)4);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	229 while(s < mm_end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	230 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	231 register unsigned x= ((uint32_t )s);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	232 ((uint32_t )d) = (x&0x7FFF7FFF) + (x&0x7FE07FE0);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	233 d+=4;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	234 s+=4;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	235 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	236 if(s < end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	237 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	238 register unsigned short x= ((uint16_t )s);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	239 ((uint16_t )d) = (x&0x7FFF) + (x&0x7FE0);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	240 }
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	241 }
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	242
6484 c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	243 static inline void RENAME(bgr24torgb24)(const uint8_t src, uint8_t dst, unsigned src_size)
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	244 {
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	245 unsigned j,i,num_pixels=src_size/3;
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	246 for(i=0,j=0; j<num_pixels; i+=3,j+=3)
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	247 {
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	248 dst[j+0] = src[i+2];
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	249 dst[j+1] = src[i+1];
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	250 dst[j+2] = src[i+0];
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	251 }
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	252 }
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	253
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	254 static inline void RENAME(rgb32to16)(const uint8_t src, uint8_t dst, unsigned src_size)
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	255 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	256 const uint8_t *s = src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	257 const uint8_t *end;
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	258 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	259 const uint8_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	260 #endif
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	261 uint16_t d = (uint16_t )dst;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	262 end = s + src_size;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	263 #ifdef HAVE_MMX
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	264 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	265 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	266 "movq %0, %%mm7\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	267 "movq %1, %%mm6\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	268 ::"m"(red_16mask),"m"(green_16mask));
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	269 mm_end = (uint8_t)((((unsigned long)end)/16)16);
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	270 while(s < mm_end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	271 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	272 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	273 PREFETCH" 32%1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	274 "movd %1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	275 "movd 4%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	276 "punpckldq 8%1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	277 "punpckldq 12%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	278 "movq %%mm0, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	279 "movq %%mm0, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	280 "movq %%mm3, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	281 "movq %%mm3, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	282 "psrlq $3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	283 "psrlq $3, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	284 "pand %2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	285 "pand %2, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	286 "psrlq $5, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	287 "psrlq $5, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	288 "pand %%mm6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	289 "pand %%mm6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	290 "psrlq $8, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	291 "psrlq $8, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	292 "pand %%mm7, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	293 "pand %%mm7, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	294 "por %%mm1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	295 "por %%mm4, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	296 "por %%mm2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	297 "por %%mm5, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	298 "psllq $16, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	299 "por %%mm3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	300 MOVNTQ" %%mm0, %0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	301 :"=m"(d):"m"(s),"m"(blue_16mask):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	302 d += 4;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	303 s += 16;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	304 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	305 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	306 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	307 #endif
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	308 while(s < end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	309 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	310 const int b= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	311 const int g= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	312 const int r= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	313 *d++ = (b>>3) \| ((g&0xFC)<<3) \| ((r&0xF8)<<8);
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	314 s++;
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	315 }
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	316 }
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	317
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	318 static inline void RENAME(rgb32to15)(const uint8_t src, uint8_t dst, unsigned src_size)
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	319 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	320 const uint8_t *s = src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	321 const uint8_t *end;
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	322 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	323 const uint8_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	324 #endif
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	325 uint16_t d = (uint16_t )dst;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	326 end = s + src_size;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	327 #ifdef HAVE_MMX
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	328 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	329 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	330 "movq %0, %%mm7\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	331 "movq %1, %%mm6\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	332 ::"m"(red_15mask),"m"(green_15mask));
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	333 mm_end = (uint8_t)((((unsigned long)end)/16)16);
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	334 while(s < mm_end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	335 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	336 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	337 PREFETCH" 32%1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	338 "movd %1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	339 "movd 4%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	340 "punpckldq 8%1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	341 "punpckldq 12%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	342 "movq %%mm0, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	343 "movq %%mm0, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	344 "movq %%mm3, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	345 "movq %%mm3, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	346 "psrlq $3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	347 "psrlq $3, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	348 "pand %2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	349 "pand %2, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	350 "psrlq $6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	351 "psrlq $6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	352 "pand %%mm6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	353 "pand %%mm6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	354 "psrlq $9, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	355 "psrlq $9, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	356 "pand %%mm7, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	357 "pand %%mm7, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	358 "por %%mm1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	359 "por %%mm4, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	360 "por %%mm2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	361 "por %%mm5, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	362 "psllq $16, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	363 "por %%mm3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	364 MOVNTQ" %%mm0, %0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	365 :"=m"(d):"m"(s),"m"(blue_15mask):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	366 d += 4;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	367 s += 16;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	368 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	369 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	370 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	371 #endif
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	372 while(s < end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	373 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	374 const int b= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	375 const int g= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	376 const int r= *s++;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	377 *d++ = (b>>3) \| ((g&0xF8)<<2) \| ((r&0xF8)<<7);
6096 f38c7228a094 fixing end overwrite bugs (some at least) michael parents: 5961 diff changeset	378 s++;
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	379 }
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	380 }
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	381
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	382 static inline void RENAME(rgb24to16)(const uint8_t src, uint8_t dst, unsigned src_size)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	383 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	384 const uint8_t *s = src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	385 const uint8_t *end;
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	386 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	387 const uint8_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	388 #endif
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	389 uint16_t d = (uint16_t )dst;
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	390 end = s + src_size;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	391 #ifdef HAVE_MMX
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	392 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	393 __asm __volatile(
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	394 "movq %0, %%mm7\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	395 "movq %1, %%mm6\n\t"
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	396 ::"m"(red_16mask),"m"(green_16mask));
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	397 mm_end = (uint8_t)((((unsigned long)end)/16)16);
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	398 while(s < mm_end)
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	399 {
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	400 __asm __volatile(
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	401 PREFETCH" 32%1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	402 "movd %1, %%mm0\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	403 "movd 3%1, %%mm3\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	404 "punpckldq 6%1, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	405 "punpckldq 9%1, %%mm3\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	406 "movq %%mm0, %%mm1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	407 "movq %%mm0, %%mm2\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	408 "movq %%mm3, %%mm4\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	409 "movq %%mm3, %%mm5\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	410 "psrlq $3, %%mm0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	411 "psrlq $3, %%mm3\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	412 "pand %2, %%mm0\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	413 "pand %2, %%mm3\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	414 "psrlq $5, %%mm1\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	415 "psrlq $5, %%mm4\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	416 "pand %%mm6, %%mm1\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	417 "pand %%mm6, %%mm4\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	418 "psrlq $8, %%mm2\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	419 "psrlq $8, %%mm5\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	420 "pand %%mm7, %%mm2\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	421 "pand %%mm7, %%mm5\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	422 "por %%mm1, %%mm0\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	423 "por %%mm4, %%mm3\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	424 "por %%mm2, %%mm0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	425 "por %%mm5, %%mm3\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	426 "psllq $16, %%mm3\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	427 "por %%mm3, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	428 MOVNTQ" %%mm0, %0\n\t"
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	429 :"=m"(d):"m"(s),"m"(blue_16mask):"memory");
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	430 d += 4;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	431 s += 12;
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	432 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	433 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	434 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	435 #endif
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	436 while(s < end)
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	437 {
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	438 const int b= *s++;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	439 const int g= *s++;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	440 const int r= *s++;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	441 *d++ = (b>>3) \| ((g&0xFC)<<3) \| ((r&0xF8)<<8);
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	442 }
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	443 }
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	444
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	445 static inline void RENAME(rgb24to15)(const uint8_t src, uint8_t dst, unsigned src_size)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	446 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	447 const uint8_t *s = src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	448 const uint8_t *end;
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	449 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	450 const uint8_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	451 #endif
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	452 uint16_t d = (uint16_t )dst;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	453 end = s + src_size;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	454 #ifdef HAVE_MMX
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	455 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	456 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	457 "movq %0, %%mm7\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	458 "movq %1, %%mm6\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	459 ::"m"(red_15mask),"m"(green_15mask));
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	460 mm_end = (uint8_t)((((unsigned long)end)/16)16);
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	461 while(s < mm_end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	462 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	463 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	464 PREFETCH" 32%1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	465 "movd %1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	466 "movd 3%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	467 "punpckldq 6%1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	468 "punpckldq 9%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	469 "movq %%mm0, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	470 "movq %%mm0, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	471 "movq %%mm3, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	472 "movq %%mm3, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	473 "psrlq $3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	474 "psrlq $3, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	475 "pand %2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	476 "pand %2, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	477 "psrlq $6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	478 "psrlq $6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	479 "pand %%mm6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	480 "pand %%mm6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	481 "psrlq $9, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	482 "psrlq $9, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	483 "pand %%mm7, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	484 "pand %%mm7, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	485 "por %%mm1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	486 "por %%mm4, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	487 "por %%mm2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	488 "por %%mm5, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	489 "psllq $16, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	490 "por %%mm3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	491 MOVNTQ" %%mm0, %0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	492 :"=m"(d):"m"(s),"m"(blue_15mask):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	493 d += 4;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	494 s += 12;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	495 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	496 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	497 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	498 #endif
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	499 while(s < end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	500 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	501 const int b= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	502 const int g= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	503 const int r= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	504 *d++ = (b>>3) \| ((g&0xF8)<<2) \| ((r&0xF8)<<7);
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	505 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	506 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	507
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	508 /*
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	509 I use here less accurate approximation by simply
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	510 left-shifting the input
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	511 value and filling the low order bits with
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	512 zeroes. This method improves png's
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	513 compression but this scheme cannot reproduce white exactly, since it does not
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	514 generate an all-ones maximum value; the net effect is to darken the
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	515 image slightly.
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	516
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	517 The better method should be "left bit replication":
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	518
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	519 4 3 2 1 0
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	520 ---------
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	521 1 1 0 1 1
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	522
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	523 7 6 5 4 3 2 1 0
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	524 ----------------
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	525 1 1 0 1 1 1 1 0
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	526 \|=======\| \|===\|
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	527 \| Leftmost Bits Repeated to Fill Open Bits
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	528 \|
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	529 Original Bits
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	530 */
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	531 static inline void RENAME(rgb15to24)(const uint8_t src, uint8_t dst, unsigned src_size)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	532 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	533 const uint16_t *end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	534 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	535 const uint16_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	536 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	537 uint8_t d = (uint8_t )dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	538 const uint16_t s = (uint16_t )src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	539 end = s + src_size/2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	540 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	541 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	542 mm_end = (uint16_t)((((unsigned long)end)/8)8);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	543 while(s < mm_end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	544 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	545 __asm __volatile(
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	546 PREFETCH" 32%1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	547 "movq %1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	548 "movq %1, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	549 "movq %1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	550 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	551 "pand %3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	552 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	553 "psllq $3, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	554 "psrlq $2, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	555 "psrlq $7, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	556 "movq %%mm0, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	557 "movq %%mm1, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	558 "movq %%mm2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	559 "punpcklwd %5, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	560 "punpcklwd %5, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	561 "punpcklwd %5, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	562 "punpckhwd %5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	563 "punpckhwd %5, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	564 "punpckhwd %5, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	565 "psllq $8, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	566 "psllq $16, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	567 "por %%mm1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	568 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	569 "psllq $8, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	570 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	571 "por %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	572 "por %%mm5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	573
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	574 "movq %%mm0, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	575 "movq %%mm3, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	576
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	577 "movq 8%1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	578 "movq 8%1, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	579 "movq 8%1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	580 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	581 "pand %3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	582 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	583 "psllq $3, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	584 "psrlq $2, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	585 "psrlq $7, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	586 "movq %%mm0, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	587 "movq %%mm1, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	588 "movq %%mm2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	589 "punpcklwd %5, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	590 "punpcklwd %5, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	591 "punpcklwd %5, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	592 "punpckhwd %5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	593 "punpckhwd %5, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	594 "punpckhwd %5, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	595 "psllq $8, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	596 "psllq $16, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	597 "por %%mm1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	598 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	599 "psllq $8, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	600 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	601 "por %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	602 "por %%mm5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	603
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	604 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	605 :"m"(*s),"m"(mask15b),"m"(mask15g),"m"(mask15r), "m"(mmx_null)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	606 :"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	607 /* Borrowed 32 to 24 */
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	608 __asm __volatile(
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	609 "movq %%mm0, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	610 "movq %%mm3, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	611 "movq %%mm6, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	612 "movq %%mm7, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	613
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	614 "movq %%mm4, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	615 "movq %%mm5, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	616 "movq %%mm0, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	617 "movq %%mm1, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	618
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	619 "psrlq $8, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	620 "psrlq $8, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	621 "psrlq $8, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	622 "psrlq $8, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	623 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	624 "pand %2, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	625 "pand %2, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	626 "pand %2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	627 "pand %3, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	628 "pand %3, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	629 "pand %3, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	630 "pand %3, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	631 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	632 "por %%mm3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	633 "por %%mm6, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	634 "por %%mm7, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	635
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	636 "movq %%mm1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	637 "movq %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	638 "psllq $48, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	639 "psllq $32, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	640 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	641 "pand %5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	642 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	643 "psrlq $16, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	644 "psrlq $32, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	645 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	646 "por %%mm3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	647 "pand %6, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	648 "por %%mm5, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	649
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	650 MOVNTQ" %%mm0, %0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	651 MOVNTQ" %%mm1, 8%0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	652 MOVNTQ" %%mm4, 16%0"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	653
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	654 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	655 :"m"(*s),"m"(mask24l),"m"(mask24h),"m"(mask24hh),"m"(mask24hhh),"m"(mask24hhhh)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	656 :"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	657 d += 24;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	658 s += 8;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	659 }
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	660 __asm __volatile(SFENCE:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	661 __asm __volatile(EMMS:::"memory");
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	662 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	663 while(s < end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	664 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	665 register uint16_t bgr;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	666 bgr = *s++;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	667 *d++ = (bgr&0x1F)<<3;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	668 *d++ = (bgr&0x3E0)>>2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	669 *d++ = (bgr&0x7C00)>>7;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	670 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	671 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	672
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	673 static inline void RENAME(rgb16to24)(const uint8_t src, uint8_t dst, unsigned src_size)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	674 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	675 const uint16_t *end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	676 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	677 const uint16_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	678 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	679 uint8_t d = (uint8_t )dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	680 const uint16_t s = (const uint16_t )src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	681 end = s + src_size/2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	682 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	683 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	684 mm_end = (uint16_t)((((unsigned long)end)/8)8);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	685 while(s < mm_end)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	686 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	687 __asm __volatile(
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	688 PREFETCH" 32%1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	689 "movq %1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	690 "movq %1, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	691 "movq %1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	692 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	693 "pand %3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	694 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	695 "psllq $3, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	696 "psrlq $3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	697 "psrlq $8, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	698 "movq %%mm0, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	699 "movq %%mm1, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	700 "movq %%mm2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	701 "punpcklwd %5, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	702 "punpcklwd %5, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	703 "punpcklwd %5, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	704 "punpckhwd %5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	705 "punpckhwd %5, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	706 "punpckhwd %5, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	707 "psllq $8, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	708 "psllq $16, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	709 "por %%mm1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	710 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	711 "psllq $8, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	712 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	713 "por %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	714 "por %%mm5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	715
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	716 "movq %%mm0, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	717 "movq %%mm3, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	718
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	719 "movq 8%1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	720 "movq 8%1, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	721 "movq 8%1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	722 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	723 "pand %3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	724 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	725 "psllq $3, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	726 "psrlq $3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	727 "psrlq $8, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	728 "movq %%mm0, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	729 "movq %%mm1, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	730 "movq %%mm2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	731 "punpcklwd %5, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	732 "punpcklwd %5, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	733 "punpcklwd %5, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	734 "punpckhwd %5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	735 "punpckhwd %5, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	736 "punpckhwd %5, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	737 "psllq $8, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	738 "psllq $16, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	739 "por %%mm1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	740 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	741 "psllq $8, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	742 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	743 "por %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	744 "por %%mm5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	745 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	746 :"m"(*s),"m"(mask16b),"m"(mask16g),"m"(mask16r),"m"(mmx_null)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	747 :"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	748 /* Borrowed 32 to 24 */
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	749 __asm __volatile(
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	750 "movq %%mm0, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	751 "movq %%mm3, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	752 "movq %%mm6, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	753 "movq %%mm7, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	754
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	755 "movq %%mm4, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	756 "movq %%mm5, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	757 "movq %%mm0, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	758 "movq %%mm1, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	759
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	760 "psrlq $8, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	761 "psrlq $8, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	762 "psrlq $8, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	763 "psrlq $8, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	764 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	765 "pand %2, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	766 "pand %2, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	767 "pand %2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	768 "pand %3, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	769 "pand %3, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	770 "pand %3, %%mm6\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	771 "pand %3, %%mm7\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	772 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	773 "por %%mm3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	774 "por %%mm6, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	775 "por %%mm7, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	776
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	777 "movq %%mm1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	778 "movq %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	779 "psllq $48, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	780 "psllq $32, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	781 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	782 "pand %5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	783 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	784 "psrlq $16, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	785 "psrlq $32, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	786 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	787 "por %%mm3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	788 "pand %6, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	789 "por %%mm5, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	790
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	791 MOVNTQ" %%mm0, %0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	792 MOVNTQ" %%mm1, 8%0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	793 MOVNTQ" %%mm4, 16%0"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	794
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	795 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	796 :"m"(*s),"m"(mask24l),"m"(mask24h),"m"(mask24hh),"m"(mask24hhh),"m"(mask24hhhh)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	797 :"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	798 d += 24;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	799 s += 8;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	800 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	801 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	802 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	803 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	804 while(s < end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	805 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	806 register uint16_t bgr;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	807 bgr = *s++;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	808 *d++ = (bgr&0x1F)<<3;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	809 *d++ = (bgr&0x7E0)>>3;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	810 *d++ = (bgr&0xF800)>>8;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	811 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	812 }
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	813
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	814 static inline void RENAME(rgb15to32)(const uint8_t src, uint8_t dst, unsigned src_size)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	815 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	816 const uint16_t *end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	817 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	818 const uint16_t *mm_end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	819 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	820 uint8_t d = (uint8_t )dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	821 const uint16_t s = (const uint16_t )src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	822 end = s + src_size/2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	823 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	824 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	825 __asm __volatile("pxor %%mm7,%%mm7\n\t":::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	826 mm_end = (uint16_t)((((unsigned long)end)/4)4);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	827 while(s < mm_end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	828 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	829 __asm __volatile(
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	830 PREFETCH" 32%1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	831 "movq %1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	832 "movq %1, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	833 "movq %1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	834 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	835 "pand %3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	836 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	837 "psllq $3, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	838 "psrlq $2, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	839 "psrlq $7, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	840 "movq %%mm0, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	841 "movq %%mm1, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	842 "movq %%mm2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	843 "punpcklwd %%mm7, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	844 "punpcklwd %%mm7, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	845 "punpcklwd %%mm7, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	846 "punpckhwd %%mm7, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	847 "punpckhwd %%mm7, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	848 "punpckhwd %%mm7, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	849 "psllq $8, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	850 "psllq $16, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	851 "por %%mm1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	852 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	853 "psllq $8, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	854 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	855 "por %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	856 "por %%mm5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	857 MOVNTQ" %%mm0, %0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	858 MOVNTQ" %%mm3, 8%0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	859 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	860 :"m"(*s),"m"(mask15b),"m"(mask15g),"m"(mask15r)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	861 :"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	862 d += 16;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	863 s += 4;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	864 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	865 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	866 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	867 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	868 while(s < end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	869 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	870 register uint16_t bgr;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	871 bgr = *s++;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	872 *d++ = (bgr&0x1F)<<3;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	873 *d++ = (bgr&0x3E0)>>2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	874 *d++ = (bgr&0x7C00)>>7;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	875 *d++ = 0;
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	876 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	877 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	878
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	879 static inline void RENAME(rgb16to32)(const uint8_t src, uint8_t dst, unsigned src_size)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	880 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	881 const uint16_t *end;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	882 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	883 const uint16_t *mm_end;
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	884 #endif
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	885 uint8_t d = (uint8_t )dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	886 const uint16_t s = (uint16_t )src;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	887 end = s + src_size/2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	888 #ifdef HAVE_MMX
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	889 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	890 __asm __volatile("pxor %%mm7,%%mm7\n\t":::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	891 mm_end = (uint16_t)((((unsigned long)end)/4)4);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	892 while(s < mm_end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	893 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	894 __asm __volatile(
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	895 PREFETCH" 32%1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	896 "movq %1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	897 "movq %1, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	898 "movq %1, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	899 "pand %2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	900 "pand %3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	901 "pand %4, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	902 "psllq $3, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	903 "psrlq $3, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	904 "psrlq $8, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	905 "movq %%mm0, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	906 "movq %%mm1, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	907 "movq %%mm2, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	908 "punpcklwd %%mm7, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	909 "punpcklwd %%mm7, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	910 "punpcklwd %%mm7, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	911 "punpckhwd %%mm7, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	912 "punpckhwd %%mm7, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	913 "punpckhwd %%mm7, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	914 "psllq $8, %%mm1\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	915 "psllq $16, %%mm2\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	916 "por %%mm1, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	917 "por %%mm2, %%mm0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	918 "psllq $8, %%mm4\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	919 "psllq $16, %%mm5\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	920 "por %%mm4, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	921 "por %%mm5, %%mm3\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	922 MOVNTQ" %%mm0, %0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	923 MOVNTQ" %%mm3, 8%0\n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	924 :"=m"(*d)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	925 :"m"(*s),"m"(mask16b),"m"(mask16g),"m"(mask16r)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	926 :"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	927 d += 16;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	928 s += 4;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	929 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	930 __asm __volatile(SFENCE:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	931 __asm __volatile(EMMS:::"memory");
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	932 #endif
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	933 while(s < end)
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	934 {
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	935 register uint16_t bgr;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	936 bgr = *s++;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	937 *d++ = (bgr&0x1F)<<3;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	938 *d++ = (bgr&0x7E0)>>3;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	939 *d++ = (bgr&0xF800)>>8;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	940 *d++ = 0;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	941 }
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	942 }
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	943
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	944 static inline void RENAME(rgb32tobgr32)(const uint8_t src, uint8_t dst, unsigned int src_size)
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	945 {
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	946 #ifdef HAVE_MMX
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	947 /* TODO: unroll this loop */
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	948 asm volatile (
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	949 "xorl %%eax, %%eax \n\t"
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	950 ".balign 16 \n\t"
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	951 "1: \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	952 PREFETCH" 32(%0, %%eax) \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	953 "movq (%0, %%eax), %%mm0 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	954 "movq %%mm0, %%mm1 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	955 "movq %%mm0, %%mm2 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	956 "pslld $16, %%mm0 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	957 "psrld $16, %%mm1 \n\t"
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	958 "pand "MANGLE(mask32r)", %%mm0 \n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	959 "pand "MANGLE(mask32g)", %%mm2 \n\t"
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	960 "pand "MANGLE(mask32b)", %%mm1 \n\t"
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	961 "por %%mm0, %%mm2 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	962 "por %%mm1, %%mm2 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	963 MOVNTQ" %%mm2, (%1, %%eax) \n\t"
6096 f38c7228a094 fixing end overwrite bugs (some at least) michael parents: 5961 diff changeset	964 "addl $8, %%eax \n\t"
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	965 "cmpl %2, %%eax \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	966 " jb 1b \n\t"
5961 f4f3cfcd0d64 10l - MMX rgb2bgr 32bpp expects num_of_bytes instead of num_of_pixels arpi parents: 5588 diff changeset	967 :: "r" (src), "r"(dst), "r" (src_size)
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	968 : "%eax"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	969 );
2766 49c31fd18273 bugfix michael parents: 2755 diff changeset	970
49c31fd18273 bugfix michael parents: 2755 diff changeset	971 __asm __volatile(SFENCE:::"memory");
49c31fd18273 bugfix michael parents: 2755 diff changeset	972 __asm __volatile(EMMS:::"memory");
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	973 #else
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	974 unsigned i;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	975 unsigned num_pixels = src_size >> 2;
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	976 for(i=0; i<num_pixels; i++)
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	977 {
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	978 dst[4i + 0] = src[4i + 2];
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	979 dst[4i + 1] = src[4i + 1];
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	980 dst[4i + 2] = src[4i + 0];
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	981 }
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	982 #endif
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	983 }
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	984
5582 21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	985 static inline void RENAME(rgb24tobgr24)(const uint8_t src, uint8_t dst, unsigned int src_size)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	986 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	987 unsigned i;
5582 21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	988 #ifdef HAVE_MMX
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	989 int mmx_size= 23 - src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	990 asm volatile (
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	991 "movq "MANGLE(mask24r)", %%mm5 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	992 "movq "MANGLE(mask24g)", %%mm6 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	993 "movq "MANGLE(mask24b)", %%mm7 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	994 ".balign 16 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	995 "1: \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	996 PREFETCH" 32(%1, %%eax) \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	997 "movq (%1, %%eax), %%mm0 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	998 "movq (%1, %%eax), %%mm1 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	999 "movq 2(%1, %%eax), %%mm2 \n\t" // R BGR BGR B
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1000 "psllq $16, %%mm0 \n\t" // 00 BGR BGR
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1001 "pand %%mm5, %%mm0 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1002 "pand %%mm6, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1003 "pand %%mm7, %%mm2 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1004 "por %%mm0, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1005 "por %%mm2, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1006 "movq 6(%1, %%eax), %%mm0 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1007 MOVNTQ" %%mm1, (%2, %%eax) \n\t" // RGB RGB RG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1008 "movq 8(%1, %%eax), %%mm1 \n\t" // R BGR BGR B
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1009 "movq 10(%1, %%eax), %%mm2 \n\t" // GR BGR BGR
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1010 "pand %%mm7, %%mm0 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1011 "pand %%mm5, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1012 "pand %%mm6, %%mm2 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1013 "por %%mm0, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1014 "por %%mm2, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1015 "movq 14(%1, %%eax), %%mm0 \n\t" // R BGR BGR B
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1016 MOVNTQ" %%mm1, 8(%2, %%eax) \n\t" // B RGB RGB R
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1017 "movq 16(%1, %%eax), %%mm1 \n\t" // GR BGR BGR
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1018 "movq 18(%1, %%eax), %%mm2 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1019 "pand %%mm6, %%mm0 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1020 "pand %%mm7, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1021 "pand %%mm5, %%mm2 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1022 "por %%mm0, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1023 "por %%mm2, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1024 MOVNTQ" %%mm1, 16(%2, %%eax) \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1025 "addl $24, %%eax \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1026 " js 1b \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1027 : "+a" (mmx_size)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1028 : "r" (src-mmx_size), "r"(dst-mmx_size)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1029 );
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1030
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1031 __asm __volatile(SFENCE:::"memory");
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1032 __asm __volatile(EMMS:::"memory");
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1033
6096 f38c7228a094 fixing end overwrite bugs (some at least) michael parents: 5961 diff changeset	1034 if(mmx_size==23) return; //finihsed, was multiple of 8
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1035
5582 21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1036 src+= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1037 dst+= src_size;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1038 src_size= 23-mmx_size;
5582 21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1039 src-= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1040 dst-= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1041 #endif
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1042 for(i=0; i<src_size; i+=3)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1043 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1044 register uint8_t x;
5582 21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1045 x = src[i + 2];
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1046 dst[i + 1] = src[i + 1];
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1047 dst[i + 2] = src[i + 0];
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1048 dst[i + 0] = x;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1049 }
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1050 }
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	1051
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1052 static inline void RENAME(yuvPlanartoyuy2)(const uint8_t ysrc, const uint8_t usrc, const uint8_t vsrc, uint8_t dst,
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1053 unsigned int width, unsigned int height,
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1054 unsigned int lumStride, unsigned int chromStride, unsigned int dstStride, int vertLumPerChroma)
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	1055 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1056 unsigned y;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1057 const unsigned chromWidth= width>>1;
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1058 for(y=0; y<height; y++)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1059 {
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	1060 #ifdef HAVE_MMX
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1061 //FIXME handle 2 lines a once (fewer prefetch, reuse some chrom, but very likely limited by mem anyway)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1062 asm volatile(
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1063 "xorl %%eax, %%eax \n\t"
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	1064 ".balign 16 \n\t"
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1065 "1: \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1066 PREFETCH" 32(%1, %%eax, 2) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1067 PREFETCH" 32(%2, %%eax) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1068 PREFETCH" 32(%3, %%eax) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1069 "movq (%2, %%eax), %%mm0 \n\t" // U(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1070 "movq %%mm0, %%mm2 \n\t" // U(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1071 "movq (%3, %%eax), %%mm1 \n\t" // V(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1072 "punpcklbw %%mm1, %%mm0 \n\t" // UVUV UVUV(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1073 "punpckhbw %%mm1, %%mm2 \n\t" // UVUV UVUV(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1074
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1075 "movq (%1, %%eax,2), %%mm3 \n\t" // Y(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1076 "movq 8(%1, %%eax,2), %%mm5 \n\t" // Y(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1077 "movq %%mm3, %%mm4 \n\t" // Y(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1078 "movq %%mm5, %%mm6 \n\t" // Y(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1079 "punpcklbw %%mm0, %%mm3 \n\t" // YUYV YUYV(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1080 "punpckhbw %%mm0, %%mm4 \n\t" // YUYV YUYV(4)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1081 "punpcklbw %%mm2, %%mm5 \n\t" // YUYV YUYV(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1082 "punpckhbw %%mm2, %%mm6 \n\t" // YUYV YUYV(12)
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	1083
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1084 MOVNTQ" %%mm3, (%0, %%eax, 4) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1085 MOVNTQ" %%mm4, 8(%0, %%eax, 4) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1086 MOVNTQ" %%mm5, 16(%0, %%eax, 4) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1087 MOVNTQ" %%mm6, 24(%0, %%eax, 4) \n\t"
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	1088
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1089 "addl $8, %%eax \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1090 "cmpl %4, %%eax \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1091 " jb 1b \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1092 ::"r"(dst), "r"(ysrc), "r"(usrc), "r"(vsrc), "r" (chromWidth)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1093 : "%eax"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1094 );
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	1095 #else
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1096 #if __WORDSIZE >= 64
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1097 int i;
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1098 uint64_t ldst = (uint64_t ) dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1099 const uint8_t yc = ysrc, uc = usrc, *vc = vsrc;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1100 for(i = 0; i < chromWidth; i += 2){
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1101 uint64_t k, l;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1102 k = yc[0] + (uc[0] << 8) +
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1103 (yc[1] << 16) + (vc[0] << 24);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1104 l = yc[2] + (uc[1] << 8) +
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1105 (yc[3] << 16) + (vc[1] << 24);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1106 *ldst++ = k + (l << 32);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1107 yc += 4;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1108 uc += 2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1109 vc += 2;
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1110 }
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1111
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1112 #else
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1113 int i, idst = (int32_t ) dst;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1114 const uint8_t yc = ysrc, uc = usrc, *vc = vsrc;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1115 for(i = 0; i < chromWidth; i++){
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1116 *idst++ = yc[0] + (uc[0] << 8) +
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1117 (yc[1] << 16) + (vc[0] << 24);
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1118 yc += 2;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1119 uc++;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1120 vc++;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1121 }
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1122 #endif
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1123 #endif
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1124 if((y&(vertLumPerChroma-1))==(vertLumPerChroma-1) )
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1125 {
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1126 usrc += chromStride;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1127 vsrc += chromStride;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1128 }
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1129 ysrc += lumStride;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1130 dst += dstStride;
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	1131 }
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1132 #ifdef HAVE_MMX
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1133 asm( EMMS" \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1134 SFENCE" \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1135 :::"memory");
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	1136 #endif
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	1137 }
9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	1138
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1139 /**
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1140 *
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1141 * height should be a multiple of 2 and width should be a multiple of 16 (if this is a
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1142 * problem for anyone then tell me, and ill fix it)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1143 */
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1144 static inline void RENAME(yv12toyuy2)(const uint8_t ysrc, const uint8_t usrc, const uint8_t vsrc, uint8_t dst,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1145 unsigned int width, unsigned int height,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1146 unsigned int lumStride, unsigned int chromStride, unsigned int dstStride)
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1147 {
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1148 //FIXME interpolate chroma
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1149 RENAME(yuvPlanartoyuy2)(ysrc, usrc, vsrc, dst, width, height, lumStride, chromStride, dstStride, 2);
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1150 }
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1151
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1152 /**
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1153 *
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1154 * width should be a multiple of 16
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1155 */
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1156 static inline void RENAME(yuv422ptoyuy2)(const uint8_t ysrc, const uint8_t usrc, const uint8_t vsrc, uint8_t dst,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1157 unsigned int width, unsigned int height,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1158 unsigned int lumStride, unsigned int chromStride, unsigned int dstStride)
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1159 {
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1160 RENAME(yuvPlanartoyuy2)(ysrc, usrc, vsrc, dst, width, height, lumStride, chromStride, dstStride, 1);
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1161 }
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1162
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1163 /**
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1164 *
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1165 * height should be a multiple of 2 and width should be a multiple of 16 (if this is a
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1166 * problem for anyone then tell me, and ill fix it)
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	1167 */
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1168 static inline void RENAME(yuy2toyv12)(const uint8_t src, uint8_t ydst, uint8_t udst, uint8_t vdst,
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1169 unsigned int width, unsigned int height,
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1170 unsigned int lumStride, unsigned int chromStride, unsigned int srcStride)
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	1171 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1172 unsigned y;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1173 const unsigned chromWidth= width>>1;
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1174 for(y=0; y<height; y+=2)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1175 {
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1176 #ifdef HAVE_MMX
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1177 asm volatile(
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1178 "xorl %%eax, %%eax \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1179 "pcmpeqw %%mm7, %%mm7 \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1180 "psrlw $8, %%mm7 \n\t" // FF,00,FF,00...
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	1181 ".balign 16 \n\t"
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1182 "1: \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1183 PREFETCH" 64(%0, %%eax, 4) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1184 "movq (%0, %%eax, 4), %%mm0 \n\t" // YUYV YUYV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1185 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1186 "movq %%mm0, %%mm2 \n\t" // YUYV YUYV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1187 "movq %%mm1, %%mm3 \n\t" // YUYV YUYV(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1188 "psrlw $8, %%mm0 \n\t" // U0V0 U0V0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1189 "psrlw $8, %%mm1 \n\t" // U0V0 U0V0(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1190 "pand %%mm7, %%mm2 \n\t" // Y0Y0 Y0Y0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1191 "pand %%mm7, %%mm3 \n\t" // Y0Y0 Y0Y0(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1192 "packuswb %%mm1, %%mm0 \n\t" // UVUV UVUV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1193 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1194
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1195 MOVNTQ" %%mm2, (%1, %%eax, 2) \n\t"
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1196
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1197 "movq 16(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1198 "movq 24(%0, %%eax, 4), %%mm2 \n\t" // YUYV YUYV(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1199 "movq %%mm1, %%mm3 \n\t" // YUYV YUYV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1200 "movq %%mm2, %%mm4 \n\t" // YUYV YUYV(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1201 "psrlw $8, %%mm1 \n\t" // U0V0 U0V0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1202 "psrlw $8, %%mm2 \n\t" // U0V0 U0V0(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1203 "pand %%mm7, %%mm3 \n\t" // Y0Y0 Y0Y0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1204 "pand %%mm7, %%mm4 \n\t" // Y0Y0 Y0Y0(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1205 "packuswb %%mm2, %%mm1 \n\t" // UVUV UVUV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1206 "packuswb %%mm4, %%mm3 \n\t" // YYYY YYYY(8)
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1207
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1208 MOVNTQ" %%mm3, 8(%1, %%eax, 2) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1209
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1210 "movq %%mm0, %%mm2 \n\t" // UVUV UVUV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1211 "movq %%mm1, %%mm3 \n\t" // UVUV UVUV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1212 "psrlw $8, %%mm0 \n\t" // V0V0 V0V0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1213 "psrlw $8, %%mm1 \n\t" // V0V0 V0V0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1214 "pand %%mm7, %%mm2 \n\t" // U0U0 U0U0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1215 "pand %%mm7, %%mm3 \n\t" // U0U0 U0U0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1216 "packuswb %%mm1, %%mm0 \n\t" // VVVV VVVV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1217 "packuswb %%mm3, %%mm2 \n\t" // UUUU UUUU(0)
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1218
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1219 MOVNTQ" %%mm0, (%3, %%eax) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1220 MOVNTQ" %%mm2, (%2, %%eax) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1221
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1222 "addl $8, %%eax \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1223 "cmpl %4, %%eax \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1224 " jb 1b \n\t"
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1225 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1226 : "memory", "%eax"
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1227 );
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1228
2806 cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	1229 ydst += lumStride;
cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	1230 src += srcStride;
cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	1231
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1232 asm volatile(
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1233 "xorl %%eax, %%eax \n\t"
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	1234 ".balign 16 \n\t"
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1235 "1: \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1236 PREFETCH" 64(%0, %%eax, 4) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1237 "movq (%0, %%eax, 4), %%mm0 \n\t" // YUYV YUYV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1238 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1239 "movq 16(%0, %%eax, 4), %%mm2 \n\t" // YUYV YUYV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1240 "movq 24(%0, %%eax, 4), %%mm3 \n\t" // YUYV YUYV(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1241 "pand %%mm7, %%mm0 \n\t" // Y0Y0 Y0Y0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1242 "pand %%mm7, %%mm1 \n\t" // Y0Y0 Y0Y0(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1243 "pand %%mm7, %%mm2 \n\t" // Y0Y0 Y0Y0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1244 "pand %%mm7, %%mm3 \n\t" // Y0Y0 Y0Y0(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1245 "packuswb %%mm1, %%mm0 \n\t" // YYYY YYYY(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1246 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(8)
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1247
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1248 MOVNTQ" %%mm0, (%1, %%eax, 2) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1249 MOVNTQ" %%mm2, 8(%1, %%eax, 2) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1250
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1251 "addl $8, %%eax \n\t"
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	1252 "cmpl %4, %%eax \n\t"
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1253 " jb 1b \n\t"
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1254
2806 cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	1255 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1256 : "memory", "%eax"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1257 );
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1258 #else
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1259 unsigned i;
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1260 for(i=0; i<chromWidth; i++)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1261 {
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1262 ydst[2i+0] = src[4i+0];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1263 udst[i] = src[4*i+1];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1264 ydst[2i+1] = src[4i+2];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1265 vdst[i] = src[4*i+3];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1266 }
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1267 ydst += lumStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1268 src += srcStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1269
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1270 for(i=0; i<chromWidth; i++)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1271 {
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1272 ydst[2i+0] = src[4i+0];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1273 ydst[2i+1] = src[4i+2];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1274 }
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1275 #endif
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1276 udst += chromStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1277 vdst += chromStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1278 ydst += lumStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1279 src += srcStride;
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	1280 }
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	1281 #ifdef HAVE_MMX
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1282 asm volatile( EMMS" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1283 SFENCE" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1284 :::"memory");
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	1285 #endif
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	1286 }
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1287
6484 c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1288 static inline void RENAME(yvu9toyv12)(const uint8_t ysrc, const uint8_t usrc, const uint8_t *vsrc,
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1289 uint8_t ydst, uint8_t udst, uint8_t *vdst,
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1290 unsigned int width, unsigned int height, unsigned int lumStride, unsigned int chromStride)
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1291 {
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1292 /* Y Plane */
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1293 memcpy(ydst, ysrc, width*height);
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1294
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1295 /* XXX: implement upscaling for U,V */
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1296 }
c5cf988c6d6f pre-yvu9toyv12 converter, only grayscale Y-plane coping :) alex parents: 6096 diff changeset	1297
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1298 /**
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1299 *
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1300 * height should be a multiple of 2 and width should be a multiple of 16 (if this is a
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1301 * problem for anyone then tell me, and ill fix it)
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1302 * chrominance data is only taken from every secound line others are ignored FIXME write HQ version
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1303 */
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1304 static inline void RENAME(uyvytoyv12)(const uint8_t src, uint8_t ydst, uint8_t udst, uint8_t vdst,
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1305 unsigned int width, unsigned int height,
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1306 unsigned int lumStride, unsigned int chromStride, unsigned int srcStride)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1307 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1308 unsigned y;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1309 const unsigned chromWidth= width>>1;
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1310 for(y=0; y<height; y+=2)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1311 {
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1312 #ifdef HAVE_MMX
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1313 asm volatile(
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1314 "xorl %%eax, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1315 "pcmpeqw %%mm7, %%mm7 \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1316 "psrlw $8, %%mm7 \n\t" // FF,00,FF,00...
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1317 ".balign 16 \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1318 "1: \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1319 PREFETCH" 64(%0, %%eax, 4) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1320 "movq (%0, %%eax, 4), %%mm0 \n\t" // UYVY UYVY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1321 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // UYVY UYVY(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1322 "movq %%mm0, %%mm2 \n\t" // UYVY UYVY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1323 "movq %%mm1, %%mm3 \n\t" // UYVY UYVY(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1324 "pand %%mm7, %%mm0 \n\t" // U0V0 U0V0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1325 "pand %%mm7, %%mm1 \n\t" // U0V0 U0V0(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1326 "psrlw $8, %%mm2 \n\t" // Y0Y0 Y0Y0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1327 "psrlw $8, %%mm3 \n\t" // Y0Y0 Y0Y0(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1328 "packuswb %%mm1, %%mm0 \n\t" // UVUV UVUV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1329 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1330
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1331 MOVNTQ" %%mm2, (%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1332
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1333 "movq 16(%0, %%eax, 4), %%mm1 \n\t" // UYVY UYVY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1334 "movq 24(%0, %%eax, 4), %%mm2 \n\t" // UYVY UYVY(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1335 "movq %%mm1, %%mm3 \n\t" // UYVY UYVY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1336 "movq %%mm2, %%mm4 \n\t" // UYVY UYVY(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1337 "pand %%mm7, %%mm1 \n\t" // U0V0 U0V0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1338 "pand %%mm7, %%mm2 \n\t" // U0V0 U0V0(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1339 "psrlw $8, %%mm3 \n\t" // Y0Y0 Y0Y0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1340 "psrlw $8, %%mm4 \n\t" // Y0Y0 Y0Y0(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1341 "packuswb %%mm2, %%mm1 \n\t" // UVUV UVUV(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1342 "packuswb %%mm4, %%mm3 \n\t" // YYYY YYYY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1343
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1344 MOVNTQ" %%mm3, 8(%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1345
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1346 "movq %%mm0, %%mm2 \n\t" // UVUV UVUV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1347 "movq %%mm1, %%mm3 \n\t" // UVUV UVUV(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1348 "psrlw $8, %%mm0 \n\t" // V0V0 V0V0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1349 "psrlw $8, %%mm1 \n\t" // V0V0 V0V0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1350 "pand %%mm7, %%mm2 \n\t" // U0U0 U0U0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1351 "pand %%mm7, %%mm3 \n\t" // U0U0 U0U0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1352 "packuswb %%mm1, %%mm0 \n\t" // VVVV VVVV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1353 "packuswb %%mm3, %%mm2 \n\t" // UUUU UUUU(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1354
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1355 MOVNTQ" %%mm0, (%3, %%eax) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1356 MOVNTQ" %%mm2, (%2, %%eax) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1357
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1358 "addl $8, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1359 "cmpl %4, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1360 " jb 1b \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1361 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1362 : "memory", "%eax"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1363 );
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1364
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1365 ydst += lumStride;
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1366 src += srcStride;
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1367
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1368 asm volatile(
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1369 "xorl %%eax, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1370 ".balign 16 \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1371 "1: \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1372 PREFETCH" 64(%0, %%eax, 4) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1373 "movq (%0, %%eax, 4), %%mm0 \n\t" // YUYV YUYV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1374 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1375 "movq 16(%0, %%eax, 4), %%mm2 \n\t" // YUYV YUYV(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1376 "movq 24(%0, %%eax, 4), %%mm3 \n\t" // YUYV YUYV(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1377 "psrlw $8, %%mm0 \n\t" // Y0Y0 Y0Y0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1378 "psrlw $8, %%mm1 \n\t" // Y0Y0 Y0Y0(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1379 "psrlw $8, %%mm2 \n\t" // Y0Y0 Y0Y0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1380 "psrlw $8, %%mm3 \n\t" // Y0Y0 Y0Y0(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1381 "packuswb %%mm1, %%mm0 \n\t" // YYYY YYYY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1382 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1383
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1384 MOVNTQ" %%mm0, (%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1385 MOVNTQ" %%mm2, 8(%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1386
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1387 "addl $8, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1388 "cmpl %4, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1389 " jb 1b \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1390
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1391 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1392 : "memory", "%eax"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1393 );
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1394 #else
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1395 unsigned i;
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1396 for(i=0; i<chromWidth; i++)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1397 {
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1398 udst[i] = src[4*i+0];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1399 ydst[2i+0] = src[4i+1];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1400 vdst[i] = src[4*i+2];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1401 ydst[2i+1] = src[4i+3];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1402 }
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1403 ydst += lumStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1404 src += srcStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1405
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1406 for(i=0; i<chromWidth; i++)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1407 {
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1408 ydst[2i+0] = src[4i+1];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1409 ydst[2i+1] = src[4i+3];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1410 }
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1411 #endif
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1412 udst += chromStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1413 vdst += chromStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1414 ydst += lumStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1415 src += srcStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1416 }
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1417 #ifdef HAVE_MMX
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1418 asm volatile( EMMS" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1419 SFENCE" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1420 :::"memory");
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	1421 #endif
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1422 }
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1423
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1424 /**
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1425 *
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1426 * height should be a multiple of 2 and width should be a multiple of 2 (if this is a
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1427 * problem for anyone then tell me, and ill fix it)
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1428 * chrominance data is only taken from every secound line others are ignored in the C version FIXME write HQ version
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1429 */
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1430 static inline void RENAME(rgb24toyv12)(const uint8_t src, uint8_t ydst, uint8_t udst, uint8_t vdst,
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1431 unsigned int width, unsigned int height,
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1432 unsigned int lumStride, unsigned int chromStride, unsigned int srcStride)
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1433 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1434 unsigned y;
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1435 const unsigned chromWidth= width>>1;
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1436 #ifdef HAVE_MMX
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1437 for(y=0; y<height-2; y+=2)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1438 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1439 unsigned i;
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1440 for(i=0; i<2; i++)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1441 {
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1442 asm volatile(
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1443 "movl %2, %%eax \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1444 "movq "MANGLE(bgr2YCoeff)", %%mm6 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1445 "movq "MANGLE(w1111)", %%mm5 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1446 "pxor %%mm7, %%mm7 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1447 "leal (%%eax, %%eax, 2), %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1448 ".balign 16 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1449 "1: \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1450 PREFETCH" 64(%0, %%ebx) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1451 "movd (%0, %%ebx), %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1452 "movd 3(%0, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1453 "punpcklbw %%mm7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1454 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1455 "movd 6(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1456 "movd 9(%0, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1457 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1458 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1459 "pmaddwd %%mm6, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1460 "pmaddwd %%mm6, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1461 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1462 "pmaddwd %%mm6, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1463 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1464 "psrad $8, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1465 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1466 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1467 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1468 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1469 "packssdw %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1470 "packssdw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1471 "pmaddwd %%mm5, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1472 "pmaddwd %%mm5, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1473 "packssdw %%mm2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1474 "psraw $7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1475
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1476 "movd 12(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1477 "movd 15(%0, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1478 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1479 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1480 "movd 18(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1481 "movd 21(%0, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1482 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1483 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1484 "pmaddwd %%mm6, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1485 "pmaddwd %%mm6, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1486 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1487 "pmaddwd %%mm6, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1488 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1489 "psrad $8, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1490 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1491 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1492 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1493 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1494 "packssdw %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1495 "packssdw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1496 "pmaddwd %%mm5, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1497 "pmaddwd %%mm5, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1498 "addl $24, %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1499 "packssdw %%mm2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1500 "psraw $7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1501
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1502 "packuswb %%mm4, %%mm0 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1503 "paddusb "MANGLE(bgr2YOffset)", %%mm0 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1504
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1505 MOVNTQ" %%mm0, (%1, %%eax) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1506 "addl $8, %%eax \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1507 " js 1b \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1508 : : "r" (src+width*3), "r" (ydst+width), "g" (-width)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1509 : "%eax", "%ebx"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1510 );
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1511 ydst += lumStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1512 src += srcStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1513 }
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1514 src -= srcStride*2;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1515 asm volatile(
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1516 "movl %4, %%eax \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1517 "movq "MANGLE(w1111)", %%mm5 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1518 "movq "MANGLE(bgr2UCoeff)", %%mm6 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1519 "pxor %%mm7, %%mm7 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1520 "leal (%%eax, %%eax, 2), %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1521 "addl %%ebx, %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1522 ".balign 16 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1523 "1: \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1524 PREFETCH" 64(%0, %%ebx) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1525 PREFETCH" 64(%1, %%ebx) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1526 #if defined (HAVE_MMX2) \|\| defined (HAVE_3DNOW)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1527 "movq (%0, %%ebx), %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1528 "movq (%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1529 "movq 6(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1530 "movq 6(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1531 PAVGB" %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1532 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1533 "movq %%mm0, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1534 "movq %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1535 "psrlq $24, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1536 "psrlq $24, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1537 PAVGB" %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1538 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1539 "punpcklbw %%mm7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1540 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1541 #else
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1542 "movd (%0, %%ebx), %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1543 "movd (%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1544 "movd 3(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1545 "movd 3(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1546 "punpcklbw %%mm7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1547 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1548 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1549 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1550 "paddw %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1551 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1552 "paddw %%mm2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1553 "movd 6(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1554 "movd 6(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1555 "movd 9(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1556 "movd 9(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1557 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1558 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1559 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1560 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1561 "paddw %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1562 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1563 "paddw %%mm4, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1564 "psrlw $2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1565 "psrlw $2, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1566 #endif
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1567 "movq "MANGLE(bgr2VCoeff)", %%mm1 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1568 "movq "MANGLE(bgr2VCoeff)", %%mm3 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1569
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1570 "pmaddwd %%mm0, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1571 "pmaddwd %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1572 "pmaddwd %%mm6, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1573 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1574 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1575 "psrad $8, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1576 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1577 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1578 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1579 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1580 "packssdw %%mm2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1581 "packssdw %%mm3, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1582 "pmaddwd %%mm5, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1583 "pmaddwd %%mm5, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1584 "packssdw %%mm1, %%mm0 \n\t" // V1 V0 U1 U0
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1585 "psraw $7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1586
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1587 #if defined (HAVE_MMX2) \|\| defined (HAVE_3DNOW)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1588 "movq 12(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1589 "movq 12(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1590 "movq 18(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1591 "movq 18(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1592 PAVGB" %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1593 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1594 "movq %%mm4, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1595 "movq %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1596 "psrlq $24, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1597 "psrlq $24, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1598 PAVGB" %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1599 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1600 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1601 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1602 #else
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1603 "movd 12(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1604 "movd 12(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1605 "movd 15(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1606 "movd 15(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1607 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1608 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1609 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1610 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1611 "paddw %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1612 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1613 "paddw %%mm2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1614 "movd 18(%0, %%ebx), %%mm5 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1615 "movd 18(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1616 "movd 21(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1617 "movd 21(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1618 "punpcklbw %%mm7, %%mm5 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1619 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1620 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1621 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1622 "paddw %%mm1, %%mm5 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1623 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1624 "paddw %%mm5, %%mm2 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1625 "movq "MANGLE(w1111)", %%mm5 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1626 "psrlw $2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1627 "psrlw $2, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1628 #endif
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1629 "movq "MANGLE(bgr2VCoeff)", %%mm1 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1630 "movq "MANGLE(bgr2VCoeff)", %%mm3 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1631
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1632 "pmaddwd %%mm4, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1633 "pmaddwd %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1634 "pmaddwd %%mm6, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1635 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1636 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1637 "psrad $8, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1638 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1639 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1640 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1641 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1642 "packssdw %%mm2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1643 "packssdw %%mm3, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1644 "pmaddwd %%mm5, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1645 "pmaddwd %%mm5, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1646 "addl $24, %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1647 "packssdw %%mm1, %%mm4 \n\t" // V3 V2 U3 U2
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1648 "psraw $7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1649
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1650 "movq %%mm0, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1651 "punpckldq %%mm4, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1652 "punpckhdq %%mm4, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1653 "packsswb %%mm1, %%mm0 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1654 "paddb "MANGLE(bgr2UVOffset)", %%mm0 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1655
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1656 "movd %%mm0, (%2, %%eax) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1657 "punpckhdq %%mm0, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1658 "movd %%mm0, (%3, %%eax) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1659 "addl $4, %%eax \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1660 " js 1b \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1661 : : "r" (src+width6), "r" (src+srcStride+width6), "r" (udst+width), "r" (vdst+width), "g" (-width)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1662 : "%eax", "%ebx"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1663 );
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1664
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1665 udst += chromStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1666 vdst += chromStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1667 src += srcStride*2;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1668 }
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1669
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1670 asm volatile( EMMS" \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1671 SFENCE" \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1672 :::"memory");
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1673 #else
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1674 y=0;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1675 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1676 for(; y<height; y+=2)
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1677 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1678 unsigned i;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1679 for(i=0; i<chromWidth; i++)
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1680 {
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1681 unsigned int b= src[6*i+0];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1682 unsigned int g= src[6*i+1];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1683 unsigned int r= src[6*i+2];
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1684
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1685 unsigned int Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1686 unsigned int V = ((RVr + GVg + BV*b)>>RGB2YUV_SHIFT) + 128;
e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1687 unsigned int U = ((RUr + GUg + BU*b)>>RGB2YUV_SHIFT) + 128;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1688
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1689 udst[i] = U;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1690 vdst[i] = V;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1691 ydst[2*i] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1692
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1693 b= src[6*i+3];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1694 g= src[6*i+4];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1695 r= src[6*i+5];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1696
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1697 Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1698 ydst[2*i+1] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1699 }
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1700 ydst += lumStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1701 src += srcStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1702
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1703 for(i=0; i<chromWidth; i++)
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1704 {
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1705 unsigned int b= src[6*i+0];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1706 unsigned int g= src[6*i+1];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1707 unsigned int r= src[6*i+2];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1708
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1709 unsigned int Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1710
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1711 ydst[2*i] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1712
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1713 b= src[6*i+3];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1714 g= src[6*i+4];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1715 r= src[6*i+5];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1716
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1717 Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1718 ydst[2*i+1] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1719 }
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1720 udst += chromStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1721 vdst += chromStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1722 ydst += lumStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1723 src += srcStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1724 }
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1725 }
5337 0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1726
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1727 void RENAME(interleaveBytes)(uint8_t src1, uint8_t src2, uint8_t *dest,
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1728 unsigned width, unsigned height, unsigned src1Stride,
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1729 unsigned src2Stride, unsigned dstStride){
e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1730 unsigned h;
5337 0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1731
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1732 for(h=0; h < height; h++)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1733 {
6492 e7635c03910f sync with mplayer xp arpi parents: 6484 diff changeset	1734 unsigned w;
5337 0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1735
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1736 #ifdef HAVE_MMX
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1737 #ifdef HAVE_SSE2
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1738 asm(
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1739 "xorl %%eax, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1740 "1: \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1741 PREFETCH" 64(%1, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1742 PREFETCH" 64(%2, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1743 "movdqa (%1, %%eax), %%xmm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1744 "movdqa (%1, %%eax), %%xmm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1745 "movdqa (%2, %%eax), %%xmm2 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1746 "punpcklbw %%xmm2, %%xmm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1747 "punpckhbw %%xmm2, %%xmm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1748 "movntdq %%xmm0, (%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1749 "movntdq %%xmm1, 16(%0, %%eax, 2)\n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1750 "addl $16, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1751 "cmpl %3, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1752 " jb 1b \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1753 ::"r"(dest), "r"(src1), "r"(src2), "r" (width-15)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1754 : "memory", "%eax"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1755 );
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1756 #else
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1757 asm(
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1758 "xorl %%eax, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1759 "1: \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1760 PREFETCH" 64(%1, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1761 PREFETCH" 64(%2, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1762 "movq (%1, %%eax), %%mm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1763 "movq 8(%1, %%eax), %%mm2 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1764 "movq %%mm0, %%mm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1765 "movq %%mm2, %%mm3 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1766 "movq (%2, %%eax), %%mm4 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1767 "movq 8(%2, %%eax), %%mm5 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1768 "punpcklbw %%mm4, %%mm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1769 "punpckhbw %%mm4, %%mm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1770 "punpcklbw %%mm5, %%mm2 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1771 "punpckhbw %%mm5, %%mm3 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1772 MOVNTQ" %%mm0, (%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1773 MOVNTQ" %%mm1, 8(%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1774 MOVNTQ" %%mm2, 16(%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1775 MOVNTQ" %%mm3, 24(%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1776 "addl $16, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1777 "cmpl %3, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1778 " jb 1b \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1779 ::"r"(dest), "r"(src1), "r"(src2), "r" (width-15)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1780 : "memory", "%eax"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1781 );
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1782 #endif
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1783 for(w= (width&(~15)); w < width; w++)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1784 {
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1785 dest[2*w+0] = src1[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1786 dest[2*w+1] = src2[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1787 }
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1788 #else
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1789 for(w=0; w < width; w++)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1790 {
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1791 dest[2*w+0] = src1[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1792 dest[2*w+1] = src2[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1793 }
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1794 #endif
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1795 dest += dstStride;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1796 src1 += src1Stride;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1797 src2 += src2Stride;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1798 }
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1799 #ifdef HAVE_MMX
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1800 asm(
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1801 EMMS" \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1802 SFENCE" \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1803 ::: "memory"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1804 );
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1805 #endif
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1806 }

Mercurial > mplayer.hg

annotate postproc/rgb2rgb_template.c @ 6526:561de0125a61