mplayer.hg: postproc/rgb2rgb_template.c annotate

annotate postproc/rgb2rgb_template.c @ 5677:a21cab74cde8

bitrate>16000 means bits not kbits - noticed by George Hawkins <george_hawkins@yahoo.com>

author	arpi
date	Thu, 18 Apr 2002 15:23:34 +0000
parents	f0fa3373f616
children	f4f3cfcd0d64

rev	line source
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	1 /*
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	2 *
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	3 * rgb2rgb.c, Software RGB to RGB convertor
2732 ae79207a3055 Move yuv2rgb to postprocess nick parents: 2725 diff changeset	4 * pluralize by Software PAL8 to RGB convertor
ae79207a3055 Move yuv2rgb to postprocess nick parents: 2725 diff changeset	5 * Software YUV to YUV convertor
ae79207a3055 Move yuv2rgb to postprocess nick parents: 2725 diff changeset	6 * Software YUV to RGB convertor
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	7 * Written by Nick Kurshev.
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	8 * palette & yuv & runtime cpu stuff by Michael (michaelni@gmx.at) (under GPL)
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	9 */
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	10
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	11 #undef PREFETCH
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	12 #undef MOVNTQ
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	13 #undef EMMS
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	14 #undef SFENCE
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	15 #undef MMREG_SIZE
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	16 #undef PREFETCHW
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	17 #undef PAVGB
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	18
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	19 #ifdef HAVE_SSE2
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	20 #define MMREG_SIZE 16
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	21 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	22 #define MMREG_SIZE 8
2535 b44113f46c96 cant compile on non x86 bugfix michael parents: 2517 diff changeset	23 #endif
2513 d3c6b9ae24b1 sfence nick parents: 2512 diff changeset	24
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	25 #ifdef HAVE_3DNOW
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	26 #define PREFETCH "prefetch"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	27 #define PREFETCHW "prefetchw"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	28 #define PAVGB "pavgusb"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	29 #elif defined ( HAVE_MMX2 )
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	30 #define PREFETCH "prefetchnta"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	31 #define PREFETCHW "prefetcht0"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	32 #define PAVGB "pavgb"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	33 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	34 #define PREFETCH "/nop"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	35 #define PREFETCHW "/nop"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	36 #endif
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	37
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	38 #ifdef HAVE_3DNOW
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	39 /* On K6 femms is faster of emms. On K7 femms is directly mapped on emms. */
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	40 #define EMMS "femms"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	41 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	42 #define EMMS "emms"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	43 #endif
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	44
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	45 #ifdef HAVE_MMX2
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	46 #define MOVNTQ "movntq"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	47 #define SFENCE "sfence"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	48 #else
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	49 #define MOVNTQ "movq"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	50 #define SFENCE "/nop"
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	51 #endif
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	52
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	53 static inline void RENAME(rgb24to32)(const uint8_t src,uint8_t dst,unsigned src_size)
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	54 {
2508 94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	55 uint8_t *dest = dst;
2677 794dec2fae64 using const modifier nick parents: 2564 diff changeset	56 const uint8_t *s = src;
794dec2fae64 using const modifier nick parents: 2564 diff changeset	57 const uint8_t *end;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	58 #ifdef HAVE_MMX
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	59 uint8_t *mm_end;
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	60 #endif
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	61 end = s + src_size;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	62 #ifdef HAVE_MMX
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	63 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	64 mm_end = (uint8_t)((((unsigned long)end)/(MMREG_SIZE4))(MMREG_SIZE4));
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	65 __asm __volatile("movq %0, %%mm7"::"m"(mask32):"memory");
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	66 if(mm_end == end) mm_end -= MMREG_SIZE*4;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	67 while(s < mm_end)
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	68 {
2511 6db23dd30242 mmx, mmx2, 3dnow optimized 24to32 nick parents: 2510 diff changeset	69 __asm __volatile(
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	70 PREFETCH" 32%1\n\t"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	71 "movd %1, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	72 "punpckldq 3%1, %%mm0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	73 "movd 6%1, %%mm1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	74 "punpckldq 9%1, %%mm1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	75 "movd 12%1, %%mm2\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	76 "punpckldq 15%1, %%mm2\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	77 "movd 18%1, %%mm3\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	78 "punpckldq 21%1, %%mm3\n\t"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	79 "pand %%mm7, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	80 "pand %%mm7, %%mm1\n\t"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	81 "pand %%mm7, %%mm2\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	82 "pand %%mm7, %%mm3\n\t"
2511 6db23dd30242 mmx, mmx2, 3dnow optimized 24to32 nick parents: 2510 diff changeset	83 MOVNTQ" %%mm0, %0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	84 MOVNTQ" %%mm1, 8%0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	85 MOVNTQ" %%mm2, 16%0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	86 MOVNTQ" %%mm3, 24%0"
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	87 :"=m"(*dest)
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	88 :"m"(*s)
42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	89 :"memory");
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	90 dest += 32;
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	91 s += 24;
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	92 }
2513 d3c6b9ae24b1 sfence nick parents: 2512 diff changeset	93 __asm __volatile(SFENCE:::"memory");
2511 6db23dd30242 mmx, mmx2, 3dnow optimized 24to32 nick parents: 2510 diff changeset	94 __asm __volatile(EMMS:::"memory");
2510 42e1ae2c8f5f mmx optimized 24to32 nick parents: 2508 diff changeset	95 #endif
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	96 while(s < end)
13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	97 {
2508 94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	98 dest++ = s++;
94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	99 dest++ = s++;
94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	100 dest++ = s++;
94f9825a3736 Prev ver could work only on x86 nick parents: 2506 diff changeset	101 *dest++ = 0;
2504 13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	102 }
13e1c5ab417a vo_vesa: rgb2rgb support nick parents: diff changeset	103 }
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	104
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	105 static inline void RENAME(rgb32to24)(const uint8_t src,uint8_t dst,unsigned src_size)
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	106 {
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	107 uint8_t *dest = dst;
2677 794dec2fae64 using const modifier nick parents: 2564 diff changeset	108 const uint8_t *s = src;
794dec2fae64 using const modifier nick parents: 2564 diff changeset	109 const uint8_t *end;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	110 #ifdef HAVE_MMX
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	111 uint8_t *mm_end;
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	112 #endif
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	113 end = s + src_size;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	114 #ifdef HAVE_MMX
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	115 __asm __volatile(PREFETCH" %0"::"m"(*s):"memory");
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	116 mm_end = (uint8_t)((((unsigned long)end)/(MMREG_SIZE4))(MMREG_SIZE4));
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	117 while(s < mm_end)
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	118 {
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	119 __asm __volatile(
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	120 PREFETCH" 32%1\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	121 "movq %1, %%mm0\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	122 "movq 8%1, %%mm1\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	123 "movq 16%1, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	124 "movq 24%1, %%mm5\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	125 "movq %%mm0, %%mm2\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	126 "movq %%mm1, %%mm3\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	127 "movq %%mm4, %%mm6\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	128 "movq %%mm5, %%mm7\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	129 "psrlq $8, %%mm2\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	130 "psrlq $8, %%mm3\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	131 "psrlq $8, %%mm6\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	132 "psrlq $8, %%mm7\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	133 "pand %2, %%mm0\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	134 "pand %2, %%mm1\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	135 "pand %2, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	136 "pand %2, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	137 "pand %3, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	138 "pand %3, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	139 "pand %3, %%mm6\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	140 "pand %3, %%mm7\n\t"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	141 "por %%mm2, %%mm0\n\t"
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	142 "por %%mm3, %%mm1\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	143 "por %%mm6, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	144 "por %%mm7, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	145
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	146 "movq %%mm1, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	147 "movq %%mm4, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	148 "psllq $48, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	149 "psllq $32, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	150 "pand %4, %%mm2\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	151 "pand %5, %%mm3\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	152 "por %%mm2, %%mm0\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	153 "psrlq $16, %%mm1\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	154 "psrlq $32, %%mm4\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	155 "psllq $16, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	156 "por %%mm3, %%mm1\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	157 "pand %6, %%mm5\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	158 "por %%mm5, %%mm4\n\t"
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	159
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	160 MOVNTQ" %%mm0, %0\n\t"
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	161 MOVNTQ" %%mm1, 8%0\n\t"
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	162 MOVNTQ" %%mm4, 16%0"
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	163 :"=m"(*dest)
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	164 :"m"(*s),"m"(mask24l),
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	165 "m"(mask24h),"m"(mask24hh),"m"(mask24hhh),"m"(mask24hhhh)
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	166 :"memory");
2746 dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	167 dest += 24;
dece635a28e3 Minor speedup of rgb32to24. (performance is not successful) nick parents: 2741 diff changeset	168 s += 32;
2517 3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	169 }
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	170 __asm __volatile(SFENCE:::"memory");
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	171 __asm __volatile(EMMS:::"memory");
3d507ef1e3ed 32to24: MMX, MMX2, 3DNOW optimization nick parents: 2516 diff changeset	172 #endif
2505 2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	173 while(s < end)
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	174 {
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	175 dest++ = s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	176 dest++ = s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	177 dest++ = s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	178 s++;
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	179 }
2aaa11d22f91 vo_vesa: more rgb2rgb support nick parents: 2504 diff changeset	180 }
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	181
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	182 /*
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	183 Original by Strepto/Astral
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	184 ported to gcc & bugfixed : A'rpi
2564 3d04a0991dce cosmetic nick parents: 2538 diff changeset	185 MMX2, 3DNOW optimization by Nick Kurshev
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	186 32bit c version, and and&add trick by Michael Niedermayer
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	187 */
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	188 static inline void RENAME(rgb15to16)(const uint8_t src,uint8_t dst,unsigned src_size)
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	189 {
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	190 #ifdef HAVE_MMX
2677 794dec2fae64 using const modifier nick parents: 2564 diff changeset	191 register const char* s=src+src_size;
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	192 register char* d=dst+src_size;
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	193 register int offs=-src_size;
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	194 __asm __volatile(PREFETCH" %0"::"m"(*(s+offs)));
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	195 __asm __volatile(
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	196 "movq %0, %%mm4\n\t"
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	197 ::"m"(mask15s));
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	198 while(offs<0)
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	199 {
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	200 __asm __volatile(
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	201 PREFETCH" 32%1\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	202 "movq %1, %%mm0\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	203 "movq 8%1, %%mm2\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	204 "movq %%mm0, %%mm1\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	205 "movq %%mm2, %%mm3\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	206 "pand %%mm4, %%mm0\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	207 "pand %%mm4, %%mm2\n\t"
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	208 "paddw %%mm1, %%mm0\n\t"
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	209 "paddw %%mm3, %%mm2\n\t"
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	210 MOVNTQ" %%mm0, %0\n\t"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	211 MOVNTQ" %%mm2, 8%0"
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	212 :"=m"(*(d+offs))
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	213 :"m"(*(s+offs))
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	214 );
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	215 offs+=16;
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	216 }
2538 71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	217 __asm __volatile(SFENCE:::"memory");
71320898b333 Finish mmx2, 3dnow optimiz. 15to16 should be tested. Better fix of can't compile nick parents: 2535 diff changeset	218 __asm __volatile(EMMS:::"memory");
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	219 #else
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	220 #if 0
2677 794dec2fae64 using const modifier nick parents: 2564 diff changeset	221 const uint16_t s1=( uint16_t )src;
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	222 uint16_t d1=( uint16_t )dst;
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	223 uint16_t e=((uint8_t )s1)+src_size;
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	224 while( s1<e ){
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	225 register int x=*( s1++ );
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	226 /* rrrrrggggggbbbbb
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	227 0rrrrrgggggbbbbb
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	228 0111 1111 1110 0000=0x7FE0
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	229 00000000000001 1111=0x001F */
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	230 *( d1++ )=( x&0x001F )\|( ( x&0x7FE0 )<<1 );
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	231 }
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	232 #else
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	233 const unsigned s1=( unsigned )src;
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	234 unsigned d1=( unsigned )dst;
2698 22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	235 int i;
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	236 int size= src_size>>2;
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	237 for(i=0; i<size; i++)
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	238 {
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	239 register int x= s1[i];
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	240 // d1[i] = x + (x&0x7FE07FE0); //faster but need msbit =0 which might not allways be true
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	241 d1[i] = (x&0x7FFF7FFF) + (x&0x7FE07FE0);
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	242
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	243 }
22652c028692 faster 15to16 bit rgb (the mmx routine is limited by memory speed so there is no difference ): but the c routine is faster michael parents: 2697 diff changeset	244 #endif
2506 501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	245 #endif
501752469c39 vo_vesa: more rgb2rgb support nick parents: 2505 diff changeset	246 }
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	247
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	248 static inline void RENAME(rgb32to16)(const uint8_t src, uint8_t dst, unsigned src_size)
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	249 {
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	250 #ifdef HAVE_MMX
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	251 const uint8_t *s = src;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	252 const uint8_t end,mm_end;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	253 uint16_t d = (uint16_t )dst;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	254 end = s + src_size;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	255 mm_end = (uint8_t)((((unsigned long)end)/(MMREG_SIZE2))(MMREG_SIZE2));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	256 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	257 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	258 "movq %0, %%mm7\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	259 "movq %1, %%mm6\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	260 ::"m"(red_16mask),"m"(green_16mask));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	261 while(s < mm_end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	262 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	263 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	264 PREFETCH" 32%1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	265 "movd %1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	266 "movd 4%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	267 "punpckldq 8%1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	268 "punpckldq 12%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	269 "movq %%mm0, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	270 "movq %%mm0, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	271 "movq %%mm3, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	272 "movq %%mm3, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	273 "psrlq $3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	274 "psrlq $3, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	275 "pand %2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	276 "pand %2, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	277 "psrlq $5, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	278 "psrlq $5, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	279 "pand %%mm6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	280 "pand %%mm6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	281 "psrlq $8, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	282 "psrlq $8, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	283 "pand %%mm7, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	284 "pand %%mm7, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	285 "por %%mm1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	286 "por %%mm4, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	287 "por %%mm2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	288 "por %%mm5, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	289 "psllq $16, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	290 "por %%mm3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	291 MOVNTQ" %%mm0, %0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	292 :"=m"(d):"m"(s),"m"(blue_16mask):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	293 d += 4;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	294 s += 16;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	295 }
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	296 while(s < end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	297 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	298 const int b= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	299 const int g= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	300 const int r= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	301 *d++ = (b>>3) \| ((g&0xFC)<<3) \| ((r&0xF8)<<8);
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	302 }
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	303 __asm __volatile(SFENCE:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	304 __asm __volatile(EMMS:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	305 #else
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	306 unsigned j,i,num_pixels=src_size/4;
fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	307 uint16_t d = (uint16_t )dst;
fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	308 for(i=0,j=0; j<num_pixels; i+=4,j++)
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	309 {
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	310 const int b= src[i+0];
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	311 const int g= src[i+1];
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	312 const int r= src[i+2];
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	313
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	314 d[j]= (b>>3) \| ((g&0xFC)<<3) \| ((r&0xF8)<<8);
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	315 }
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	316 #endif
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	317 }
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	318
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	319 static inline void RENAME(rgb32to15)(const uint8_t src, uint8_t dst, unsigned src_size)
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	320 {
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	321 #ifdef HAVE_MMX
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	322 const uint8_t *s = src;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	323 const uint8_t end,mm_end;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	324 uint16_t d = (uint16_t )dst;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	325 end = s + src_size;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	326 mm_end = (uint8_t)((((unsigned long)end)/(MMREG_SIZE2))(MMREG_SIZE2));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	327 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	328 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	329 "movq %0, %%mm7\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	330 "movq %1, %%mm6\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	331 ::"m"(red_15mask),"m"(green_15mask));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	332 while(s < mm_end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	333 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	334 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	335 PREFETCH" 32%1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	336 "movd %1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	337 "movd 4%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	338 "punpckldq 8%1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	339 "punpckldq 12%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	340 "movq %%mm0, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	341 "movq %%mm0, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	342 "movq %%mm3, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	343 "movq %%mm3, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	344 "psrlq $3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	345 "psrlq $3, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	346 "pand %2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	347 "pand %2, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	348 "psrlq $6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	349 "psrlq $6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	350 "pand %%mm6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	351 "pand %%mm6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	352 "psrlq $9, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	353 "psrlq $9, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	354 "pand %%mm7, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	355 "pand %%mm7, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	356 "por %%mm1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	357 "por %%mm4, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	358 "por %%mm2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	359 "por %%mm5, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	360 "psllq $16, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	361 "por %%mm3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	362 MOVNTQ" %%mm0, %0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	363 :"=m"(d):"m"(s),"m"(blue_15mask):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	364 d += 4;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	365 s += 16;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	366 }
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	367 while(s < end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	368 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	369 const int b= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	370 const int g= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	371 const int r= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	372 *d++ = (b>>3) \| ((g&0xF8)<<2) \| ((r&0xF8)<<7);
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	373 }
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	374 __asm __volatile(SFENCE:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	375 __asm __volatile(EMMS:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	376 #else
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	377 unsigned j,i,num_pixels=src_size/4;
fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	378 uint16_t d = (uint16_t )dst;
fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	379 for(i=0,j=0; j<num_pixels; i+=4,j++)
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	380 {
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	381 const int b= src[i+0];
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	382 const int g= src[i+1];
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	383 const int r= src[i+2];
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	384
2720 4ba64e254042 Fixed rgb32(24)to15 stuff nick parents: 2719 diff changeset	385 d[j]= (b>>3) \| ((g&0xF8)<<2) \| ((r&0xF8)<<7);
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	386 }
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	387 #endif
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	388 }
2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	389
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	390 static inline void RENAME(rgb24to16)(const uint8_t src, uint8_t dst, unsigned src_size)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	391 {
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	392 #ifdef HAVE_MMX
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	393 const uint8_t *s = src;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	394 const uint8_t end,mm_end;
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	395 uint16_t d = (uint16_t )dst;
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	396 end = s + src_size;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	397 mm_end = (uint8_t)((((unsigned long)end)/(MMREG_SIZE2))(MMREG_SIZE2));
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	398 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	399 __asm __volatile(
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	400 "movq %0, %%mm7\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	401 "movq %1, %%mm6\n\t"
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	402 ::"m"(red_16mask),"m"(green_16mask));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	403 if(mm_end == end) mm_end -= MMREG_SIZE*2;
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	404 while(s < mm_end)
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	405 {
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	406 __asm __volatile(
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	407 PREFETCH" 32%1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	408 "movd %1, %%mm0\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	409 "movd 3%1, %%mm3\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	410 "punpckldq 6%1, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	411 "punpckldq 9%1, %%mm3\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	412 "movq %%mm0, %%mm1\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	413 "movq %%mm0, %%mm2\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	414 "movq %%mm3, %%mm4\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	415 "movq %%mm3, %%mm5\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	416 "psrlq $3, %%mm0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	417 "psrlq $3, %%mm3\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	418 "pand %2, %%mm0\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	419 "pand %2, %%mm3\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	420 "psrlq $5, %%mm1\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	421 "psrlq $5, %%mm4\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	422 "pand %%mm6, %%mm1\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	423 "pand %%mm6, %%mm4\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	424 "psrlq $8, %%mm2\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	425 "psrlq $8, %%mm5\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	426 "pand %%mm7, %%mm2\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	427 "pand %%mm7, %%mm5\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	428 "por %%mm1, %%mm0\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	429 "por %%mm4, %%mm3\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	430 "por %%mm2, %%mm0\n\t"
dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	431 "por %%mm5, %%mm3\n\t"
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	432 "psllq $16, %%mm3\n\t"
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	433 "por %%mm3, %%mm0\n\t"
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	434 MOVNTQ" %%mm0, %0\n\t"
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	435 :"=m"(d):"m"(s),"m"(blue_16mask):"memory");
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	436 d += 4;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	437 s += 12;
2738 dfa63a7db294 rgb24to32 now is faster nick parents: 2732 diff changeset	438 }
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	439 while(s < end)
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	440 {
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	441 const int b= *s++;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	442 const int g= *s++;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	443 const int r= *s++;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	444 *d++ = (b>>3) \| ((g&0xFC)<<3) \| ((r&0xF8)<<8);
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	445 }
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	446 __asm __volatile(SFENCE:::"memory");
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	447 __asm __volatile(EMMS:::"memory");
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	448 #else
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	449 unsigned j,i,num_pixels=src_size/3;
1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	450 uint16_t d = (uint16_t )dst;
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	451 for(i=0,j=0; j<num_pixels; i+=3,j++)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	452 {
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	453 const int b= src[i+0];
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	454 const int g= src[i+1];
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	455 const int r= src[i+2];
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	456
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	457 d[j]= (b>>3) \| ((g&0xFC)<<3) \| ((r&0xF8)<<8);
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	458 }
2740 1583214489a2 optimized rgb24to16 stuff nick parents: 2738 diff changeset	459 #endif
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	460 }
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	461
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	462 static inline void RENAME(rgb24to15)(const uint8_t src, uint8_t dst, unsigned src_size)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	463 {
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	464 #ifdef HAVE_MMX
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	465 const uint8_t *s = src;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	466 const uint8_t end,mm_end;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	467 uint16_t d = (uint16_t )dst;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	468 end = s + src_size;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	469 mm_end = (uint8_t)((((unsigned long)end)/(MMREG_SIZE2))(MMREG_SIZE2));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	470 __asm __volatile(PREFETCH" %0"::"m"(*src):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	471 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	472 "movq %0, %%mm7\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	473 "movq %1, %%mm6\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	474 ::"m"(red_15mask),"m"(green_15mask));
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	475 if(mm_end == end) mm_end -= MMREG_SIZE*2;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	476 while(s < mm_end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	477 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	478 __asm __volatile(
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	479 PREFETCH" 32%1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	480 "movd %1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	481 "movd 3%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	482 "punpckldq 6%1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	483 "punpckldq 9%1, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	484 "movq %%mm0, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	485 "movq %%mm0, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	486 "movq %%mm3, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	487 "movq %%mm3, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	488 "psrlq $3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	489 "psrlq $3, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	490 "pand %2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	491 "pand %2, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	492 "psrlq $6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	493 "psrlq $6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	494 "pand %%mm6, %%mm1\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	495 "pand %%mm6, %%mm4\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	496 "psrlq $9, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	497 "psrlq $9, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	498 "pand %%mm7, %%mm2\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	499 "pand %%mm7, %%mm5\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	500 "por %%mm1, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	501 "por %%mm4, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	502 "por %%mm2, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	503 "por %%mm5, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	504 "psllq $16, %%mm3\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	505 "por %%mm3, %%mm0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	506 MOVNTQ" %%mm0, %0\n\t"
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	507 :"=m"(d):"m"(s),"m"(blue_15mask):"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	508 d += 4;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	509 s += 12;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	510 }
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	511 while(s < end)
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	512 {
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	513 const int b= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	514 const int g= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	515 const int r= *s++;
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	516 *d++ = (b>>3) \| ((g&0xF8)<<2) \| ((r&0xF8)<<7);
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	517 }
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	518 __asm __volatile(SFENCE:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	519 __asm __volatile(EMMS:::"memory");
b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	520 #else
2719 fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	521 unsigned j,i,num_pixels=src_size/3;
fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	522 uint16_t d = (uint16_t )dst;
fafa73d6d80c Fixed rgb32(24)to16 stuff, rgb32(24)to15 is still broken nick parents: 2718 diff changeset	523 for(i=0,j=0; j<num_pixels; i+=3,j++)
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	524 {
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	525 const int b= src[i+0];
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	526 const int g= src[i+1];
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	527 const int r= src[i+2];
9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	528
2720 4ba64e254042 Fixed rgb32(24)to15 stuff nick parents: 2719 diff changeset	529 d[j]= (b>>3) \| ((g&0xF8)<<2) \| ((r&0xF8)<<7);
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	530 }
2741 b8a692c59b64 MMX2, 3DNOW, MMX optimized rgb32(24)to16(15) stuff nick parents: 2740 diff changeset	531 #endif
2718 9c5e64493742 Well - old algorithms and new stuff rgb24to16(15) nick parents: 2711 diff changeset	532 }
2694 2924350d92ed bgr32to16, bgr32to15 (needed for palette stuff) michael parents: 2677 diff changeset	533
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	534 static inline void RENAME(rgb32tobgr32)(const uint8_t src, uint8_t dst, unsigned int src_size)
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	535 {
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	536 int num_pixels= src_size >> 2;
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	537 #ifdef HAVE_MMX
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	538 asm volatile (
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	539 "xorl %%eax, %%eax \n\t"
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	540 ".balign 16 \n\t"
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	541 "1: \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	542 PREFETCH" 32(%0, %%eax) \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	543 "movq (%0, %%eax), %%mm0 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	544 "movq %%mm0, %%mm1 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	545 "movq %%mm0, %%mm2 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	546 "pslld $16, %%mm0 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	547 "psrld $16, %%mm1 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	548 "pand "MANGLE(mask32r)", %%mm0 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	549 "pand "MANGLE(mask32g)", %%mm2 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	550 "pand "MANGLE(mask32b)", %%mm1 \n\t"
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	551 "por %%mm0, %%mm2 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	552 "por %%mm1, %%mm2 \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	553 MOVNTQ" %%mm2, (%1, %%eax) \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	554 "addl $2, %%eax \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	555 "cmpl %2, %%eax \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	556 " jb 1b \n\t"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	557 :: "r" (src), "r"(dst), "r" (num_pixels)
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	558 : "%eax"
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	559 );
2766 49c31fd18273 bugfix michael parents: 2755 diff changeset	560
49c31fd18273 bugfix michael parents: 2755 diff changeset	561 __asm __volatile(SFENCE:::"memory");
49c31fd18273 bugfix michael parents: 2755 diff changeset	562 __asm __volatile(EMMS:::"memory");
2755 2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	563 #else
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	564 int i;
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	565 for(i=0; i<num_pixels; i++)
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	566 {
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	567 dst[4i + 0] = src[4i + 2];
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	568 dst[4i + 1] = src[4i + 1];
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	569 dst[4i + 2] = src[4i + 0];
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	570 }
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	571 #endif
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	572 }
2f93f4351765 rgb32tobgr32 / bgr32torgb32 michael parents: 2746 diff changeset	573
5582 21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	574 static inline void RENAME(rgb24tobgr24)(const uint8_t src, uint8_t dst, unsigned int src_size)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	575 {
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	576 int i;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	577 #ifdef HAVE_MMX
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	578 int mmx_size= 23 - src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	579 asm volatile (
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	580 "movq "MANGLE(mask24r)", %%mm5 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	581 "movq "MANGLE(mask24g)", %%mm6 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	582 "movq "MANGLE(mask24b)", %%mm7 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	583 ".balign 16 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	584 "1: \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	585 PREFETCH" 32(%1, %%eax) \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	586 "movq (%1, %%eax), %%mm0 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	587 "movq (%1, %%eax), %%mm1 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	588 "movq 2(%1, %%eax), %%mm2 \n\t" // R BGR BGR B
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	589 "psllq $16, %%mm0 \n\t" // 00 BGR BGR
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	590 "pand %%mm5, %%mm0 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	591 "pand %%mm6, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	592 "pand %%mm7, %%mm2 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	593 "por %%mm0, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	594 "por %%mm2, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	595 "movq 6(%1, %%eax), %%mm0 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	596 MOVNTQ" %%mm1, (%2, %%eax) \n\t" // RGB RGB RG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	597 "movq 8(%1, %%eax), %%mm1 \n\t" // R BGR BGR B
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	598 "movq 10(%1, %%eax), %%mm2 \n\t" // GR BGR BGR
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	599 "pand %%mm7, %%mm0 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	600 "pand %%mm5, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	601 "pand %%mm6, %%mm2 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	602 "por %%mm0, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	603 "por %%mm2, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	604 "movq 14(%1, %%eax), %%mm0 \n\t" // R BGR BGR B
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	605 MOVNTQ" %%mm1, 8(%2, %%eax) \n\t" // B RGB RGB R
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	606 "movq 16(%1, %%eax), %%mm1 \n\t" // GR BGR BGR
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	607 "movq 18(%1, %%eax), %%mm2 \n\t" // BGR BGR BG
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	608 "pand %%mm6, %%mm0 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	609 "pand %%mm7, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	610 "pand %%mm5, %%mm2 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	611 "por %%mm0, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	612 "por %%mm2, %%mm1 \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	613 MOVNTQ" %%mm1, 16(%2, %%eax) \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	614 "addl $24, %%eax \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	615 " js 1b \n\t"
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	616 : "+a" (mmx_size)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	617 : "r" (src-mmx_size), "r"(dst-mmx_size)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	618 );
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	619
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	620 __asm __volatile(SFENCE:::"memory");
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	621 __asm __volatile(EMMS:::"memory");
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	622
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	623 if(!mmx_size) return; //finihsed, was multiple of 8
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	624
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	625 src+= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	626 dst+= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	627 src_size= 24-mmx_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	628 src-= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	629 dst-= src_size;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	630 #endif
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	631 for(i=0; i<src_size; i+=3)
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	632 {
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	633 register int x;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	634 x = src[i + 2];
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	635 dst[i + 1] = src[i + 1];
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	636 dst[i + 2] = src[i + 0];
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	637 dst[i + 0] = x;
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	638 }
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	639 }
21bd4b32abb4 rgb24->bgr24 michael parents: 5337 diff changeset	640
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	641 static inline void RENAME(yuvPlanartoyuy2)(const uint8_t ysrc, const uint8_t usrc, const uint8_t vsrc, uint8_t dst,
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	642 unsigned int width, unsigned int height,
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	643 unsigned int lumStride, unsigned int chromStride, unsigned int dstStride, int vertLumPerChroma)
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	644 {
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	645 int y;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	646 const int chromWidth= width>>1;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	647 for(y=0; y<height; y++)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	648 {
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	649 #ifdef HAVE_MMX
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	650 //FIXME handle 2 lines a once (fewer prefetch, reuse some chrom, but very likely limited by mem anyway)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	651 asm volatile(
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	652 "xorl %%eax, %%eax \n\t"
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	653 ".balign 16 \n\t"
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	654 "1: \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	655 PREFETCH" 32(%1, %%eax, 2) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	656 PREFETCH" 32(%2, %%eax) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	657 PREFETCH" 32(%3, %%eax) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	658 "movq (%2, %%eax), %%mm0 \n\t" // U(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	659 "movq %%mm0, %%mm2 \n\t" // U(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	660 "movq (%3, %%eax), %%mm1 \n\t" // V(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	661 "punpcklbw %%mm1, %%mm0 \n\t" // UVUV UVUV(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	662 "punpckhbw %%mm1, %%mm2 \n\t" // UVUV UVUV(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	663
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	664 "movq (%1, %%eax,2), %%mm3 \n\t" // Y(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	665 "movq 8(%1, %%eax,2), %%mm5 \n\t" // Y(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	666 "movq %%mm3, %%mm4 \n\t" // Y(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	667 "movq %%mm5, %%mm6 \n\t" // Y(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	668 "punpcklbw %%mm0, %%mm3 \n\t" // YUYV YUYV(0)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	669 "punpckhbw %%mm0, %%mm4 \n\t" // YUYV YUYV(4)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	670 "punpcklbw %%mm2, %%mm5 \n\t" // YUYV YUYV(8)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	671 "punpckhbw %%mm2, %%mm6 \n\t" // YUYV YUYV(12)
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	672
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	673 MOVNTQ" %%mm3, (%0, %%eax, 4) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	674 MOVNTQ" %%mm4, 8(%0, %%eax, 4) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	675 MOVNTQ" %%mm5, 16(%0, %%eax, 4) \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	676 MOVNTQ" %%mm6, 24(%0, %%eax, 4) \n\t"
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	677
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	678 "addl $8, %%eax \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	679 "cmpl %4, %%eax \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	680 " jb 1b \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	681 ::"r"(dst), "r"(ysrc), "r"(usrc), "r"(vsrc), "r" (chromWidth)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	682 : "%eax"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	683 );
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	684 #else
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	685 int i;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	686 for(i=0; i<chromWidth; i++)
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	687 {
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	688 dst[4i+0] = ysrc[2i+0];
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	689 dst[4*i+1] = usrc[i];
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	690 dst[4i+2] = ysrc[2i+1];
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	691 dst[4*i+3] = vsrc[i];
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	692 }
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	693 #endif
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	694 if((y&(vertLumPerChroma-1))==(vertLumPerChroma-1) )
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	695 {
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	696 usrc += chromStride;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	697 vsrc += chromStride;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	698 }
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	699 ysrc += lumStride;
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	700 dst += dstStride;
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	701 }
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	702 #ifdef HAVE_MMX
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	703 asm( EMMS" \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	704 SFENCE" \n\t"
22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	705 :::"memory");
2702 440312d953a8 yv12toyuy2 in MMX michael parents: 2701 diff changeset	706 #endif
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	707 }
9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	708
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	709 /**
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	710 *
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	711 * height should be a multiple of 2 and width should be a multiple of 16 (if this is a
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	712 * problem for anyone then tell me, and ill fix it)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	713 */
5588 f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	714 static inline void RENAME(yv12toyuy2)(const uint8_t ysrc, const uint8_t usrc, const uint8_t vsrc, uint8_t dst,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	715 unsigned int width, unsigned int height,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	716 unsigned int lumStride, unsigned int chromStride, unsigned int dstStride)
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	717 {
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	718 //FIXME interpolate chroma
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	719 RENAME(yuvPlanartoyuy2)(ysrc, usrc, vsrc, dst, width, height, lumStride, chromStride, dstStride, 2);
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	720 }
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	721
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	722 /**
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	723 *
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	724 * width should be a multiple of 16
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	725 */
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	726 static inline void RENAME(yuv422ptoyuy2)(const uint8_t ysrc, const uint8_t usrc, const uint8_t vsrc, uint8_t dst,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	727 unsigned int width, unsigned int height,
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	728 unsigned int lumStride, unsigned int chromStride, unsigned int dstStride)
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	729 {
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	730 RENAME(yuvPlanartoyuy2)(ysrc, usrc, vsrc, dst, width, height, lumStride, chromStride, dstStride, 1);
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	731 }
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	732
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	733 /**
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	734 *
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	735 * height should be a multiple of 2 and width should be a multiple of 16 (if this is a
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	736 * problem for anyone then tell me, and ill fix it)
f0fa3373f616 yuv422p -> yuy2 (untested) michael parents: 5582 diff changeset	737 */
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	738 static inline void RENAME(yuy2toyv12)(const uint8_t src, uint8_t ydst, uint8_t udst, uint8_t vdst,
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	739 unsigned int width, unsigned int height,
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	740 unsigned int lumStride, unsigned int chromStride, unsigned int srcStride)
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	741 {
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	742 int y;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	743 const int chromWidth= width>>1;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	744 for(y=0; y<height; y+=2)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	745 {
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	746 #ifdef HAVE_MMX
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	747 asm volatile(
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	748 "xorl %%eax, %%eax \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	749 "pcmpeqw %%mm7, %%mm7 \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	750 "psrlw $8, %%mm7 \n\t" // FF,00,FF,00...
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	751 ".balign 16 \n\t"
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	752 "1: \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	753 PREFETCH" 64(%0, %%eax, 4) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	754 "movq (%0, %%eax, 4), %%mm0 \n\t" // YUYV YUYV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	755 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	756 "movq %%mm0, %%mm2 \n\t" // YUYV YUYV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	757 "movq %%mm1, %%mm3 \n\t" // YUYV YUYV(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	758 "psrlw $8, %%mm0 \n\t" // U0V0 U0V0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	759 "psrlw $8, %%mm1 \n\t" // U0V0 U0V0(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	760 "pand %%mm7, %%mm2 \n\t" // Y0Y0 Y0Y0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	761 "pand %%mm7, %%mm3 \n\t" // Y0Y0 Y0Y0(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	762 "packuswb %%mm1, %%mm0 \n\t" // UVUV UVUV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	763 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	764
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	765 MOVNTQ" %%mm2, (%1, %%eax, 2) \n\t"
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	766
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	767 "movq 16(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	768 "movq 24(%0, %%eax, 4), %%mm2 \n\t" // YUYV YUYV(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	769 "movq %%mm1, %%mm3 \n\t" // YUYV YUYV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	770 "movq %%mm2, %%mm4 \n\t" // YUYV YUYV(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	771 "psrlw $8, %%mm1 \n\t" // U0V0 U0V0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	772 "psrlw $8, %%mm2 \n\t" // U0V0 U0V0(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	773 "pand %%mm7, %%mm3 \n\t" // Y0Y0 Y0Y0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	774 "pand %%mm7, %%mm4 \n\t" // Y0Y0 Y0Y0(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	775 "packuswb %%mm2, %%mm1 \n\t" // UVUV UVUV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	776 "packuswb %%mm4, %%mm3 \n\t" // YYYY YYYY(8)
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	777
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	778 MOVNTQ" %%mm3, 8(%1, %%eax, 2) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	779
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	780 "movq %%mm0, %%mm2 \n\t" // UVUV UVUV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	781 "movq %%mm1, %%mm3 \n\t" // UVUV UVUV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	782 "psrlw $8, %%mm0 \n\t" // V0V0 V0V0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	783 "psrlw $8, %%mm1 \n\t" // V0V0 V0V0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	784 "pand %%mm7, %%mm2 \n\t" // U0U0 U0U0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	785 "pand %%mm7, %%mm3 \n\t" // U0U0 U0U0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	786 "packuswb %%mm1, %%mm0 \n\t" // VVVV VVVV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	787 "packuswb %%mm3, %%mm2 \n\t" // UUUU UUUU(0)
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	788
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	789 MOVNTQ" %%mm0, (%3, %%eax) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	790 MOVNTQ" %%mm2, (%2, %%eax) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	791
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	792 "addl $8, %%eax \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	793 "cmpl %4, %%eax \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	794 " jb 1b \n\t"
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	795 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	796 : "memory", "%eax"
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	797 );
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	798
2806 cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	799 ydst += lumStride;
cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	800 src += srcStride;
cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	801
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	802 asm volatile(
5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	803 "xorl %%eax, %%eax \n\t"
2800 7847d6b7ad3d .balign or we��ll align by 64kb on some architectures michael parents: 2799 diff changeset	804 ".balign 16 \n\t"
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	805 "1: \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	806 PREFETCH" 64(%0, %%eax, 4) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	807 "movq (%0, %%eax, 4), %%mm0 \n\t" // YUYV YUYV(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	808 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	809 "movq 16(%0, %%eax, 4), %%mm2 \n\t" // YUYV YUYV(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	810 "movq 24(%0, %%eax, 4), %%mm3 \n\t" // YUYV YUYV(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	811 "pand %%mm7, %%mm0 \n\t" // Y0Y0 Y0Y0(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	812 "pand %%mm7, %%mm1 \n\t" // Y0Y0 Y0Y0(4)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	813 "pand %%mm7, %%mm2 \n\t" // Y0Y0 Y0Y0(8)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	814 "pand %%mm7, %%mm3 \n\t" // Y0Y0 Y0Y0(12)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	815 "packuswb %%mm1, %%mm0 \n\t" // YYYY YYYY(0)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	816 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(8)
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	817
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	818 MOVNTQ" %%mm0, (%1, %%eax, 2) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	819 MOVNTQ" %%mm2, 8(%1, %%eax, 2) \n\t"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	820
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	821 "addl $8, %%eax \n\t"
2725 5bba527c9a4c unsigned stuff michael parents: 2724 diff changeset	822 "cmpl %4, %%eax \n\t"
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	823 " jb 1b \n\t"
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	824
2806 cbb62e07bc0e yuy2toyv12 bugfix michael parents: 2801 diff changeset	825 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	826 : "memory", "%eax"
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	827 );
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	828 #else
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	829 int i;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	830 for(i=0; i<chromWidth; i++)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	831 {
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	832 ydst[2i+0] = src[4i+0];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	833 udst[i] = src[4*i+1];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	834 ydst[2i+1] = src[4i+2];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	835 vdst[i] = src[4*i+3];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	836 }
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	837 ydst += lumStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	838 src += srcStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	839
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	840 for(i=0; i<chromWidth; i++)
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	841 {
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	842 ydst[2i+0] = src[4i+0];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	843 ydst[2i+1] = src[4i+2];
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	844 }
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	845 #endif
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	846 udst += chromStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	847 vdst += chromStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	848 ydst += lumStride;
c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	849 src += srcStride;
2701 9b47bc409083 yv12 <-> yuy2 in C michael parents: 2698 diff changeset	850 }
2724 c08b7af26782 yuy2toyv12 fixed and speedup michael parents: 2723 diff changeset	851 #ifdef HAVE_MMX
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	852 asm volatile( EMMS" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	853 SFENCE" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	854 :::"memory");
2704 b4c6699d3893 yuy2toyv12 in MMX michael parents: 2702 diff changeset	855 #endif
2723 22aba8af94af fixed yv12toyuy2 michael parents: 2720 diff changeset	856 }
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	857
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	858 /**
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	859 *
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	860 * height should be a multiple of 2 and width should be a multiple of 16 (if this is a
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	861 * problem for anyone then tell me, and ill fix it)
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	862 * chrominance data is only taken from every secound line others are ignored FIXME write HQ version
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	863 */
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	864 static inline void RENAME(uyvytoyv12)(const uint8_t src, uint8_t ydst, uint8_t udst, uint8_t vdst,
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	865 unsigned int width, unsigned int height,
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	866 unsigned int lumStride, unsigned int chromStride, unsigned int srcStride)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	867 {
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	868 int y;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	869 const int chromWidth= width>>1;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	870 for(y=0; y<height; y+=2)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	871 {
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	872 #ifdef HAVE_MMX
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	873 asm volatile(
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	874 "xorl %%eax, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	875 "pcmpeqw %%mm7, %%mm7 \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	876 "psrlw $8, %%mm7 \n\t" // FF,00,FF,00...
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	877 ".balign 16 \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	878 "1: \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	879 PREFETCH" 64(%0, %%eax, 4) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	880 "movq (%0, %%eax, 4), %%mm0 \n\t" // UYVY UYVY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	881 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // UYVY UYVY(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	882 "movq %%mm0, %%mm2 \n\t" // UYVY UYVY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	883 "movq %%mm1, %%mm3 \n\t" // UYVY UYVY(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	884 "pand %%mm7, %%mm0 \n\t" // U0V0 U0V0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	885 "pand %%mm7, %%mm1 \n\t" // U0V0 U0V0(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	886 "psrlw $8, %%mm2 \n\t" // Y0Y0 Y0Y0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	887 "psrlw $8, %%mm3 \n\t" // Y0Y0 Y0Y0(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	888 "packuswb %%mm1, %%mm0 \n\t" // UVUV UVUV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	889 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	890
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	891 MOVNTQ" %%mm2, (%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	892
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	893 "movq 16(%0, %%eax, 4), %%mm1 \n\t" // UYVY UYVY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	894 "movq 24(%0, %%eax, 4), %%mm2 \n\t" // UYVY UYVY(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	895 "movq %%mm1, %%mm3 \n\t" // UYVY UYVY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	896 "movq %%mm2, %%mm4 \n\t" // UYVY UYVY(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	897 "pand %%mm7, %%mm1 \n\t" // U0V0 U0V0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	898 "pand %%mm7, %%mm2 \n\t" // U0V0 U0V0(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	899 "psrlw $8, %%mm3 \n\t" // Y0Y0 Y0Y0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	900 "psrlw $8, %%mm4 \n\t" // Y0Y0 Y0Y0(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	901 "packuswb %%mm2, %%mm1 \n\t" // UVUV UVUV(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	902 "packuswb %%mm4, %%mm3 \n\t" // YYYY YYYY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	903
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	904 MOVNTQ" %%mm3, 8(%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	905
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	906 "movq %%mm0, %%mm2 \n\t" // UVUV UVUV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	907 "movq %%mm1, %%mm3 \n\t" // UVUV UVUV(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	908 "psrlw $8, %%mm0 \n\t" // V0V0 V0V0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	909 "psrlw $8, %%mm1 \n\t" // V0V0 V0V0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	910 "pand %%mm7, %%mm2 \n\t" // U0U0 U0U0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	911 "pand %%mm7, %%mm3 \n\t" // U0U0 U0U0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	912 "packuswb %%mm1, %%mm0 \n\t" // VVVV VVVV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	913 "packuswb %%mm3, %%mm2 \n\t" // UUUU UUUU(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	914
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	915 MOVNTQ" %%mm0, (%3, %%eax) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	916 MOVNTQ" %%mm2, (%2, %%eax) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	917
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	918 "addl $8, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	919 "cmpl %4, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	920 " jb 1b \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	921 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	922 : "memory", "%eax"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	923 );
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	924
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	925 ydst += lumStride;
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	926 src += srcStride;
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	927
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	928 asm volatile(
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	929 "xorl %%eax, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	930 ".balign 16 \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	931 "1: \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	932 PREFETCH" 64(%0, %%eax, 4) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	933 "movq (%0, %%eax, 4), %%mm0 \n\t" // YUYV YUYV(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	934 "movq 8(%0, %%eax, 4), %%mm1 \n\t" // YUYV YUYV(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	935 "movq 16(%0, %%eax, 4), %%mm2 \n\t" // YUYV YUYV(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	936 "movq 24(%0, %%eax, 4), %%mm3 \n\t" // YUYV YUYV(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	937 "psrlw $8, %%mm0 \n\t" // Y0Y0 Y0Y0(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	938 "psrlw $8, %%mm1 \n\t" // Y0Y0 Y0Y0(4)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	939 "psrlw $8, %%mm2 \n\t" // Y0Y0 Y0Y0(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	940 "psrlw $8, %%mm3 \n\t" // Y0Y0 Y0Y0(12)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	941 "packuswb %%mm1, %%mm0 \n\t" // YYYY YYYY(0)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	942 "packuswb %%mm3, %%mm2 \n\t" // YYYY YYYY(8)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	943
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	944 MOVNTQ" %%mm0, (%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	945 MOVNTQ" %%mm2, 8(%1, %%eax, 2) \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	946
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	947 "addl $8, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	948 "cmpl %4, %%eax \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	949 " jb 1b \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	950
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	951 ::"r"(src), "r"(ydst), "r"(udst), "r"(vdst), "r" (chromWidth)
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	952 : "memory", "%eax"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	953 );
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	954 #else
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	955 int i;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	956 for(i=0; i<chromWidth; i++)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	957 {
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	958 udst[i] = src[4*i+0];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	959 ydst[2i+0] = src[4i+1];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	960 vdst[i] = src[4*i+2];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	961 ydst[2i+1] = src[4i+3];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	962 }
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	963 ydst += lumStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	964 src += srcStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	965
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	966 for(i=0; i<chromWidth; i++)
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	967 {
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	968 ydst[2i+0] = src[4i+1];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	969 ydst[2i+1] = src[4i+3];
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	970 }
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	971 #endif
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	972 udst += chromStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	973 vdst += chromStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	974 ydst += lumStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	975 src += srcStride;
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	976 }
2847 1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	977 #ifdef HAVE_MMX
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	978 asm volatile( EMMS" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	979 SFENCE" \n\t"
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	980 :::"memory");
1d92268eb8fc uyvytoyv12 in MMX (untested) michael parents: 2806 diff changeset	981 #endif
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	982 }
318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	983
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	984 /**
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	985 *
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	986 * height should be a multiple of 2 and width should be a multiple of 2 (if this is a
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	987 * problem for anyone then tell me, and ill fix it)
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	988 * chrominance data is only taken from every secound line others are ignored in the C version FIXME write HQ version
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	989 */
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	990 static inline void RENAME(rgb24toyv12)(const uint8_t src, uint8_t ydst, uint8_t udst, uint8_t vdst,
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	991 unsigned int width, unsigned int height,
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	992 unsigned int lumStride, unsigned int chromStride, unsigned int srcStride)
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	993 {
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	994 int y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	995 const int chromWidth= width>>1;
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	996 #ifdef HAVE_MMX
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	997 for(y=0; y<height-2; y+=2)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	998 {
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	999 int i;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1000 for(i=0; i<2; i++)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1001 {
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1002 asm volatile(
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1003 "movl %2, %%eax \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1004 "movq "MANGLE(bgr2YCoeff)", %%mm6 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1005 "movq "MANGLE(w1111)", %%mm5 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1006 "pxor %%mm7, %%mm7 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1007 "leal (%%eax, %%eax, 2), %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1008 ".balign 16 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1009 "1: \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1010 PREFETCH" 64(%0, %%ebx) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1011 "movd (%0, %%ebx), %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1012 "movd 3(%0, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1013 "punpcklbw %%mm7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1014 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1015 "movd 6(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1016 "movd 9(%0, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1017 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1018 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1019 "pmaddwd %%mm6, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1020 "pmaddwd %%mm6, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1021 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1022 "pmaddwd %%mm6, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1023 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1024 "psrad $8, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1025 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1026 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1027 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1028 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1029 "packssdw %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1030 "packssdw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1031 "pmaddwd %%mm5, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1032 "pmaddwd %%mm5, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1033 "packssdw %%mm2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1034 "psraw $7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1035
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1036 "movd 12(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1037 "movd 15(%0, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1038 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1039 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1040 "movd 18(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1041 "movd 21(%0, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1042 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1043 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1044 "pmaddwd %%mm6, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1045 "pmaddwd %%mm6, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1046 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1047 "pmaddwd %%mm6, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1048 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1049 "psrad $8, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1050 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1051 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1052 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1053 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1054 "packssdw %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1055 "packssdw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1056 "pmaddwd %%mm5, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1057 "pmaddwd %%mm5, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1058 "addl $24, %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1059 "packssdw %%mm2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1060 "psraw $7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1061
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1062 "packuswb %%mm4, %%mm0 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1063 "paddusb "MANGLE(bgr2YOffset)", %%mm0 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1064
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1065 MOVNTQ" %%mm0, (%1, %%eax) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1066 "addl $8, %%eax \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1067 " js 1b \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1068 : : "r" (src+width*3), "r" (ydst+width), "g" (-width)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1069 : "%eax", "%ebx"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1070 );
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1071 ydst += lumStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1072 src += srcStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1073 }
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1074 src -= srcStride*2;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1075 asm volatile(
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1076 "movl %4, %%eax \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1077 "movq "MANGLE(w1111)", %%mm5 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1078 "movq "MANGLE(bgr2UCoeff)", %%mm6 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1079 "pxor %%mm7, %%mm7 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1080 "leal (%%eax, %%eax, 2), %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1081 "addl %%ebx, %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1082 ".balign 16 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1083 "1: \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1084 PREFETCH" 64(%0, %%ebx) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1085 PREFETCH" 64(%1, %%ebx) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1086 #if defined (HAVE_MMX2) \|\| defined (HAVE_3DNOW)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1087 "movq (%0, %%ebx), %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1088 "movq (%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1089 "movq 6(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1090 "movq 6(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1091 PAVGB" %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1092 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1093 "movq %%mm0, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1094 "movq %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1095 "psrlq $24, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1096 "psrlq $24, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1097 PAVGB" %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1098 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1099 "punpcklbw %%mm7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1100 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1101 #else
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1102 "movd (%0, %%ebx), %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1103 "movd (%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1104 "movd 3(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1105 "movd 3(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1106 "punpcklbw %%mm7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1107 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1108 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1109 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1110 "paddw %%mm1, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1111 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1112 "paddw %%mm2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1113 "movd 6(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1114 "movd 6(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1115 "movd 9(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1116 "movd 9(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1117 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1118 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1119 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1120 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1121 "paddw %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1122 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1123 "paddw %%mm4, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1124 "psrlw $2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1125 "psrlw $2, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1126 #endif
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1127 "movq "MANGLE(bgr2VCoeff)", %%mm1 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1128 "movq "MANGLE(bgr2VCoeff)", %%mm3 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1129
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1130 "pmaddwd %%mm0, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1131 "pmaddwd %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1132 "pmaddwd %%mm6, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1133 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1134 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1135 "psrad $8, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1136 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1137 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1138 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1139 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1140 "packssdw %%mm2, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1141 "packssdw %%mm3, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1142 "pmaddwd %%mm5, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1143 "pmaddwd %%mm5, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1144 "packssdw %%mm1, %%mm0 \n\t" // V1 V0 U1 U0
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1145 "psraw $7, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1146
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1147 #if defined (HAVE_MMX2) \|\| defined (HAVE_3DNOW)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1148 "movq 12(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1149 "movq 12(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1150 "movq 18(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1151 "movq 18(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1152 PAVGB" %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1153 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1154 "movq %%mm4, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1155 "movq %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1156 "psrlq $24, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1157 "psrlq $24, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1158 PAVGB" %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1159 PAVGB" %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1160 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1161 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1162 #else
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1163 "movd 12(%0, %%ebx), %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1164 "movd 12(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1165 "movd 15(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1166 "movd 15(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1167 "punpcklbw %%mm7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1168 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1169 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1170 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1171 "paddw %%mm1, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1172 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1173 "paddw %%mm2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1174 "movd 18(%0, %%ebx), %%mm5 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1175 "movd 18(%1, %%ebx), %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1176 "movd 21(%0, %%ebx), %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1177 "movd 21(%1, %%ebx), %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1178 "punpcklbw %%mm7, %%mm5 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1179 "punpcklbw %%mm7, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1180 "punpcklbw %%mm7, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1181 "punpcklbw %%mm7, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1182 "paddw %%mm1, %%mm5 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1183 "paddw %%mm3, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1184 "paddw %%mm5, %%mm2 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1185 "movq "MANGLE(w1111)", %%mm5 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1186 "psrlw $2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1187 "psrlw $2, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1188 #endif
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1189 "movq "MANGLE(bgr2VCoeff)", %%mm1 \n\t"
3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1190 "movq "MANGLE(bgr2VCoeff)", %%mm3 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1191
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1192 "pmaddwd %%mm4, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1193 "pmaddwd %%mm2, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1194 "pmaddwd %%mm6, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1195 "pmaddwd %%mm6, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1196 #ifndef FAST_BGR2YV12
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1197 "psrad $8, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1198 "psrad $8, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1199 "psrad $8, %%mm2 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1200 "psrad $8, %%mm3 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1201 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1202 "packssdw %%mm2, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1203 "packssdw %%mm3, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1204 "pmaddwd %%mm5, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1205 "pmaddwd %%mm5, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1206 "addl $24, %%ebx \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1207 "packssdw %%mm1, %%mm4 \n\t" // V3 V2 U3 U2
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1208 "psraw $7, %%mm4 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1209
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1210 "movq %%mm0, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1211 "punpckldq %%mm4, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1212 "punpckhdq %%mm4, %%mm1 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1213 "packsswb %%mm1, %%mm0 \n\t"
4923 3cc0f4938be1 add mangling atmos4 parents: 4622 diff changeset	1214 "paddb "MANGLE(bgr2UVOffset)", %%mm0 \n\t"
4622 e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1215
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1216 "movd %%mm0, (%2, %%eax) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1217 "punpckhdq %%mm0, %%mm0 \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1218 "movd %%mm0, (%3, %%eax) \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1219 "addl $4, %%eax \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1220 " js 1b \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1221 : : "r" (src+width6), "r" (src+srcStride+width6), "r" (udst+width), "r" (vdst+width), "g" (-width)
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1222 : "%eax", "%ebx"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1223 );
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1224
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1225 udst += chromStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1226 vdst += chromStride;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1227 src += srcStride*2;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1228 }
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1229
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1230 asm volatile( EMMS" \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1231 SFENCE" \n\t"
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1232 :::"memory");
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1233 #else
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1234 y=0;
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1235 #endif
e3a9fae516e4 rgb24toyv12 in MMX (untested) michael parents: 3633 diff changeset	1236 for(; y<height; y+=2)
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1237 {
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1238 int i;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1239 for(i=0; i<chromWidth; i++)
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1240 {
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1241 unsigned int b= src[6*i+0];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1242 unsigned int g= src[6*i+1];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1243 unsigned int r= src[6*i+2];
2801 318c240363c7 uyvy->uv12 added arpi parents: 2800 diff changeset	1244
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1245 unsigned int Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1246 unsigned int V = ((RVr + GVg + BV*b)>>RGB2YUV_SHIFT) + 128;
e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1247 unsigned int U = ((RUr + GUg + BU*b)>>RGB2YUV_SHIFT) + 128;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1248
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1249 udst[i] = U;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1250 vdst[i] = V;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1251 ydst[2*i] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1252
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1253 b= src[6*i+3];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1254 g= src[6*i+4];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1255 r= src[6*i+5];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1256
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1257 Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1258 ydst[2*i+1] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1259 }
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1260 ydst += lumStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1261 src += srcStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1262
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1263 for(i=0; i<chromWidth; i++)
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1264 {
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1265 unsigned int b= src[6*i+0];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1266 unsigned int g= src[6*i+1];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1267 unsigned int r= src[6*i+2];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1268
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1269 unsigned int Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1270
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1271 ydst[2*i] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1272
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1273 b= src[6*i+3];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1274 g= src[6*i+4];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1275 r= src[6*i+5];
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1276
3633 e81bfc0826b1 rgb24toyv12 bugfix michael parents: 3132 diff changeset	1277 Y = ((RYr + GYg + BY*b)>>RGB2YUV_SHIFT) + 16;
3132 ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1278 ydst[2*i+1] = Y;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1279 }
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1280 udst += chromStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1281 vdst += chromStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1282 ydst += lumStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1283 src += srcStride;
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1284 }
ab67556586fa runtime cpu detection michael parents: 2847 diff changeset	1285 }
5337 0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1286
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1287 void RENAME(interleaveBytes)(uint8_t src1, uint8_t src2, uint8_t *dest,
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1288 int width, int height, int src1Stride, int src2Stride, int dstStride){
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1289 int h;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1290
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1291 for(h=0; h < height; h++)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1292 {
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1293 int w;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1294
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1295 #ifdef HAVE_MMX
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1296 #ifdef HAVE_SSE2
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1297 asm(
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1298 "xorl %%eax, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1299 "1: \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1300 PREFETCH" 64(%1, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1301 PREFETCH" 64(%2, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1302 "movdqa (%1, %%eax), %%xmm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1303 "movdqa (%1, %%eax), %%xmm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1304 "movdqa (%2, %%eax), %%xmm2 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1305 "punpcklbw %%xmm2, %%xmm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1306 "punpckhbw %%xmm2, %%xmm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1307 "movntdq %%xmm0, (%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1308 "movntdq %%xmm1, 16(%0, %%eax, 2)\n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1309 "addl $16, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1310 "cmpl %3, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1311 " jb 1b \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1312 ::"r"(dest), "r"(src1), "r"(src2), "r" (width-15)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1313 : "memory", "%eax"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1314 );
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1315 #else
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1316 asm(
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1317 "xorl %%eax, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1318 "1: \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1319 PREFETCH" 64(%1, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1320 PREFETCH" 64(%2, %%eax) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1321 "movq (%1, %%eax), %%mm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1322 "movq 8(%1, %%eax), %%mm2 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1323 "movq %%mm0, %%mm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1324 "movq %%mm2, %%mm3 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1325 "movq (%2, %%eax), %%mm4 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1326 "movq 8(%2, %%eax), %%mm5 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1327 "punpcklbw %%mm4, %%mm0 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1328 "punpckhbw %%mm4, %%mm1 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1329 "punpcklbw %%mm5, %%mm2 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1330 "punpckhbw %%mm5, %%mm3 \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1331 MOVNTQ" %%mm0, (%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1332 MOVNTQ" %%mm1, 8(%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1333 MOVNTQ" %%mm2, 16(%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1334 MOVNTQ" %%mm3, 24(%0, %%eax, 2) \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1335 "addl $16, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1336 "cmpl %3, %%eax \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1337 " jb 1b \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1338 ::"r"(dest), "r"(src1), "r"(src2), "r" (width-15)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1339 : "memory", "%eax"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1340 );
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1341 #endif
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1342 for(w= (width&(~15)); w < width; w++)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1343 {
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1344 dest[2*w+0] = src1[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1345 dest[2*w+1] = src2[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1346 }
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1347 #else
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1348 for(w=0; w < width; w++)
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1349 {
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1350 dest[2*w+0] = src1[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1351 dest[2*w+1] = src2[w];
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1352 }
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1353 #endif
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1354 dest += dstStride;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1355 src1 += src1Stride;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1356 src2 += src2Stride;
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1357 }
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1358 #ifdef HAVE_MMX
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1359 asm(
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1360 EMMS" \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1361 SFENCE" \n\t"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1362 ::: "memory"
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1363 );
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1364 #endif
0bd1c35aa42c byte interleaving for mga michael parents: 4923 diff changeset	1365 }

Mercurial > mplayer.hg

annotate postproc/rgb2rgb_template.c @ 5677:a21cab74cde8