mplayer.hg: libswscale/rgb2rgb_template.c comparison

comparison libswscale/rgb2rgb_template.c @ 22991:59671a52cc82

New implementation of rgb32tobgr32 The previous implementation segfaulted with MMX enabled when fed an image smaller than the size of the units the MMX code processed. The new code: - is faster for MMX, MMX2 and plain C - processes small images correctly - is LGPL

author	ivo
date	Mon, 16 Apr 2007 21:41:03 +0000
parents	2d1ad4285df4
children	ac77d9ef8c83

comparison

equal deleted inserted replaced

-:a76748e71a18
+:59671a52cc82
 	}
 }
 static inline void RENAME(rgb32tobgr32)(const uint8_t *src, uint8_t *dst, long src_size)
 {
-#ifdef HAVE_MMX
+uint8_t *d = dst, *s = (uint8_t *) src;
-/* TODO: unroll this loop */
+const uint8_t *end = s + src_size;
-	asm volatile (
+#ifdef HAVE_MMX
-		"xor %%"REG_a", %%"REG_a"	\n\t"
+	__asm __volatile(
-		ASMALIGN(4)
+		"	"PREFETCH" (%1)			\n"
-		"1:				\n\t"
+		"	movq %3, %%mm7			\n"
-		PREFETCH" 32(%0, %%"REG_a")	\n\t"
+		"	pxor %4, %%mm7			\n"
-		"movq (%0, %%"REG_a"), %%mm0	\n\t"
+		"	movq %%mm7, %%mm6		\n"
-		"movq %%mm0, %%mm1		\n\t"
+		"	pxor %5, %%mm7			\n"
-		"movq %%mm0, %%mm2		\n\t"
+		"	jmp 2f				\n"
-		"pslld $16, %%mm0		\n\t"
+			ASMALIGN(4)
-		"psrld $16, %%mm1		\n\t"
+		"1:					\n"
-		"pand "MANGLE(mask32r)", %%mm0	\n\t"
+		"	"PREFETCH" 32(%1)		\n"
-		"pand "MANGLE(mask32g)", %%mm2	\n\t"
+		"	movq (%1), %%mm0		\n"
-		"pand "MANGLE(mask32b)", %%mm1	\n\t"
+		"	movq 8(%1), %%mm1		\n"
-		"por %%mm0, %%mm2		\n\t"
+# ifdef HAVE_MMX2
-		"por %%mm1, %%mm2		\n\t"
+		"	pshufw $177, %%mm0, %%mm3	\n"
-		MOVNTQ" %%mm2, (%1, %%"REG_a")	\n\t"
+		"	pshufw $177, %%mm1, %%mm5	\n"
-		"add $8, %%"REG_a"		\n\t"
+		"	pand %%mm7, %%mm0		\n"
-		"cmp %2, %%"REG_a"		\n\t"
+		"	pand %%mm6, %%mm3		\n"
-		" jb 1b				\n\t"
+		"	pand %%mm7, %%mm1		\n"
-		:: "r" (src), "r"(dst), "r" (src_size-7)
+		"	pand %%mm6, %%mm5		\n"
-		: "%"REG_a
+		"	por %%mm3, %%mm0		\n"
-	);
+		"	por %%mm5, %%mm1		\n"
+# else
-	__asm __volatile(SFENCE:::"memory");
+		"	movq %%mm0, %%mm2		\n"
-	__asm __volatile(EMMS:::"memory");
+		"	movq %%mm1, %%mm4		\n"
-#else
+		"	pand %%mm7, %%mm0		\n"
-	unsigned i;
+		"	pand %%mm6, %%mm2		\n"
-	unsigned num_pixels = src_size >> 2;
+		"	pand %%mm7, %%mm1		\n"
-	for(i=0; i<num_pixels; i++)
+		"	pand %%mm6, %%mm4		\n"
-	{
+		"	movq %%mm2, %%mm3		\n"
-#ifdef WORDS_BIGENDIAN
+		"	movq %%mm4, %%mm5		\n"
-	  dst[4*i + 1] = src[4*i + 3];
+		"	pslld $16, %%mm2		\n"
-	  dst[4*i + 2] = src[4*i + 2];
+		"	psrld $16, %%mm3		\n"
-	  dst[4*i + 3] = src[4*i + 1];
+		"	pslld $16, %%mm4		\n"
-#else
+		"	psrld $16, %%mm5		\n"
-	  dst[4*i + 0] = src[4*i + 2];
+		"	por %%mm2, %%mm0		\n"
-	  dst[4*i + 1] = src[4*i + 1];
+		"	por %%mm4, %%mm1		\n"
-	  dst[4*i + 2] = src[4*i + 0];
+		"	por %%mm3, %%mm0		\n"
-#endif
+		"	por %%mm5, %%mm1		\n"
-	}
+# endif
-#endif
+		"	"MOVNTQ" %%mm0, (%0)		\n"
+		"	"MOVNTQ" %%mm1, 8(%0)		\n"
+		"	add $16, %0			\n"
+		"	add $16, %1			\n"
+		"2:					\n"
+		"	cmp %1, %2			\n"
+		"	ja 1b				\n"
+		"	"SFENCE"			\n"
+		"	"EMMS"				\n"
+		: "+r"(d), "+r"(s)
+		: "r" (end-15), "m" (mask32b), "m" (mask32r), "m" (mmx_one)
+		: "memory");
+#endif
+	for (; s<end; s+=4, d+=4) {
+		int v = *(uint32_t *)s, g = v & 0xff00;
+		v &= 0xff00ff;
+		*(uint32_t *)d = (v>>16) + g + (v<<16);
+	}
 }
 static inline void RENAME(rgb24tobgr24)(const uint8_t *src, uint8_t *dst, long src_size)
 {
 	unsigned i;

Mercurial > mplayer.hg

comparison libswscale/rgb2rgb_template.c @ 22991:59671a52cc82