mplayer.hg: libvo/yuv2rgb_mmx.c comparison

comparison libvo/yuv2rgb_mmx.c @ 1306:7ce37211e454

yuv2rgb_mmx crashes with ffdivx codec, when we play back avi files that have a frame width that is not an exact multiple of 8. Testcase: 405.avi (356x240). Playing on an MMX capable x86 system using the x11 video-out driver results in a segfault. The MMX routines convert image data in quantities of 8 pixels in each loop, and the inner loop was not terminated in case there are only 1-7 pixels left, producing too much RGB output. For now, just ignore the last few pixels on each row, to avoid the segfaults. (Gives a black vertical border on the right, if you play a video with width%8 != 0) A possible future enhancement would be, to add a second loop to convert the last width%8 pixels to RGB using a byte loop.

author	jkeil
date	Thu, 12 Jul 2001 15:23:26 +0000
parents	961f53221ffc
children	ae2026ac39d4

comparison

equal deleted inserted replaced

-:0a8237e28ce0
+:7ce37211e454
 			      uint8_t * pu, uint8_t * pv,
 			      int h_size, int v_size,
 			      int rgb_stride, int y_stride, int uv_stride)
 {
 int even = 1;
-int x = 0, y = 0;
+int x, y;
-/* load data for first scan line */
+__asm__ __volatile__ ("pxor %mm4, %mm4;" /* zero mm4 */ );
-__asm__ __volatile__ (
-	     "movd (%1), %%mm0;" /* Load 4 Cb 00 00 00 00 u3 u2 u1 u0 */
+for (y = v_size; --y >= 0; ) {
-	     "movd (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 v3 v2 v1 v0 */
+	uint8_t *_image = image;
+	uint8_t *_py = py;
-	     "pxor %%mm4, %%mm4;" /* zero mm4 */
+	uint8_t *_pu = pu;
-	     "movq (%0), %%mm6;" /* Load 8 Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
+	uint8_t *_pv = pv;
-	     //"movl $0, (%3);" /* cache preload for image */
+	/* load data for start of next scan line */
-	     : : "r" (py), "r" (pu), "r" (pv), "r" (image));
+	__asm__ __volatile__ (
+		 "movd (%1), %%mm0;" /* Load 4 Cb 00 00 00 00 u3 u2 u1 u0 */
-do {
+		 "movd (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 v3 v2 v1 v0 */
-	do {
+		 "movq (%0), %%mm6;" /* Load 8  Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
+		 : : "r" (_py), "r" (_pu), "r" (_pv));
+	for (x = h_size >> 3; --x >= 0; ) {
 	    /* this mmx assembly code deals with SINGLE scan line at a time, it convert 8
 	       pixels in each iteration */
-	    __asm__ __volatile__ (".align 8;"
+	    __asm__ __volatile__ (
 		     /* Do the multiply part of the conversion for even and odd pixels,
 			register usage:
 			mm0 -> Cblue, mm1 -> Cred, mm2 -> Cgreen even pixels,
 			mm3 -> Cblue, mm4 -> Cred, mm5 -> Cgreen odd pixels,
 			mm6 -> Y even, mm7 -> Y odd */
 		     "por %%mm7, %%mm5;" /* r7r6r5r4 r3g7g6g5 g4g3g2b7 b6b5b4b3 */
 		     "movd 4 (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 v3 v2 v1 v0 */
 		     MOVNTQ " %%mm5, 8 (%3);" /* store pixel 4-7 */
-		     : : "r" (py), "r" (pu), "r" (pv), "r" (image));
+		     : : "r" (_py), "r" (_pu), "r" (_pv), "r" (_image));
-	    py += 8;
+	    _py += 8;
-	    pu += 4;
+	    _pu += 4;
-	    pv += 4;
+	    _pv += 4;
-	    image += 16;
+	    _image += 16;
-	    x += 8;
-	} while (x < h_size);
-	if (even) {
-	    pu -= h_size/2;
-	    pv -= h_size/2;
-	} else {
-	    pu += (uv_stride - h_size/2);
-	    pv += (uv_stride - h_size/2);
 	}
-	py += (y_stride - h_size);
+	if (!even) {
-	image += (rgb_stride - 2*h_size);
+	    pu += uv_stride;
+	    pv += uv_stride;
-	/* load data for start of next scan line */
+	}
-	__asm__ __volatile__ (
-		 "movd (%1), %%mm0;" /* Load 4 Cb 00 00 00 00 00 u3 u2 u1 u0 */
+	py += y_stride;
-		 "movd (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 00 v2 v1 v0 */
+	image += rgb_stride;
-		 //"movl $0, (%3);" /* cache preload for image */
-		 "movq (%0), %%mm6;" /* Load 8 Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
-		 : : "r" (py), "r" (pu), "r" (pv), "r" (image));
-	x = 0;
-	y += 1;
 	even = (!even);
-} while (y < v_size) ;
+}
 __asm__ __volatile__ (EMMS);
 }
 static void yuv420_argb32_mmx (uint8_t * image, uint8_t * py,
 			       uint8_t * pu, uint8_t * pv,
 			       int h_size, int v_size,
 			       int rgb_stride, int y_stride, int uv_stride)
 {
 int even = 1;
-int x = 0, y = 0;
+int x, y;
-__asm__ __volatile__ (
+__asm__ __volatile__ ("pxor %mm4, %mm4;" /* zero mm4 */ );
-	     ".align 8;"
+for (y = v_size; --y >= 0; ) {
+	uint8_t *_image = image;
+	uint8_t *_py = py;
+	uint8_t *_pu = pu;
+	uint8_t *_pv = pv;
+	/* load data for start of next scan line */
+	__asm__ __volatile__
+	    (
 	     "movd (%1), %%mm0;" /* Load 4 Cb 00 00 00 00 u3 u2 u1 u0 */
-	     //"movl $0, (%3);" /* cache preload for image */
 	     "movd (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 v3 v2 v1 v0 */
-	     "pxor %%mm4, %%mm4;" /* zero mm4 */
+	     "movq (%0), %%mm6;" /* Load 8  Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
+	     : : "r" (_py), "r" (_pu), "r" (_pv)
-	     "movq (%0), %%mm6;" /* Load 8 Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
+	     );
-	     : : "r" (py), "r" (pu), "r" (pv), "r" (image));
+	for (x = h_size >> 3; --x >= 0; ) {
-do {
-	do {
 	    /* this mmx assembly code deals with SINGLE scan line at a time, it convert 8
 	       pixels in each iteration */
 	    __asm__ __volatile__ (
-		     ".align 8;"
 		     /* Do the multiply part of the conversion for even and odd pixels,
 			register usage:
 			mm0 -> Cblue, mm1 -> Cred, mm2 -> Cgreen even pixels,
 			mm3 -> Cblue, mm4 -> Cred, mm5 -> Cgreen odd pixels,
 			mm6 -> Y even, mm7 -> Y odd */
 		     "movd 4 (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 v3 v2 v1 v0 */
 		     "pxor %%mm4, %%mm4;" /* zero mm4 */
 		     "movq 8 (%0), %%mm6;" /* Load 8 Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
-		     : : "r" (py), "r" (pu), "r" (pv), "r" (image));
+		     : : "r" (_py), "r" (_pu), "r" (_pv), "r" (_image));
-	    py += 8;
+	    _py += 8;
-	    pu += 4;
+	    _pu += 4;
-	    pv += 4;
+	    _pv += 4;
-	    image += 32;
+	    _image += 32;
-	    x += 8;
-	} while (x < h_size);
-	if (even) {
-	    pu -= h_size/2;
-	    pv -= h_size/2;
-	} else {
-	    pu += (uv_stride - h_size/2);
-	    pv += (uv_stride - h_size/2);
 	}
-	py += (y_stride - h_size);
+	if (!even) {
-	image += (rgb_stride - 4*h_size);
+	    pu += uv_stride;
+	    pv += uv_stride;
-	/* load data for start of next scan line */
+	}
-	__asm__ __volatile__
-	    (
+	py += y_stride;
-	     ".align 8;"
+	image += rgb_stride;
-	     "movd (%1), %%mm0;" /* Load 4 Cb 00 00 00 00 u3 u2 u1 u0 */
-	     "movd (%2), %%mm1;" /* Load 4 Cr 00 00 00 00 v3 v2 v1 v0 */
-	     //"movl $0, (%3);" /* cache preload for image */
-	     "movq (%0), %%mm6;" /* Load 8 Y Y7 Y6 Y5 Y4 Y3 Y2 Y1 Y0 */
-	     : : "r" (py), "r" (pu), "r" (pv), "r" (image)
-	     );
-	x = 0;
-	y += 1;
 	even = (!even);
-} while ( y < v_size) ;
+}
 __asm__ __volatile__ (EMMS);
 }
 yuv2rgb_fun yuv2rgb_init_mmx (int bpp, int mode)

Mercurial > mplayer.hg

comparison libvo/yuv2rgb_mmx.c @ 1306:7ce37211e454