libavcodec.hg: x86/vp8dsp.asm comparison

comparison x86/vp8dsp.asm @ 12195:e7847fcff0f4 libavcodec

Be more efficient with registers or stack memory. Saves 8/16 bytes stack for x86-32, or 2 MM registers on x86-64.

author	rbultje
date	Mon, 19 Jul 2010 21:45:36 +0000
parents	80b142c2e9f7
children	552c7c10bc73

comparison

equal deleted inserted replaced

-:80b142c2e9f7
+:e7847fcff0f4
 and             rsp, ~(mmsize-1) ; align stack
 %ifidn %2, v
 sub             rsp, mmsize * 4  ; stack layout: [0]=E, [1]=I, [2]=hev_thr
 ;               [3]=hev() result
 %else ; h
-sub             rsp, mmsize * 6  ; extra storage space for transposes
+sub             rsp, mmsize * 5  ; extra storage space for transposes
 %endif
 %define flim_E   [rsp]
 %define flim_I   [rsp+mmsize]
 %define hev_thr  [rsp+mmsize*2]
 movu             m6, [dst2_reg+ stride_reg]
 ; 8x8 transpose
 TRANSPOSE4x4B     0, 1, 2, 3, 7
 %ifdef m13
-SWAP              1, 13
+SWAP              1, 8
 %else
 mova [rsp+mmsize*4], m1
 %endif
 movu             m7, [dst2_reg+ stride_reg*2]
 TRANSPOSE4x4B     4, 5, 6, 7, 1
 SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
 SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
 SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
 %ifdef m13
-SWAP              1, 13
+SWAP              1, 8
-SWAP              2, 13
+SWAP              2, 8
 %else
 mova             m1, [rsp+mmsize*4]
 mova [rsp+mmsize*4], m2          ; store q0
 %endif
 SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
 %ifdef m14
-SWAP              5, 14
+SWAP              5, 12
 %else
-mova [rsp+mmsize*5], m5          ; store p0
+mova [rsp+mmsize*3], m5          ; store p0
 %endif
 SWAP              1, 4
 SWAP              2, 4
 SWAP              6, 3
 SWAP              5, 3
 punpcklbw        m6, m7          ; G/O
 ; 8x16 transpose
 TRANSPOSE4x4B     0, 1, 2, 3, 7
 %ifdef m13
-SWAP              1, 13
+SWAP              1, 8
 %else
 mova [rsp+mmsize*4], m1
 %endif
 movh             m7, [dst2_reg+ stride_reg*2]
 movh             m1, [dst8_reg+ stride_reg*2]
 TRANSPOSE4x4B     4, 5, 6, 7, 1
 SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
 SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
 SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
 %ifdef m13
-SWAP              1, 13
+SWAP              1, 8
-SWAP              2, 13
+SWAP              2, 8
 %else
 mova             m1, [rsp+mmsize*4]
 mova [rsp+mmsize*4], m2          ; store q0
 %endif
 SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
 %ifdef m14
-SWAP              5, 14
+SWAP              5, 12
 %else
-mova [rsp+mmsize*5], m5          ; store p0
+mova [rsp+mmsize*3], m5          ; store p0
 %endif
 SWAP              1, 4
 SWAP              2, 4
 SWAP              6, 3
 SWAP              5, 3
 ; normal_limit and high_edge_variance for p1-p0, q1-q0
 SWAP              7, 3           ; now m7 is zero
 %ifidn %2, v
 mova             m3, [dst_reg +mstride_reg] ; p0
 %elifdef m14
-SWAP              3, 14
+SWAP              3, 12
 %else
-mova             m3, [rsp+mmsize*5]
+mova             m3, [rsp+mmsize*3]
 %endif
 mova             m1, m2
 SWAP              1, 2
 mova             m6, m3
 SWAP              6, 4           ; now m6 is I
 %ifidn %2, v
 mova             m4, [dst_reg]   ; q0
 %elifdef m13
-SWAP              4, 13
+SWAP              4, 8
 %else
 mova             m4, [rsp+mmsize*4]
 %endif
 mova             m1, m4
 SWAP              1, 4
 INNER_LOOPFILTER mmxext, v, 6, 8
 INNER_LOOPFILTER mmxext, h, 6, 8
 INIT_XMM
 INNER_LOOPFILTER sse2,   v, 5, 13
 %ifdef m8
-INNER_LOOPFILTER sse2,   h, 5, 15
+INNER_LOOPFILTER sse2,   h, 5, 13
 %else
-INNER_LOOPFILTER sse2,   h, 6, 15
+INNER_LOOPFILTER sse2,   h, 6, 13
 %endif

Mercurial > libavcodec.hg

comparison x86/vp8dsp.asm @ 12195:e7847fcff0f4 libavcodec