libavcodec.hg: arm/simple_idct

annotate arm/simple_idct_neon.S @ 11562:66f3d2ff88b7 libavcodec

H264: Copy h264dsp when creating new slice threads Fixes slice multithreading (broken in r22565) Fixes issue1815

author	astrange
date	Wed, 31 Mar 2010 03:55:42 +0000
parents	361a5fcb4393
children	17a110bfdeb6

rev	line source
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	1 /*
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	2 * ARM NEON IDCT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	3 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	4 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	5 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	6 * Based on Simple IDCT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	7 * Copyright (c) 2001 Michael Niedermayer <michaelni@gmx.at>
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	8 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	9 * This file is part of FFmpeg.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	10 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	11 * FFmpeg is free software; you can redistribute it and/or
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	12 * modify it under the terms of the GNU Lesser General Public
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	13 * License as published by the Free Software Foundation; either
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	14 * version 2.1 of the License, or (at your option) any later version.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	15 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	16 * FFmpeg is distributed in the hope that it will be useful,
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	17 * but WITHOUT ANY WARRANTY; without even the implied warranty of
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	18 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	19 * Lesser General Public License for more details.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	20 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	21 * You should have received a copy of the GNU Lesser General Public
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	22 * License along with FFmpeg; if not, write to the Free Software
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	23 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	24 */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	25
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	26 #include "asm.S"
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	27
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	28 #define W1 22725 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	29 #define W2 21407 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	30 #define W3 19266 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	31 #define W4 16383 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	32 #define W5 12873 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	33 #define W6 8867 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	34 #define W7 4520 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	35 #define W4c ((1<<(COL_SHIFT-1))/W4)
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	36 #define ROW_SHIFT 11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	37 #define COL_SHIFT 20
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	38
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	39 #define w1 d0[0]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	40 #define w2 d0[1]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	41 #define w3 d0[2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	42 #define w4 d0[3]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	43 #define w5 d1[0]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	44 #define w6 d1[1]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	45 #define w7 d1[2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	46 #define w4c d1[3]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	47
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	48 .macro idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	49 vmull.s16 q7, d6, w2 /* q9 = W2 * col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	50 vmull.s16 q8, d6, w6 /* q10 = W6 * col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	51 vmull.s16 q9, d4, w1 /* q9 = W1 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	52 vadd.i32 q11, q15, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	53 vmull.s16 q10, d4, w3 /* q10 = W3 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	54 vadd.i32 q12, q15, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	55 vmull.s16 q5, d4, w5 /* q5 = W5 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	56 vsub.i32 q13, q15, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	57 vmull.s16 q6, d4, w7 /* q6 = W7 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	58 vsub.i32 q14, q15, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	59
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	60 vmlal.s16 q9, d8, w3 /* q9 += W3 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	61 vmlsl.s16 q10, d8, w7 /* q10 -= W7 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	62 vmlsl.s16 q5, d8, w1 /* q5 -= W1 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	63 vmlsl.s16 q6, d8, w5 /* q6 -= W5 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	64 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	65
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	66 .text
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	67 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	68
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	69 function idct_row4_pld_neon
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	70 pld [r0]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	71 add r3, r0, r1, lsl #2
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	72 pld [r0, r1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	73 pld [r0, r1, lsl #1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	74 pld [r3, -r1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	75 pld [r3]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	76 pld [r3, r1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	77 add r3, r3, r1, lsl #1
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	78 pld [r3]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	79 pld [r3, r1]
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	80 endfunc
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	81
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	82 function idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	83 vmov.i32 q15, #(1<<(ROW_SHIFT-1))
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	84 vld1.64 {d2-d5}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	85 vmlal.s16 q15, d2, w4 /* q15 += W4 * col[0] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	86 vld1.64 {d6,d7}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	87 vorr d10, d3, d5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	88 vld1.64 {d8,d9}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	89 add r2, r2, #-64
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	90
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	91 vorr d11, d7, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	92 vorr d10, d10, d11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	93 vmov r3, r4, d10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	94
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	95 idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	96
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	97 orrs r3, r3, r4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	98 beq 1f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	99
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	100 vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	101 vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	102 vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	103 vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	104 vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	105 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	106 vsub.i32 q12, q12, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	107 vsub.i32 q13, q13, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	108 vadd.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	109 vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	110 vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	111 vmlal.s16 q9, d9, w7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	112 vmlsl.s16 q10, d9, w5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	113 vmlal.s16 q5, d9, w3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	114 vmlsl.s16 q6, d9, w1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	115 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	116 vsub.i32 q12, q12, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	117 vadd.i32 q13, q13, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	118 vsub.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	119
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	120 1: vadd.i32 q3, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	121 vadd.i32 q4, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	122 vshrn.i32 d2, q3, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	123 vshrn.i32 d4, q4, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	124 vadd.i32 q7, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	125 vadd.i32 q8, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	126 vtrn.16 d2, d4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	127 vshrn.i32 d6, q7, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	128 vshrn.i32 d8, q8, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	129 vsub.i32 q14, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	130 vsub.i32 q11, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	131 vtrn.16 d6, d8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	132 vsub.i32 q13, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	133 vshrn.i32 d3, q14, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	134 vtrn.32 d2, d6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	135 vsub.i32 q12, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	136 vtrn.32 d4, d8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	137 vshrn.i32 d5, q13, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	138 vshrn.i32 d7, q12, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	139 vshrn.i32 d9, q11, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	140
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	141 vtrn.16 d3, d5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	142 vtrn.16 d7, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	143 vtrn.32 d3, d7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	144 vtrn.32 d5, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	145
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	146 vst1.64 {d2-d5}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	147 vst1.64 {d6-d9}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	148
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	149 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	150 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	151
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	152 function idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	153 mov ip, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	154 vld1.64 {d2}, [r2,:64], ip /* d2 = col[0] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	155 vdup.16 d30, w4c
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	156 vld1.64 {d4}, [r2,:64], ip /* d3 = col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	157 vadd.i16 d30, d30, d2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	158 vld1.64 {d6}, [r2,:64], ip /* d4 = col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	159 vmull.s16 q15, d30, w4 /* q15 = W4(col[0]+(1<<COL_SHIFT-1)/W4)/
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	160 vld1.64 {d8}, [r2,:64], ip /* d5 = col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	161
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	162 ldrd r4, [r2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	163 ldrd r6, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	164 orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	165
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	166 idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	167 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	168 beq 1f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	169
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	170 vld1.64 {d3}, [r2,:64], ip /* d6 = col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	171 vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	172 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	173 vsub.i32 q12, q12, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	174 vsub.i32 q13, q13, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	175 vadd.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	176
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	177 1: orrs r6, r6, r7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	178 ldrd r4, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	179 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	180 beq 2f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	181
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	182 vld1.64 {d5}, [r2,:64], ip /* d7 = col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	183 vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	184 vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	185 vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	186 vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	187
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	188 2: orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	189 ldrd r4, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	190 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	191 beq 3f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	192
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	193 vld1.64 {d7}, [r2,:64], ip /* d8 = col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	194 vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	195 vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	196 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	197 vsub.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	198 vsub.i32 q12, q12, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	199 vadd.i32 q13, q13, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	200
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	201 3: orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	202 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	203 beq 4f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	204
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	205 vld1.64 {d9}, [r2,:64], ip /* d9 = col[7] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	206 vmlal.s16 q9, d9, w7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	207 vmlsl.s16 q10, d9, w5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	208 vmlal.s16 q5, d9, w3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	209 vmlsl.s16 q6, d9, w1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	210
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	211 4: vaddhn.i32 d2, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	212 vaddhn.i32 d3, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	213 vaddhn.i32 d4, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	214 vaddhn.i32 d5, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	215 vsubhn.i32 d9, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	216 vsubhn.i32 d8, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	217 vsubhn.i32 d7, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	218 vsubhn.i32 d6, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	219
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	220 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	221 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	222
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	223 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	224
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	225 function idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	226 vqshrun.s16 d2, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	227 vqshrun.s16 d3, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	228 vqshrun.s16 d4, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	229 vqshrun.s16 d5, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	230 vst1.32 {d2[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	231 vst1.32 {d2[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	232 vst1.32 {d3[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	233 vst1.32 {d3[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	234 vst1.32 {d4[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	235 vst1.32 {d4[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	236 vst1.32 {d5[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	237 vst1.32 {d5[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	238
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	239 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	240 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	241
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	242 .section .rodata
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	243 .align 4
8506 1a629032b24a ARM: rename coefficient table in NEON IDCT mru parents: 8359 diff changeset	244 idct_coeff_neon:
1a629032b24a ARM: rename coefficient table in NEON IDCT mru parents: 8359 diff changeset	245 .short W1, W2, W3, W4, W5, W6, W7, W4c
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	246 .previous
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	247
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	248 .macro idct_start data
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	249 push {r4-r7, lr}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	250 pld [\data]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	251 pld [\data, #64]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	252 vpush {d8-d15}
8507 779a9c93bf61 ARM: work around linker bug with movw/movt relocations in shared libs mru parents: 8506 diff changeset	253 movrel r3, idct_coeff_neon
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	254 vld1.64 {d0,d1}, [r3,:128]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	255 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	256
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	257 .macro idct_end
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	258 vpop {d8-d15}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	259 pop {r4-r7, pc}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	260 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	261
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	262 /* void ff_simple_idct_put_neon(uint8_t dst, int line_size, DCTELEM data); */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	263 function ff_simple_idct_put_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	264 idct_start r2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	265
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	266 bl idct_row4_pld_neon
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	267 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	268 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	269 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	270 bl idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	271 sub r0, r0, r1, lsl #3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	272 add r0, r0, #4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	273 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	274 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	275 bl idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	276
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	277 idct_end
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	278 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	279
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	280 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	281
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	282 function idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	283 mov ip, r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	284
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	285 vld1.32 {d10[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	286 vshr.s16 q1, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	287 vld1.32 {d10[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	288 vshr.s16 q2, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	289 vld1.32 {d11[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	290 vshr.s16 q3, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	291 vld1.32 {d11[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	292 vshr.s16 q4, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	293 vld1.32 {d12[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	294 vaddw.u8 q1, q1, d10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	295 vld1.32 {d12[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	296 vaddw.u8 q2, q2, d11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	297 vld1.32 {d13[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	298 vqmovun.s16 d2, q1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	299 vld1.32 {d13[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	300 vaddw.u8 q3, q3, d12
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	301 vst1.32 {d2[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	302 vqmovun.s16 d3, q2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	303 vst1.32 {d2[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	304 vaddw.u8 q4, q4, d13
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	305 vst1.32 {d3[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	306 vqmovun.s16 d4, q3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	307 vst1.32 {d3[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	308 vqmovun.s16 d5, q4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	309 vst1.32 {d4[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	310 vst1.32 {d4[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	311 vst1.32 {d5[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	312 vst1.32 {d5[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	313
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	314 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	315 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	316
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	317 /* void ff_simple_idct_add_neon(uint8_t dst, int line_size, DCTELEM data); */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	318 function ff_simple_idct_add_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	319 idct_start r2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	320
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	321 bl idct_row4_pld_neon
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	322 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	323 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	324 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	325 bl idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	326 sub r0, r0, r1, lsl #3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	327 add r0, r0, #4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	328 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	329 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	330 bl idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	331
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	332 idct_end
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	333 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	334
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	335 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	336
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	337 function idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	338 mov ip, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	339
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	340 vshr.s16 q1, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	341 vshr.s16 q2, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	342 vst1.64 {d2}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	343 vshr.s16 q3, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	344 vst1.64 {d3}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	345 vshr.s16 q4, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	346 vst1.64 {d4}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	347 vst1.64 {d5}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	348 vst1.64 {d6}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	349 vst1.64 {d7}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	350 vst1.64 {d8}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	351 vst1.64 {d9}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	352
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	353 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	354 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	355
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	356 /* void ff_simple_idct_neon(DCTELEM data); /
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	357 function ff_simple_idct_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	358 idct_start r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	359
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	360 mov r2, r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	361 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	362 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	363 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	364 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	365 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	366 bl idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	367 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	368 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	369 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	370 bl idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	371
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	372 idct_end
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	373 endfunc

Mercurial > libavcodec.hg

annotate arm/simple_idct_neon.S @ 11562:66f3d2ff88b7 libavcodec