libavcodec.hg: arm/simple_idct

annotate arm/simple_idct_neon.S @ 11980:263b4ef7ad87 libavcodec

tablegen: implement and use WRITE_ARRAY macros Two macros (WRITE_ARRAY and WRITE_ARRAY_2D) take the prefix (modifiers) (not all tables are static, and they might not be constant either), the type, and the name of the array. It'll be copied with same name and type, and with the correct size of the currently-defined object.

author	flameeyes
date	Sun, 27 Jun 2010 12:21:12 +0000
parents	361a5fcb4393
children	17a110bfdeb6

rev	line source
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	1 /*
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	2 * ARM NEON IDCT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	3 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	4 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	5 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	6 * Based on Simple IDCT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	7 * Copyright (c) 2001 Michael Niedermayer <michaelni@gmx.at>
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	8 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	9 * This file is part of FFmpeg.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	10 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	11 * FFmpeg is free software; you can redistribute it and/or
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	12 * modify it under the terms of the GNU Lesser General Public
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	13 * License as published by the Free Software Foundation; either
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	14 * version 2.1 of the License, or (at your option) any later version.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	15 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	16 * FFmpeg is distributed in the hope that it will be useful,
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	17 * but WITHOUT ANY WARRANTY; without even the implied warranty of
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	18 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	19 * Lesser General Public License for more details.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	20 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	21 * You should have received a copy of the GNU Lesser General Public
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	22 * License along with FFmpeg; if not, write to the Free Software
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	23 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	24 */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	25
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	26 #include "asm.S"
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	27
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	28 #define W1 22725 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	29 #define W2 21407 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	30 #define W3 19266 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	31 #define W4 16383 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	32 #define W5 12873 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	33 #define W6 8867 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	34 #define W7 4520 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	35 #define W4c ((1<<(COL_SHIFT-1))/W4)
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	36 #define ROW_SHIFT 11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	37 #define COL_SHIFT 20
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	38
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	39 #define w1 d0[0]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	40 #define w2 d0[1]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	41 #define w3 d0[2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	42 #define w4 d0[3]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	43 #define w5 d1[0]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	44 #define w6 d1[1]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	45 #define w7 d1[2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	46 #define w4c d1[3]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	47
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	48 .macro idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	49 vmull.s16 q7, d6, w2 /* q9 = W2 * col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	50 vmull.s16 q8, d6, w6 /* q10 = W6 * col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	51 vmull.s16 q9, d4, w1 /* q9 = W1 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	52 vadd.i32 q11, q15, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	53 vmull.s16 q10, d4, w3 /* q10 = W3 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	54 vadd.i32 q12, q15, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	55 vmull.s16 q5, d4, w5 /* q5 = W5 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	56 vsub.i32 q13, q15, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	57 vmull.s16 q6, d4, w7 /* q6 = W7 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	58 vsub.i32 q14, q15, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	59
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	60 vmlal.s16 q9, d8, w3 /* q9 += W3 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	61 vmlsl.s16 q10, d8, w7 /* q10 -= W7 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	62 vmlsl.s16 q5, d8, w1 /* q5 -= W1 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	63 vmlsl.s16 q6, d8, w5 /* q6 -= W5 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	64 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	65
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	66 .text
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	67 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	68
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	69 function idct_row4_pld_neon
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	70 pld [r0]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	71 add r3, r0, r1, lsl #2
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	72 pld [r0, r1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	73 pld [r0, r1, lsl #1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	74 pld [r3, -r1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	75 pld [r3]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	76 pld [r3, r1]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	77 add r3, r3, r1, lsl #1
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	78 pld [r3]
c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	79 pld [r3, r1]
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	80 endfunc
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	81
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	82 function idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	83 vmov.i32 q15, #(1<<(ROW_SHIFT-1))
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	84 vld1.64 {d2-d5}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	85 vmlal.s16 q15, d2, w4 /* q15 += W4 * col[0] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	86 vld1.64 {d6,d7}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	87 vorr d10, d3, d5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	88 vld1.64 {d8,d9}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	89 add r2, r2, #-64
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	90
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	91 vorr d11, d7, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	92 vorr d10, d10, d11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	93 vmov r3, r4, d10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	94
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	95 idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	96
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	97 orrs r3, r3, r4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	98 beq 1f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	99
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	100 vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	101 vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	102 vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	103 vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	104 vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	105 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	106 vsub.i32 q12, q12, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	107 vsub.i32 q13, q13, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	108 vadd.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	109 vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	110 vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	111 vmlal.s16 q9, d9, w7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	112 vmlsl.s16 q10, d9, w5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	113 vmlal.s16 q5, d9, w3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	114 vmlsl.s16 q6, d9, w1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	115 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	116 vsub.i32 q12, q12, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	117 vadd.i32 q13, q13, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	118 vsub.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	119
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	120 1: vadd.i32 q3, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	121 vadd.i32 q4, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	122 vshrn.i32 d2, q3, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	123 vshrn.i32 d4, q4, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	124 vadd.i32 q7, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	125 vadd.i32 q8, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	126 vtrn.16 d2, d4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	127 vshrn.i32 d6, q7, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	128 vshrn.i32 d8, q8, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	129 vsub.i32 q14, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	130 vsub.i32 q11, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	131 vtrn.16 d6, d8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	132 vsub.i32 q13, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	133 vshrn.i32 d3, q14, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	134 vtrn.32 d2, d6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	135 vsub.i32 q12, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	136 vtrn.32 d4, d8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	137 vshrn.i32 d5, q13, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	138 vshrn.i32 d7, q12, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	139 vshrn.i32 d9, q11, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	140
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	141 vtrn.16 d3, d5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	142 vtrn.16 d7, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	143 vtrn.32 d3, d7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	144 vtrn.32 d5, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	145
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	146 vst1.64 {d2-d5}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	147 vst1.64 {d6-d9}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	148
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	149 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	150 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	151
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	152 function idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	153 mov ip, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	154 vld1.64 {d2}, [r2,:64], ip /* d2 = col[0] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	155 vdup.16 d30, w4c
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	156 vld1.64 {d4}, [r2,:64], ip /* d3 = col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	157 vadd.i16 d30, d30, d2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	158 vld1.64 {d6}, [r2,:64], ip /* d4 = col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	159 vmull.s16 q15, d30, w4 /* q15 = W4(col[0]+(1<<COL_SHIFT-1)/W4)/
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	160 vld1.64 {d8}, [r2,:64], ip /* d5 = col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	161
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	162 ldrd r4, [r2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	163 ldrd r6, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	164 orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	165
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	166 idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	167 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	168 beq 1f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	169
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	170 vld1.64 {d3}, [r2,:64], ip /* d6 = col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	171 vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	172 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	173 vsub.i32 q12, q12, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	174 vsub.i32 q13, q13, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	175 vadd.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	176
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	177 1: orrs r6, r6, r7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	178 ldrd r4, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	179 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	180 beq 2f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	181
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	182 vld1.64 {d5}, [r2,:64], ip /* d7 = col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	183 vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	184 vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	185 vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	186 vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	187
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	188 2: orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	189 ldrd r4, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	190 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	191 beq 3f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	192
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	193 vld1.64 {d7}, [r2,:64], ip /* d8 = col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	194 vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	195 vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	196 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	197 vsub.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	198 vsub.i32 q12, q12, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	199 vadd.i32 q13, q13, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	200
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	201 3: orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	202 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	203 beq 4f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	204
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	205 vld1.64 {d9}, [r2,:64], ip /* d9 = col[7] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	206 vmlal.s16 q9, d9, w7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	207 vmlsl.s16 q10, d9, w5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	208 vmlal.s16 q5, d9, w3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	209 vmlsl.s16 q6, d9, w1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	210
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	211 4: vaddhn.i32 d2, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	212 vaddhn.i32 d3, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	213 vaddhn.i32 d4, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	214 vaddhn.i32 d5, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	215 vsubhn.i32 d9, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	216 vsubhn.i32 d8, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	217 vsubhn.i32 d7, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	218 vsubhn.i32 d6, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	219
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	220 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	221 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	222
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	223 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	224
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	225 function idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	226 vqshrun.s16 d2, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	227 vqshrun.s16 d3, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	228 vqshrun.s16 d4, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	229 vqshrun.s16 d5, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	230 vst1.32 {d2[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	231 vst1.32 {d2[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	232 vst1.32 {d3[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	233 vst1.32 {d3[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	234 vst1.32 {d4[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	235 vst1.32 {d4[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	236 vst1.32 {d5[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	237 vst1.32 {d5[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	238
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	239 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	240 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	241
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	242 .section .rodata
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	243 .align 4
8506 1a629032b24a ARM: rename coefficient table in NEON IDCT mru parents: 8359 diff changeset	244 idct_coeff_neon:
1a629032b24a ARM: rename coefficient table in NEON IDCT mru parents: 8359 diff changeset	245 .short W1, W2, W3, W4, W5, W6, W7, W4c
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	246 .previous
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	247
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	248 .macro idct_start data
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	249 push {r4-r7, lr}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	250 pld [\data]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	251 pld [\data, #64]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	252 vpush {d8-d15}
8507 779a9c93bf61 ARM: work around linker bug with movw/movt relocations in shared libs mru parents: 8506 diff changeset	253 movrel r3, idct_coeff_neon
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	254 vld1.64 {d0,d1}, [r3,:128]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	255 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	256
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	257 .macro idct_end
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	258 vpop {d8-d15}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	259 pop {r4-r7, pc}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	260 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	261
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	262 /* void ff_simple_idct_put_neon(uint8_t dst, int line_size, DCTELEM data); */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	263 function ff_simple_idct_put_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	264 idct_start r2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	265
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	266 bl idct_row4_pld_neon
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	267 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	268 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	269 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	270 bl idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	271 sub r0, r0, r1, lsl #3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	272 add r0, r0, #4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	273 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	274 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	275 bl idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	276
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	277 idct_end
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	278 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	279
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	280 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	281
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	282 function idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	283 mov ip, r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	284
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	285 vld1.32 {d10[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	286 vshr.s16 q1, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	287 vld1.32 {d10[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	288 vshr.s16 q2, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	289 vld1.32 {d11[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	290 vshr.s16 q3, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	291 vld1.32 {d11[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	292 vshr.s16 q4, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	293 vld1.32 {d12[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	294 vaddw.u8 q1, q1, d10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	295 vld1.32 {d12[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	296 vaddw.u8 q2, q2, d11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	297 vld1.32 {d13[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	298 vqmovun.s16 d2, q1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	299 vld1.32 {d13[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	300 vaddw.u8 q3, q3, d12
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	301 vst1.32 {d2[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	302 vqmovun.s16 d3, q2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	303 vst1.32 {d2[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	304 vaddw.u8 q4, q4, d13
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	305 vst1.32 {d3[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	306 vqmovun.s16 d4, q3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	307 vst1.32 {d3[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	308 vqmovun.s16 d5, q4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	309 vst1.32 {d4[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	310 vst1.32 {d4[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	311 vst1.32 {d5[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	312 vst1.32 {d5[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	313
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	314 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	315 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	316
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	317 /* void ff_simple_idct_add_neon(uint8_t dst, int line_size, DCTELEM data); */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	318 function ff_simple_idct_add_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	319 idct_start r2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	320
9724 c65cfd4ad000 ARM: add some PLD in NEON IDCT mru parents: 8507 diff changeset	321 bl idct_row4_pld_neon
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	322 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	323 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	324 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	325 bl idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	326 sub r0, r0, r1, lsl #3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	327 add r0, r0, #4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	328 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	329 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	330 bl idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	331
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	332 idct_end
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	333 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	334
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	335 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	336
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	337 function idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	338 mov ip, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	339
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	340 vshr.s16 q1, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	341 vshr.s16 q2, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	342 vst1.64 {d2}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	343 vshr.s16 q3, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	344 vst1.64 {d3}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	345 vshr.s16 q4, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	346 vst1.64 {d4}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	347 vst1.64 {d5}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	348 vst1.64 {d6}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	349 vst1.64 {d7}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	350 vst1.64 {d8}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	351 vst1.64 {d9}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	352
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	353 bx lr
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	354 endfunc
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	355
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	356 /* void ff_simple_idct_neon(DCTELEM data); /
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	357 function ff_simple_idct_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	358 idct_start r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	359
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	360 mov r2, r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	361 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	362 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	363 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	364 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	365 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	366 bl idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	367 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	368 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	369 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	370 bl idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	371
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	372 idct_end
11443 361a5fcb4393 ARM: set size of asm functions in object files mru parents: 10349 diff changeset	373 endfunc

Mercurial > libavcodec.hg

annotate arm/simple_idct_neon.S @ 11980:263b4ef7ad87 libavcodec