libavcodec.hg: arm/simple_idct

annotate arm/simple_idct_neon.S @ 8490:b579b143bbd4 libavcodec

indent

author	michael
date	Fri, 26 Dec 2008 18:39:24 +0000
parents	9281a8a9387a
children	1a629032b24a

rev	line source
8335 f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	1 /*
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	2 * ARM NEON IDCT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	3 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	4 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	5 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	6 * Based on Simple IDCT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	7 * Copyright (c) 2001 Michael Niedermayer <michaelni@gmx.at>
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	8 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	9 * This file is part of FFmpeg.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	10 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	11 * FFmpeg is free software; you can redistribute it and/or
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	12 * modify it under the terms of the GNU Lesser General Public
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	13 * License as published by the Free Software Foundation; either
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	14 * version 2.1 of the License, or (at your option) any later version.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	15 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	16 * FFmpeg is distributed in the hope that it will be useful,
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	17 * but WITHOUT ANY WARRANTY; without even the implied warranty of
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	18 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	19 * Lesser General Public License for more details.
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	20 *
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	21 * You should have received a copy of the GNU Lesser General Public
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	22 * License along with FFmpeg; if not, write to the Free Software
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	23 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	24 */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	25
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	26 #include "asm.S"
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	27
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	28 #define W1 22725 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	29 #define W2 21407 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	30 #define W3 19266 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	31 #define W4 16383 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	32 #define W5 12873 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	33 #define W6 8867 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	34 #define W7 4520 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	35 #define W4c ((1<<(COL_SHIFT-1))/W4)
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	36 #define ROW_SHIFT 11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	37 #define COL_SHIFT 20
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	38
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	39 #define w1 d0[0]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	40 #define w2 d0[1]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	41 #define w3 d0[2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	42 #define w4 d0[3]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	43 #define w5 d1[0]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	44 #define w6 d1[1]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	45 #define w7 d1[2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	46 #define w4c d1[3]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	47
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	48 .fpu neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	49
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	50 .macro idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	51 vmull.s16 q7, d6, w2 /* q9 = W2 * col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	52 vmull.s16 q8, d6, w6 /* q10 = W6 * col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	53 vmull.s16 q9, d4, w1 /* q9 = W1 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	54 vadd.i32 q11, q15, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	55 vmull.s16 q10, d4, w3 /* q10 = W3 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	56 vadd.i32 q12, q15, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	57 vmull.s16 q5, d4, w5 /* q5 = W5 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	58 vsub.i32 q13, q15, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	59 vmull.s16 q6, d4, w7 /* q6 = W7 * col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	60 vsub.i32 q14, q15, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	61
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	62 vmlal.s16 q9, d8, w3 /* q9 += W3 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	63 vmlsl.s16 q10, d8, w7 /* q10 -= W7 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	64 vmlsl.s16 q5, d8, w1 /* q5 -= W1 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	65 vmlsl.s16 q6, d8, w5 /* q6 -= W5 * col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	66 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	67
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	68 .text
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	69 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	70
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	71 function idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	72 vmov.i32 q15, #(1<<(ROW_SHIFT-1))
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	73 vld1.64 {d2-d5}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	74 vmlal.s16 q15, d2, w4 /* q15 += W4 * col[0] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	75 vld1.64 {d6,d7}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	76 vorr d10, d3, d5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	77 vld1.64 {d8,d9}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	78 add r2, r2, #-64
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	79
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	80 vorr d11, d7, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	81 vorr d10, d10, d11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	82 vmov r3, r4, d10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	83
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	84 idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	85
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	86 orrs r3, r3, r4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	87 beq 1f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	88
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	89 vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	90 vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	91 vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	92 vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	93 vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	94 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	95 vsub.i32 q12, q12, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	96 vsub.i32 q13, q13, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	97 vadd.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	98 vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	99 vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	100 vmlal.s16 q9, d9, w7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	101 vmlsl.s16 q10, d9, w5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	102 vmlal.s16 q5, d9, w3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	103 vmlsl.s16 q6, d9, w1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	104 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	105 vsub.i32 q12, q12, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	106 vadd.i32 q13, q13, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	107 vsub.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	108
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	109 1: vadd.i32 q3, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	110 vadd.i32 q4, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	111 vshrn.i32 d2, q3, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	112 vshrn.i32 d4, q4, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	113 vadd.i32 q7, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	114 vadd.i32 q8, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	115 vtrn.16 d2, d4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	116 vshrn.i32 d6, q7, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	117 vshrn.i32 d8, q8, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	118 vsub.i32 q14, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	119 vsub.i32 q11, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	120 vtrn.16 d6, d8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	121 vsub.i32 q13, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	122 vshrn.i32 d3, q14, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	123 vtrn.32 d2, d6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	124 vsub.i32 q12, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	125 vtrn.32 d4, d8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	126 vshrn.i32 d5, q13, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	127 vshrn.i32 d7, q12, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	128 vshrn.i32 d9, q11, #ROW_SHIFT
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	129
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	130 vtrn.16 d3, d5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	131 vtrn.16 d7, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	132 vtrn.32 d3, d7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	133 vtrn.32 d5, d9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	134
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	135 vst1.64 {d2-d5}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	136 vst1.64 {d6-d9}, [r2,:128]!
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	137
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	138 bx lr
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	139 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	140
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	141 function idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	142 mov ip, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	143 vld1.64 {d2}, [r2,:64], ip /* d2 = col[0] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	144 vdup.16 d30, w4c
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	145 vld1.64 {d4}, [r2,:64], ip /* d3 = col[1] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	146 vadd.i16 d30, d30, d2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	147 vld1.64 {d6}, [r2,:64], ip /* d4 = col[2] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	148 vmull.s16 q15, d30, w4 /* q15 = W4(col[0]+(1<<COL_SHIFT-1)/W4)/
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	149 vld1.64 {d8}, [r2,:64], ip /* d5 = col[3] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	150
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	151 ldrd r4, [r2]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	152 ldrd r6, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	153 orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	154
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	155 idct_col4_top
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	156 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	157 beq 1f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	158
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	159 vld1.64 {d3}, [r2,:64], ip /* d6 = col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	160 vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	161 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	162 vsub.i32 q12, q12, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	163 vsub.i32 q13, q13, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	164 vadd.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	165
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	166 1: orrs r6, r6, r7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	167 ldrd r4, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	168 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	169 beq 2f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	170
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	171 vld1.64 {d5}, [r2,:64], ip /* d7 = col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	172 vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	173 vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	174 vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	175 vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	176
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	177 2: orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	178 ldrd r4, [r2, #16]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	179 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	180 beq 3f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	181
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	182 vld1.64 {d7}, [r2,:64], ip /* d8 = col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	183 vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	184 vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	185 vadd.i32 q11, q11, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	186 vsub.i32 q14, q14, q7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	187 vsub.i32 q12, q12, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	188 vadd.i32 q13, q13, q8
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	189
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	190 3: orrs r4, r4, r5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	191 addeq r2, r2, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	192 beq 4f
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	193
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	194 vld1.64 {d9}, [r2,:64], ip /* d9 = col[7] */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	195 vmlal.s16 q9, d9, w7
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	196 vmlsl.s16 q10, d9, w5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	197 vmlal.s16 q5, d9, w3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	198 vmlsl.s16 q6, d9, w1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	199
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	200 4: vaddhn.i32 d2, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	201 vaddhn.i32 d3, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	202 vaddhn.i32 d4, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	203 vaddhn.i32 d5, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	204 vsubhn.i32 d9, q11, q9
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	205 vsubhn.i32 d8, q12, q10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	206 vsubhn.i32 d7, q13, q5
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	207 vsubhn.i32 d6, q14, q6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	208
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	209 bx lr
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	210 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	211
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	212 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	213
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	214 function idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	215 vqshrun.s16 d2, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	216 vqshrun.s16 d3, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	217 vqshrun.s16 d4, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	218 vqshrun.s16 d5, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	219 vst1.32 {d2[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	220 vst1.32 {d2[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	221 vst1.32 {d3[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	222 vst1.32 {d3[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	223 vst1.32 {d4[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	224 vst1.32 {d4[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	225 vst1.32 {d5[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	226 vst1.32 {d5[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	227
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	228 bx lr
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	229 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	230
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	231 .section .rodata
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	232 .align 4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	233 const: .short W1, W2, W3, W4, W5, W6, W7, W4c
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	234 .previous
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	235
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	236 .macro idct_start data
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	237 push {r4-r7, lr}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	238 pld [\data]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	239 pld [\data, #64]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	240 vpush {d8-d15}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	241 movw r3, #:lower16:const
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	242 movt r3, #:upper16:const
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	243 vld1.64 {d0,d1}, [r3,:128]
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	244 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	245
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	246 .macro idct_end
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	247 vpop {d8-d15}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	248 pop {r4-r7, pc}
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	249 .endm
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	250
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	251 /* void ff_simple_idct_put_neon(uint8_t dst, int line_size, DCTELEM data); */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	252 function ff_simple_idct_put_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	253 idct_start r2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	254
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	255 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	256 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	257 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	258 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	259 bl idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	260 sub r0, r0, r1, lsl #3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	261 add r0, r0, #4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	262 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	263 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	264 bl idct_col4_st8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	265
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	266 idct_end
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	267 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	268
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	269 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	270
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	271 function idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	272 mov ip, r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	273
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	274 vld1.32 {d10[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	275 vshr.s16 q1, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	276 vld1.32 {d10[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	277 vshr.s16 q2, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	278 vld1.32 {d11[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	279 vshr.s16 q3, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	280 vld1.32 {d11[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	281 vshr.s16 q4, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	282 vld1.32 {d12[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	283 vaddw.u8 q1, q1, d10
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	284 vld1.32 {d12[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	285 vaddw.u8 q2, q2, d11
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	286 vld1.32 {d13[0]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	287 vqmovun.s16 d2, q1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	288 vld1.32 {d13[1]}, [r0,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	289 vaddw.u8 q3, q3, d12
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	290 vst1.32 {d2[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	291 vqmovun.s16 d3, q2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	292 vst1.32 {d2[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	293 vaddw.u8 q4, q4, d13
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	294 vst1.32 {d3[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	295 vqmovun.s16 d4, q3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	296 vst1.32 {d3[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	297 vqmovun.s16 d5, q4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	298 vst1.32 {d4[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	299 vst1.32 {d4[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	300 vst1.32 {d5[0]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	301 vst1.32 {d5[1]}, [ip,:32], r1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	302
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	303 bx lr
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	304 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	305
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	306 /* void ff_simple_idct_add_neon(uint8_t dst, int line_size, DCTELEM data); */
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	307 function ff_simple_idct_add_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	308 idct_start r2
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	309
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	310 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	311 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	312 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	313 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	314 bl idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	315 sub r0, r0, r1, lsl #3
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	316 add r0, r0, #4
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	317 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	318 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	319 bl idct_col4_add8_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	320
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	321 idct_end
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	322 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	323
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	324 .align 6
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	325
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	326 function idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	327 mov ip, #16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	328
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	329 vshr.s16 q1, q1, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	330 vshr.s16 q2, q2, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	331 vst1.64 {d2}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	332 vshr.s16 q3, q3, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	333 vst1.64 {d3}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	334 vshr.s16 q4, q4, #COL_SHIFT-16
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	335 vst1.64 {d4}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	336 vst1.64 {d5}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	337 vst1.64 {d6}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	338 vst1.64 {d7}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	339 vst1.64 {d8}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	340 vst1.64 {d9}, [r2,:64], ip
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	341
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	342 bx lr
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	343 .endfunc
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	344
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	345 /* void ff_simple_idct_neon(DCTELEM data); /
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	346 function ff_simple_idct_neon, export=1
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	347 idct_start r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	348
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	349 mov r2, r0
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	350 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	351 bl idct_row4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	352 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	353 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	354 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	355 bl idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	356 add r2, r2, #-120
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	357 bl idct_col4_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	358 add r2, r2, #-128
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	359 bl idct_col4_st16_neon
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	360
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	361 idct_end
f19fe0cade86 ARM: NEON optimised simple_idct mru parents: diff changeset	362 .endfunc

Mercurial > libavcodec.hg

annotate arm/simple_idct_neon.S @ 8490:b579b143bbd4 libavcodec