libavcodec.hg: arm/h264idct

annotate arm/h264idct_neon.S @ 11013:5e5d44c920b6 libavcodec

Simplify loop filter a little by using top/left_type.

author	michael
date	Tue, 26 Jan 2010 13:39:26 +0000
parents	9cea4112ffaf
children	361a5fcb4393

rev	line source
8339 a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	1 /*
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	2 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	3 *
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	4 * This file is part of FFmpeg.
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	5 *
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	6 * FFmpeg is free software; you can redistribute it and/or
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	7 * modify it under the terms of the GNU Lesser General Public
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	8 * License as published by the Free Software Foundation; either
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	9 * version 2.1 of the License, or (at your option) any later version.
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	10 *
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	11 * FFmpeg is distributed in the hope that it will be useful,
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	12 * but WITHOUT ANY WARRANTY; without even the implied warranty of
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	13 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	14 * Lesser General Public License for more details.
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	15 *
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	16 * You should have received a copy of the GNU Lesser General Public
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	17 * License along with FFmpeg; if not, write to the Free Software
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	18 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	19 */
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	20
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	21 #include "asm.S"
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	22
8462 0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	23 preserve8
8339 a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	24 .text
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	25
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	26 function ff_h264_idct_add_neon, export=1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	27 vld1.64 {d0-d3}, [r1,:128]
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	28
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	29 vswp d1, d2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	30 vadd.i16 d4, d0, d1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	31 vshr.s16 q8, q1, #1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	32 vsub.i16 d5, d0, d1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	33 vadd.i16 d6, d2, d17
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	34 vsub.i16 d7, d16, d3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	35 vadd.i16 q0, q2, q3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	36 vsub.i16 q1, q2, q3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	37
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	38 vtrn.16 d0, d1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	39 vtrn.16 d3, d2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	40 vtrn.32 d0, d3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	41 vtrn.32 d1, d2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	42
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	43 vadd.i16 d4, d0, d3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	44 vld1.32 {d18[0]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	45 vswp d1, d3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	46 vshr.s16 q8, q1, #1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	47 vld1.32 {d19[1]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	48 vsub.i16 d5, d0, d1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	49 vld1.32 {d18[1]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	50 vadd.i16 d6, d16, d3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	51 vld1.32 {d19[0]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	52 vsub.i16 d7, d2, d17
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	53 sub r0, r0, r2, lsl #2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	54 vadd.i16 q0, q2, q3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	55 vsub.i16 q1, q2, q3
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	56
10618 9cea4112ffaf ARM: small tweak of NEON H264 IDCT mru parents: 10349 diff changeset	57 vrshr.s16 q0, q0, #6
9cea4112ffaf ARM: small tweak of NEON H264 IDCT mru parents: 10349 diff changeset	58 vrshr.s16 q1, q1, #6
8339 a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	59
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	60 vaddw.u8 q0, q0, d18
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	61 vaddw.u8 q1, q1, d19
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	62
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	63 vqmovun.s16 d0, q0
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	64 vqmovun.s16 d1, q1
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	65
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	66 vst1.32 {d0[0]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	67 vst1.32 {d1[1]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	68 vst1.32 {d0[1]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	69 vst1.32 {d1[0]}, [r0,:32], r2
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	70
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	71 bx lr
a561ec6d1bf6 ARM: NEON optimised h264_idct_add mru parents: diff changeset	72 .endfunc
8340 834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	73
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	74 function ff_h264_idct_dc_add_neon, export=1
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	75 vld1.16 {d2[],d3[]}, [r1,:16]
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	76 vrshr.s16 q1, q1, #6
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	77 vld1.32 {d0[0]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	78 vld1.32 {d0[1]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	79 vaddw.u8 q2, q1, d0
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	80 vld1.32 {d1[0]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	81 vld1.32 {d1[1]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	82 vaddw.u8 q1, q1, d1
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	83 vqmovun.s16 d0, q2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	84 vqmovun.s16 d1, q1
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	85 sub r0, r0, r2, lsl #2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	86 vst1.32 {d0[0]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	87 vst1.32 {d0[1]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	88 vst1.32 {d1[0]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	89 vst1.32 {d1[1]}, [r0,:32], r2
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	90 bx lr
834a77844ba3 ARM: NEON optimised h264_idct_dc_add mru parents: 8339 diff changeset	91 .endfunc
8462 0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	92
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	93 function ff_h264_idct_add16_neon, export=1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	94 push {r4-r8,lr}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	95 mov r4, r0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	96 mov r5, r1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	97 mov r1, r2
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	98 mov r2, r3
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	99 ldr r6, [sp, #24]
8507 779a9c93bf61 ARM: work around linker bug with movw/movt relocations in shared libs mru parents: 8462 diff changeset	100 movrel r7, scan8
8462 0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	101 mov ip, #16
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	102 1: ldrb r8, [r7], #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	103 ldr r0, [r5], #4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	104 ldrb r8, [r6, r8]
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	105 subs r8, r8, #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	106 blt 2f
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	107 ldrsh lr, [r1]
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	108 add r0, r0, r4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	109 movne lr, #0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	110 cmp lr, #0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	111 adrne lr, ff_h264_idct_dc_add_neon
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	112 adreq lr, ff_h264_idct_add_neon
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	113 blx lr
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	114 2: subs ip, ip, #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	115 add r1, r1, #32
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	116 bne 1b
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	117 pop {r4-r8,pc}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	118 .endfunc
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	119
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	120 function ff_h264_idct_add16intra_neon, export=1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	121 push {r4-r8,lr}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	122 mov r4, r0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	123 mov r5, r1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	124 mov r1, r2
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	125 mov r2, r3
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	126 ldr r6, [sp, #24]
8507 779a9c93bf61 ARM: work around linker bug with movw/movt relocations in shared libs mru parents: 8462 diff changeset	127 movrel r7, scan8
8462 0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	128 mov ip, #16
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	129 1: ldrb r8, [r7], #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	130 ldr r0, [r5], #4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	131 ldrb r8, [r6, r8]
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	132 add r0, r0, r4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	133 cmp r8, #0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	134 ldrsh r8, [r1]
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	135 adrne lr, ff_h264_idct_add_neon
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	136 adreq lr, ff_h264_idct_dc_add_neon
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	137 cmpeq r8, #0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	138 blxne lr
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	139 subs ip, ip, #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	140 add r1, r1, #32
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	141 bne 1b
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	142 pop {r4-r8,pc}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	143 .endfunc
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	144
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	145 function ff_h264_idct_add8_neon, export=1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	146 push {r4-r10,lr}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	147 ldm r0, {r4,r9}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	148 add r5, r1, #16*4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	149 add r1, r2, #16*32
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	150 mov r2, r3
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	151 ldr r6, [sp, #32]
8507 779a9c93bf61 ARM: work around linker bug with movw/movt relocations in shared libs mru parents: 8462 diff changeset	152 movrel r7, scan8+16
8462 0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	153 mov ip, #8
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	154 1: ldrb r8, [r7], #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	155 ldr r0, [r5], #4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	156 ldrb r8, [r6, r8]
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	157 tst ip, #4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	158 addeq r0, r0, r4
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	159 addne r0, r0, r9
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	160 cmp r8, #0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	161 ldrsh r8, [r1]
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	162 adrne lr, ff_h264_idct_add_neon
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	163 adreq lr, ff_h264_idct_dc_add_neon
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	164 cmpeq r8, #0
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	165 blxne lr
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	166 subs ip, ip, #1
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	167 add r1, r1, #32
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	168 bne 1b
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	169 pop {r4-r10,pc}
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	170 .endfunc
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	171
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	172 .section .rodata
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	173 scan8: .byte 4+18, 5+18, 4+28, 5+28
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	174 .byte 6+18, 7+18, 6+28, 7+28
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	175 .byte 4+38, 5+38, 4+48, 5+48
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	176 .byte 6+38, 7+38, 6+48, 7+48
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	177 .byte 1+18, 2+18
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	178 .byte 1+28, 2+28
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	179 .byte 1+48, 2+48
0ca0e3c98ed5 ARM: add new h264 idct functions mru parents: 8359 diff changeset	180 .byte 1+58, 2+58

Mercurial > libavcodec.hg

annotate arm/h264idct_neon.S @ 11013:5e5d44c920b6 libavcodec